Informacion de finetune
Estoy intentando hacer un recopilado de datasets para hacer finetunes de whisper en español. Me gustaria ver si me podrias dar tus observaciones en hacer este finetune. y si viste alguna mejora comparado con la version small finetune?
Crees que valdria la pena usar la version turbo para generar un dataset solo con transcripciones en español, limpiarlas y hacer otro finetune al modelo small?
Hola, para el training use los datasets que estan aqui en HuggingFace. La verdad es que la mejora fue minima. Yo estuve tratando de hacer el tune para no usar la version de pago pero ahorita que es mas barato, me sale muy caro y complicado el tuning.
el "out of the box" te va a servir super bien.
Muchas gracias! he tenido algunos problemas con audios en español de Mexico, pero la calida es aceptable.
Igual y me gustaría generar un dataset en algun momento.
Ya, si queries usar modelos para específicos para diferentes tipos de acentos si vas a tener que entrenar tu modelos. De todas formas Microsoft tiene modelos para diferente tipos de acentos. Solos los he usado para crear audio a partir de texto, pero creo que deberías checarlo.
Yo estoy viviendo en Mérida México y este modelo me funciono bien para transcribir una clases.
Gracias por el feedback. la verdad es muy poca la gente con la que he podido hablar acerca de la calidad de las transcripciones en español. Igual y aprovecho esto para pasarte cualquier observación y el avance para un dataset de entrenamiento que ando creando.
Me parece interesante que el acento de Merida no tenga problemas, es bueno saberlo.