Los avances en el aprendizaje automático y la tecnología de reconocimiento de voz han hecho que la información sea más accesible para las personas, en particular para aquellas que dependen de la voz para acceder a la información. Sin embargo, la falta de datos etiquetados para numerosos idiomas plantea un desafío importante en el desarrollo de modelos de aprendizaje automático de alta calidad.
En respuesta a este problema, el proyecto Massively Multilingual Speech (MMS) liderado por Metal ha logrado avances notables en la expansión de la cobertura de idiomas y la mejora del rendimiento de los modelos de síntesis y reconocimiento de voz.
Al combinar técnicas de aprendizaje autosupervisado con un conjunto de datos diverso de lecturas religiosas, el proyecto MMS ha logrado resultados impresionantes al aumentar los ~100 idiomas admitidos por los modelos de reconocimiento de voz existentes a más de 1100 idiomas.
Rompiendo las barreras del idioma
Para abordar la escasez de datos etiquetados para la mayoría de los idiomas, el proyecto MMS utilizó textos religiosos, como la Biblia, que se han traducido a numerosos idiomas.
Estas traducciones proporcionaron grabaciones de audio disponibles públicamente de personas que leían los textos, lo que permitió la creación de un conjunto de datos que comprende lecturas del Nuevo Testamento en más de 1100 idiomas.
Al incluir grabaciones no etiquetadas de otras lecturas religiosas, el proyecto amplió la cobertura del idioma a reconocer más de 4.000 idiomas.
A pesar del dominio específico del conjunto de datos y de los hablantes predominantemente masculinos, los modelos funcionaron igualmente bien para voces masculinas y femeninas. Meta también dice que no introdujo ningún sesgo religioso.
Superar desafíos a través del aprendizaje autosupervisado
El entrenamiento de modelos de reconocimiento de voz supervisados convencionales con solo 32 horas de datos por idioma es inadecuado.
Para superar esta limitación, el proyecto MMS aprovechó los beneficios de la técnica de aprendizaje de representación del habla autosupervisada wav2vec 2.0.
Al entrenar modelos autosupervisados en aproximadamente 500 000 horas de datos de voz en 1400 idiomas, el proyecto redujo significativamente la dependencia de los datos etiquetados.
Luego, los modelos resultantes se ajustaron para tareas específicas del habla, como el reconocimiento de voz multilingüe y la identificación de idiomas.
Resultados impresionantes
La evaluación de los modelos entrenados en los datos de MMS reveló resultados impresionantes. En una comparación con Whisper de OpenAI, los modelos MMS exhibieron la mitad de la tasa de error de palabras mientras cubrían 11 veces más idiomas.
Además, el proyecto MMS creó con éxito sistemas de texto a voz para más de 1100 idiomas. A pesar de la limitación de tener relativamente pocos hablantes diferentes para muchos idiomas, el habla generada por estos sistemas exhibió una alta calidad.
Si bien los modelos MMS han mostrado resultados prometedores, es esencial reconocer sus imperfecciones. Las transcripciones o interpretaciones erróneas del modelo de voz a texto pueden resultar en un lenguaje ofensivo o inexacto. El proyecto MMS enfatiza la colaboración entre la comunidad de IA para mitigar tales riesgos.
Puede leer el documento MMS aquí o encontrar el proyecto en GitHub.
¿Quiere aprender más sobre IA y big data de los líderes de la industria? Verificar Exposición de IA y Big Data teniendo lugar en Ámsterdam, California y Londres. El evento es co-ubicado con Semana de la Transformación Digital.
Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.
Fuente: Los modelos de IA de voz de código abierto de Meta son compatibles con más de 1100 idiomas