Más

    Los modelos de IA de voz de código abierto de Meta son compatibles con más de 1100 idiomas

    - Advertisement -

    Los avances en el aprendizaje automático y la tecnología de reconocimiento de voz han hecho que la información sea más accesible para las personas, en particular para aquellas que dependen de la voz para acceder a la información. Sin embargo, la falta de datos etiquetados para numerosos idiomas plantea un desafío importante en el desarrollo de modelos de aprendizaje automático de alta calidad.

    En respuesta a este problema, el proyecto Massively Multilingual Speech (MMS) liderado por Metal ha logrado avances notables en la expansión de la cobertura de idiomas y la mejora del rendimiento de los modelos de síntesis y reconocimiento de voz.

    Al combinar técnicas de aprendizaje autosupervisado con un conjunto de datos diverso de lecturas religiosas, el proyecto MMS ha logrado resultados impresionantes al aumentar los ~100 idiomas admitidos por los modelos de reconocimiento de voz existentes a más de 1100 idiomas.

    Rompiendo las barreras del idioma

    Para abordar la escasez de datos etiquetados para la mayoría de los idiomas, el proyecto MMS utilizó textos religiosos, como la Biblia, que se han traducido a numerosos idiomas.

    Estas traducciones proporcionaron grabaciones de audio disponibles públicamente de personas que leían los textos, lo que permitió la creación de un conjunto de datos que comprende lecturas del Nuevo Testamento en más de 1100 idiomas.

    Al incluir grabaciones no etiquetadas de otras lecturas religiosas, el proyecto amplió la cobertura del idioma a reconocer más de 4.000 idiomas.

    A pesar del dominio específico del conjunto de datos y de los hablantes predominantemente masculinos, los modelos funcionaron igualmente bien para voces masculinas y femeninas. Meta también dice que no introdujo ningún sesgo religioso.

    Superar desafíos a través del aprendizaje autosupervisado

    El entrenamiento de modelos de reconocimiento de voz supervisados ​​convencionales con solo 32 horas de datos por idioma es inadecuado.

    Para superar esta limitación, el proyecto MMS aprovechó los beneficios de la técnica de aprendizaje de representación del habla autosupervisada wav2vec 2.0.

    Al entrenar modelos autosupervisados ​​en aproximadamente 500 000 horas de datos de voz en 1400 idiomas, el proyecto redujo significativamente la dependencia de los datos etiquetados.

    Luego, los modelos resultantes se ajustaron para tareas específicas del habla, como el reconocimiento de voz multilingüe y la identificación de idiomas.

    Resultados impresionantes

    La evaluación de los modelos entrenados en los datos de MMS reveló resultados impresionantes. En una comparación con Whisper de OpenAI, los modelos MMS exhibieron la mitad de la tasa de error de palabras mientras cubrían 11 veces más idiomas.

    Además, el proyecto MMS creó con éxito sistemas de texto a voz para más de 1100 idiomas. A pesar de la limitación de tener relativamente pocos hablantes diferentes para muchos idiomas, el habla generada por estos sistemas exhibió una alta calidad.

    Si bien los modelos MMS han mostrado resultados prometedores, es esencial reconocer sus imperfecciones. Las transcripciones o interpretaciones erróneas del modelo de voz a texto pueden resultar en un lenguaje ofensivo o inexacto. El proyecto MMS enfatiza la colaboración entre la comunidad de IA para mitigar tales riesgos.

    Puede leer el documento MMS aquí o encontrar el proyecto en GitHub.

    📷 1684861414 452 Los modelos de IA de voz de codigo abierto de

    ¿Quiere aprender más sobre IA y big data de los líderes de la industria? Verificar Exposición de IA y Big Data teniendo lugar en Ámsterdam, California y Londres. El evento es co-ubicado con Semana de la Transformación Digital.

    Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados ​​por TechForge aquí.

    • ryan daws

      Ryan es editor senior en TechForge Media con más de una década de experiencia cubriendo la última tecnología y entrevistando a figuras líderes de la industria. A menudo se lo puede ver en conferencias tecnológicas con un café fuerte en una mano y una computadora portátil en la otra. Si es geek, probablemente le guste. Encuéntralo en Twitter (@Gadget_Ry) o Mastodon (@[email protected])

      Ver todas las publicaciones

    Etiquetas: ai, inteligencia artificial, meta, meta mms, mms, reconocimiento de voz, texto a voz, reconocimiento de voz

    Fuente: Los modelos de IA de voz de código abierto de Meta son compatibles con más de 1100 idiomas

    Populares

    Más de esta categoría

    DEJA UNA RESPUESTA

    Por favor ingrese su comentario!
    Por favor ingrese su nombre aquí

    Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.