M谩s

    Los modelos de IA de voz de c贸digo abierto de Meta son compatibles con m谩s de 1100 idiomas

    - Advertisement -

    Los avances en el aprendizaje autom谩tico y la tecnolog铆a de reconocimiento de voz han hecho que la informaci贸n sea m谩s accesible para las personas, en particular para aquellas que dependen de la voz para acceder a la informaci贸n. Sin embargo, la falta de datos etiquetados para numerosos idiomas plantea un desaf铆o importante en el desarrollo de modelos de aprendizaje autom谩tico de alta calidad.

    En respuesta a este problema, el proyecto Massively Multilingual Speech (MMS) liderado por Metal ha logrado avances notables en la expansi贸n de la cobertura de idiomas y la mejora del rendimiento de los modelos de s铆ntesis y reconocimiento de voz.

    Al combinar t茅cnicas de aprendizaje autosupervisado con un conjunto de datos diverso de lecturas religiosas, el proyecto MMS ha logrado resultados impresionantes al aumentar los ~100 idiomas admitidos por los modelos de reconocimiento de voz existentes a m谩s de 1100 idiomas.

    Rompiendo las barreras del idioma

    Para abordar la escasez de datos etiquetados para la mayor铆a de los idiomas, el proyecto MMS utiliz贸 textos religiosos, como la Biblia, que se han traducido a numerosos idiomas.

    Estas traducciones proporcionaron grabaciones de audio disponibles p煤blicamente de personas que le铆an los textos, lo que permiti贸 la creaci贸n de un conjunto de datos que comprende lecturas del Nuevo Testamento en m谩s de 1100 idiomas.

    Al incluir grabaciones no etiquetadas de otras lecturas religiosas, el proyecto ampli贸 la cobertura del idioma a reconocer m谩s de 4.000 idiomas.

    A pesar del dominio espec铆fico del conjunto de datos y de los hablantes predominantemente masculinos, los modelos funcionaron igualmente bien para voces masculinas y femeninas. Meta tambi茅n dice que no introdujo ning煤n sesgo religioso.

    Superar desaf铆os a trav茅s del aprendizaje autosupervisado

    El entrenamiento de modelos de reconocimiento de voz supervisados 鈥嬧媍onvencionales con solo 32 horas de datos por idioma es inadecuado.

    Para superar esta limitaci贸n, el proyecto MMS aprovech贸 los beneficios de la t茅cnica de aprendizaje de representaci贸n del habla autosupervisada wav2vec 2.0.

    Al entrenar modelos autosupervisados 鈥嬧媏n aproximadamente 500聽000 horas de datos de voz en 1400 idiomas, el proyecto redujo significativamente la dependencia de los datos etiquetados.

    Luego, los modelos resultantes se ajustaron para tareas espec铆ficas del habla, como el reconocimiento de voz multiling眉e y la identificaci贸n de idiomas.

    Resultados impresionantes

    La evaluaci贸n de los modelos entrenados en los datos de MMS revel贸 resultados impresionantes. En una comparaci贸n con Whisper de OpenAI, los modelos MMS exhibieron la mitad de la tasa de error de palabras mientras cubr铆an 11 veces m谩s idiomas.

    Adem谩s, el proyecto MMS cre贸 con 茅xito sistemas de texto a voz para m谩s de 1100 idiomas. A pesar de la limitaci贸n de tener relativamente pocos hablantes diferentes para muchos idiomas, el habla generada por estos sistemas exhibi贸 una alta calidad.

    Si bien los modelos MMS han mostrado resultados prometedores, es esencial reconocer sus imperfecciones. Las transcripciones o interpretaciones err贸neas del modelo de voz a texto pueden resultar en un lenguaje ofensivo o inexacto. El proyecto MMS enfatiza la colaboraci贸n entre la comunidad de IA para mitigar tales riesgos.

    Puede leer el documento MMS aqu铆 o encontrar el proyecto en GitHub.

    馃摲 1684861414 452 Los modelos de IA de voz de codigo abierto de

    驴Quiere aprender m谩s sobre IA y big data de los l铆deres de la industria? Verificar Exposici贸n de IA y Big Data teniendo lugar en 脕msterdam, California y Londres. El evento es co-ubicado con Semana de la Transformaci贸n Digital.

    Explore otros pr贸ximos eventos y seminarios web de tecnolog铆a empresarial impulsados 鈥嬧媝or TechForge aqu铆.

    • ryan daws

      Ryan es editor senior en TechForge Media con m谩s de una d茅cada de experiencia cubriendo la 煤ltima tecnolog铆a y entrevistando a figuras l铆deres de la industria. A menudo se lo puede ver en conferencias tecnol贸gicas con un caf茅 fuerte en una mano y una computadora port谩til en la otra. Si es geek, probablemente le guste. Encu茅ntralo en Twitter (@Gadget_Ry) o Mastodon (@[email protected])

      Ver todas las publicaciones

    Etiquetas: ai, inteligencia artificial, meta, meta mms, mms, reconocimiento de voz, texto a voz, reconocimiento de voz

    Fuente: Los modelos de IA de voz de c贸digo abierto de Meta son compatibles con m谩s de 1100 idiomas

    Populares

    M谩s de esta categor铆a

    DEJA UNA RESPUESTA

    Por favor ingrese su comentario!
    Por favor ingrese su nombre aqu铆

    Este sitio usa Akismet para reducir el spam. Aprende c贸mo se procesan los datos de tus comentarios.