Investigadores de Amazon han entrenado un nuevo modelo de lenguaje grande (LLM) para conversión de texto a voz que, según afirman, exhibe habilidades «emergentes».
El modelo de 980 millones de parámetros, llamado BASE TTS, es el modelo de conversión de texto a voz más grande creado hasta ahora. Los investigadores entrenaron modelos de varios tamaños con hasta 100.000 horas de datos de voz de dominio público para ver si observaban los mismos saltos de rendimiento que se producen en los modelos de procesamiento del lenguaje natural una vez que superan una determinada escala.
Descubrieron que su modelo de tamaño mediano de 400 millones de parámetros (entrenado con 10.000 horas de audio) mostraba una marcada mejora en versatilidad y robustez en oraciones de prueba difíciles.
Las oraciones de prueba contenían características léxicas, sintácticas y paralingüísticas complejas, como sustantivos compuestos, emociones, palabras extranjeras y puntuación que normalmente hacen tropezar los sistemas de conversión de texto a voz. Si bien BASE TTS no los manejó a la perfección, cometió muchos menos errores de acentuación, entonación y pronunciación que los modelos existentes.
«Estas oraciones están diseñadas para contener tareas desafiantes, ninguna de las cuales BASE TTS está capacitado explícitamente para realizar», explicaron los investigadores.
La versión más grande del modelo, con 980 millones de parámetros, entrenada con 100.000 horas de audio, no demostró más capacidades más allá de la versión de 400 millones de parámetros.
Si bien es un proceso experimental, la creación de BASE TTS demuestra que estos modelos pueden alcanzar nuevos umbrales de versatilidad a medida que escalan, una señal alentadora para la IA conversacional. Los investigadores planean seguir trabajando para identificar el tamaño óptimo del modelo para habilidades emergentes.
El modelo también está diseñado para ser liviano y transmitible, y empaqueta datos emocionales y prosódicos por separado. Esto podría permitir que el audio hablado con sonido natural se transmita a través de conexiones de bajo ancho de banda.
Puede encontrar el artículo BASE TTS completo en arXiv aquí.
(Foto por Nik en desempaquetar)
Ver también: OpenAI implementa la memoria ChatGPT para seleccionar usuarios
¿Quiere aprender más sobre IA y big data de la mano de los líderes de la industria? Verificar Exposición de IA y Big Data que tendrá lugar en Amsterdam, California y Londres. El evento integral comparte ubicación con otros eventos importantes, incluidos bloquex, Semana de la Transformación Digitaly Exposición de seguridad cibernética y nube.
Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.
Fuente: Amazon entrena LLM de parámetros 980M con ‘habilidades emergentes’