Los metainvestigadores han revelado Sin costuraM4Tun modelo pionero multilingüe y multitarea que facilita la traducción y transcripción fluidas tanto de voz como de texto.
Internet, los dispositivos móviles, las redes sociales y las plataformas de comunicación han marcado el comienzo de una era en la que el acceso a contenidos multilingües ha alcanzado niveles sin precedentes. SeamlessM4T tiene como objetivo hacer realidad la visión de una comunicación y comprensión fluidas en todos los idiomas.
Con una impresionante variedad de capacidades, SeamlessM4T abarca:
- Reconocimiento automático de voz para casi 100 idiomas
- Traducción de voz a texto compatible con casi 100 idiomas de entrada y salida
- Traducción de voz a voz para casi 100 idiomas de entrada y 35 idiomas de salida (incluido el inglés)
- Traducción de texto a texto para casi 100 idiomas
- Traducción de texto a voz para casi 100 idiomas de entrada y 35 idiomas de salida (incluido el inglés)
SeamlessM4T se pone a disposición de investigadores y desarrolladores bajo el CC BY-NC 4.0 licencia, que encarna un espíritu de ciencia abierta.
Además, se han publicado los metadatos de SeamlessAlign, el conjunto de datos de traducción multimodal más grande jamás compilado, que consta de 270.000 horas de alineaciones de voz y texto extraídas. Esto facilita la extracción de datos independiente y una mayor investigación dentro de la comunidad.
El desarrollo de SeamlessM4T aborda un desafío de larga data en el campo de la comunicación multilingüe. A diferencia de los sistemas anteriores, que estaban limitados por una cobertura lingüística limitada y la dependencia de subsistemas separados, SeamlessM4T presenta un modelo unificado capaz de manejar de manera integral tareas de traducción de voz a voz y de voz a texto.
Meta se ha basado en innovaciones anteriores, como Ningún idioma se queda atrás (NLLB) y Traductor de voz universal – crear este modelo multilingüe unificado. Con su impresionante desempeño en lenguajes de bajos recursos y su desempeño consistentemente sólido en lenguajes de altos recursos, SeamlessM4T tiene el potencial de revolucionar la comunicación entre idiomas.
La arquitectura del modelo se basa en el modelo UnitY multitarea, que sobresale en la generación de texto y voz traducidos.
UnitY admite diversas tareas de traducción, incluido el reconocimiento automático de voz, la traducción de texto a texto y la traducción de voz a voz, todo desde un solo modelo. Para entrenar este modelo versátil, Meta empleó técnicas avanzadas como codificadores de texto y voz, codificadores autosupervisados y procesos de decodificación sofisticados.
El resultado es un modelo que supera a los líderes anteriores:
Para garantizar la precisión y seguridad del sistema, Meta se adhiere a un marco de IA responsable.
Meta dice que se ha realizado una investigación exhaustiva sobre la toxicidad y la mitigación de sesgos, lo que ha dado como resultado un modelo que es más consciente y receptivo a los problemas potenciales. El lanzamiento público del modelo SeamlessM4T fomenta la investigación y el desarrollo colaborativos en la comunidad de IA.
A medida que el mundo se vuelve más conectado, la capacidad de SeamlessM4T para trascender las barreras del idioma es un testimonio del poder de la innovación impulsada por la IA. Este hito nos acerca a un futuro donde la comunicación no conoce limitaciones lingüísticas, permitiendo un mundo donde las personas realmente puedan entenderse entre sí independientemente del idioma.
Puede encontrar una demostración de SeamlessM4T aquí. El código, modelo y datos se pueden descargar. en GitHub.
(Credito de imagen: Meta IA)
Ver también: Un estudio destaca el impacto de la demografía en el entrenamiento de IA
¿Quiere aprender más sobre IA y big data de la mano de los líderes de la industria? Verificar Exposición de IA y Big Data que tendrá lugar en Ámsterdam, California y Londres. El evento integral comparte ubicación con Semana de la Transformación Digital.
Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.
Fuente: Meta presenta el modelo de traducción multimodal SeamlessM4T