🥇 Meta presenta cinco modelos de IA para procesamiento multimodal, generación de música y más

meta tiene desvelado cinco nuevos modelos e investigaciones importantes de IA, incluidos sistemas multimodales que pueden procesar texto e imágenes, modelos de lenguaje de próxima generación, generación de música, detección de voz por IA y esfuerzos para mejorar la diversidad en los sistemas de IA.

Los lanzamientos provienen del equipo de Investigación Fundamental de IA (FAIR) de Meta, que se ha centrado en el avance de la IA a través de la investigación abierta y la colaboración durante más de una década. A medida que la IA innova rápidamente, Meta cree que trabajar con la comunidad global es crucial.

«Al compartir públicamente esta investigación, esperamos inspirar iteraciones y, en última instancia, ayudar a hacer avanzar la IA de una manera responsable», dijo Meta.

Chameleon: procesamiento multimodal de texto e imágenes

Entre los lanzamientos se encuentran componentes clave de los modelos ‘Chameleon’ de Meta bajo una licencia de investigación. Chameleon es una familia de modelos multimodales que pueden comprender y generar texto e imágenes simultáneamente, a diferencia de la mayoría de los modelos de lenguaje grandes que suelen ser unimodales.

«Así como los humanos pueden procesar palabras e imágenes simultáneamente, Chameleon puede procesar y entregar imágenes y texto al mismo tiempo», explicó Meta. «Chameleon puede tomar cualquier combinación de texto e imágenes como entrada y también generar cualquier combinación de texto e imágenes».

Los casos de uso potenciales son prácticamente ilimitados, desde generar subtítulos creativos hasta generar nuevas escenas con texto e imágenes.

❯ También te interesa:

La nueva startup del cofundador de OpenAI, Ilya Sutskever, apunta a una ‘superinteligencia segura’

Predicción de múltiples tokens para un entrenamiento de modelos de lenguaje más rápido

Meta también ha lanzado modelos previamente entrenados para completar código que utilizan «predicción de múltiples tokens» bajo una licencia de investigación no comercial. El entrenamiento con modelos de lenguaje tradicionales es ineficiente al predecir solo la siguiente palabra. Los modelos de tokens múltiples pueden predecir múltiples palabras futuras simultáneamente para entrenar más rápido.

«Mientras [the one-word] El enfoque es simple y escalable, también es ineficiente. Requiere varios órdenes de magnitud más texto del que necesitan los niños para aprender el mismo grado de fluidez en el lenguaje”, afirmó Meta.

JASCO: modelo mejorado de conversión de texto a música

En el lado creativo, JASCO de Meta permite generar clips musicales a partir de texto y al mismo tiempo ofrece más control al aceptar entradas como acordes y ritmos.

«Mientras que los modelos existentes de conversión de texto a música, como MusicGen, se basan principalmente en entradas de texto para la generación de música, nuestro nuevo modelo, JASCO, es capaz de aceptar varias entradas, como acordes o tiempos, para mejorar el control sobre las salidas de música generada», explicó Meta. .

AudioSeal: detección de voz generada por IA

❯ También te interesa:

Claude 3.5 Sonnet de Anthropic supera al GPT-4o en la mayoría de las pruebas

Meta afirma que AudioSeal es el primer sistema de marca de agua de audio diseñado para detectar voz generada por IA. Puede identificar los segmentos específicos generados por la IA dentro de clips de audio más grandes hasta 485 veces más rápido que los métodos anteriores.

“AudioSeal se lanza bajo una licencia comercial. Es sólo una de varias líneas de investigación responsable que hemos compartido para ayudar a prevenir el uso indebido de las herramientas de IA generativa”, afirmó Meta.

Mejorar la diversidad de texto a imagen

Otro lanzamiento importante tiene como objetivo mejorar la diversidad de modelos de texto a imagen que a menudo pueden presentar sesgos geográficos y culturales.

Meta desarrolló indicadores automáticos para evaluar posibles disparidades geográficas y realizó un gran estudio de más de 65.000 anotaciones para comprender cómo las personas globalmente perciben la representación geográfica.

«Esto permite una mayor diversidad y una mejor representación en las imágenes generadas por IA», dijo Meta. El código y las anotaciones relevantes se han publicado para ayudar a mejorar la diversidad entre los modelos generativos.

Al compartir públicamente estos modelos innovadores, Meta dice que espera fomentar la colaboración e impulsar la innovación dentro de la comunidad de IA.

❯ También te interesa:

xAI asegura el soporte de Dell y Super Micro para proyecto de supercomputadora

(Foto por Dima Solomina)

Ver también: NVIDIA presenta los últimos avances en IA visual

¿Quiere aprender más sobre IA y big data de la mano de los líderes de la industria? Verificar Exposición de IA y Big Data que tendrá lugar en Amsterdam, California y Londres. El evento integral comparte ubicación con otros eventos importantes, incluidos Conferencia de automatización inteligente, bloquex, Semana de la Transformación Digitaly Exposición de seguridad cibernética y nube.

Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.

Etiquetas: ai, inteligencia artificial, audioseal, camaleón, justa, jasco, meta, meta ai, modelos, generación de música, fuente abierta, texto a imagen

Fuente: Meta presenta cinco modelos de IA para procesamiento multimodal, generación de música y más

❯ También te interesa:

Olvídese de AGI, ASI estará aquí dentro de 10 años

Cookie	Duración	Descripción
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duración	Descripción
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_ga_0G6X6Y7N35	2 years	This cookie is installed by Google Analytics.

Entradas relacionadas

Deja un comentario Cancelar respuesta