M谩s

    Meta presenta cinco modelos de IA para procesamiento multimodal, generaci贸n de m煤sica y m谩s

    - Advertisement -

    meta tiene desvelado cinco nuevos modelos e investigaciones importantes de IA, incluidos sistemas multimodales que pueden procesar texto e im谩genes, modelos de lenguaje de pr贸xima generaci贸n, generaci贸n de m煤sica, detecci贸n de voz por IA y esfuerzos para mejorar la diversidad en los sistemas de IA.

    Los lanzamientos provienen del equipo de Investigaci贸n Fundamental de IA (FAIR) de Meta, que se ha centrado en el avance de la IA a trav茅s de la investigaci贸n abierta y la colaboraci贸n durante m谩s de una d茅cada. A medida que la IA innova r谩pidamente, Meta cree que trabajar con la comunidad global es crucial.

    芦Al compartir p煤blicamente esta investigaci贸n, esperamos inspirar iteraciones y, en 煤ltima instancia, ayudar a hacer avanzar la IA de una manera responsable禄, dijo Meta.

    Chameleon: procesamiento multimodal de texto e im谩genes

    Entre los lanzamientos se encuentran componentes clave de los modelos ‘Chameleon’ de Meta bajo una licencia de investigaci贸n. Chameleon es una familia de modelos multimodales que pueden comprender y generar texto e im谩genes simult谩neamente, a diferencia de la mayor铆a de los modelos de lenguaje grandes que suelen ser unimodales.

    芦As铆 como los humanos pueden procesar palabras e im谩genes simult谩neamente, Chameleon puede procesar y entregar im谩genes y texto al mismo tiempo禄, explic贸 Meta. 芦Chameleon puede tomar cualquier combinaci贸n de texto e im谩genes como entrada y tambi茅n generar cualquier combinaci贸n de texto e im谩genes禄.

    Los casos de uso potenciales son pr谩cticamente ilimitados, desde generar subt铆tulos creativos hasta generar nuevas escenas con texto e im谩genes.

    Predicci贸n de m煤ltiples tokens para un entrenamiento de modelos de lenguaje m谩s r谩pido

    Meta tambi茅n ha lanzado modelos previamente entrenados para completar c贸digo que utilizan 芦predicci贸n de m煤ltiples tokens禄 bajo una licencia de investigaci贸n no comercial. El entrenamiento con modelos de lenguaje tradicionales es ineficiente al predecir solo la siguiente palabra. Los modelos de tokens m煤ltiples pueden predecir m煤ltiples palabras futuras simult谩neamente para entrenar m谩s r谩pido.

    鉂 Tambi茅n te interesa:La nueva startup del cofundador de OpenAI, Ilya Sutskever, apunta a una ‘superinteligencia segura’La nueva startup del cofundador de OpenAI, Ilya Sutskever, apunta a una ‘superinteligencia segura’

    芦Mientras [the one-word] El enfoque es simple y escalable, tambi茅n es ineficiente. Requiere varios 贸rdenes de magnitud m谩s texto del que necesitan los ni帽os para aprender el mismo grado de fluidez en el lenguaje鈥, afirm贸 Meta.

    JASCO: modelo mejorado de conversi贸n de texto a m煤sica

    En el lado creativo, JASCO de Meta permite generar clips musicales a partir de texto y al mismo tiempo ofrece m谩s control al aceptar entradas como acordes y ritmos.

    芦Mientras que los modelos existentes de conversi贸n de texto a m煤sica, como MusicGen, se basan principalmente en entradas de texto para la generaci贸n de m煤sica, nuestro nuevo modelo, JASCO, es capaz de aceptar varias entradas, como acordes o tiempos, para mejorar el control sobre las salidas de m煤sica generada禄, explic贸 Meta. .

    AudioSeal: detecci贸n de voz generada por IA

    Meta afirma que AudioSeal es el primer sistema de marca de agua de audio dise帽ado para detectar voz generada por IA. Puede identificar los segmentos espec铆ficos generados por la IA dentro de clips de audio m谩s grandes hasta 485 veces m谩s r谩pido que los m茅todos anteriores.

    鈥淎udioSeal se lanza bajo una licencia comercial. Es s贸lo una de varias l铆neas de investigaci贸n responsable que hemos compartido para ayudar a prevenir el uso indebido de las herramientas de IA generativa鈥, afirm贸 Meta.

    Mejorar la diversidad de texto a imagen

    Otro lanzamiento importante tiene como objetivo mejorar la diversidad de modelos de texto a imagen que a menudo pueden presentar sesgos geogr谩ficos y culturales.

    鉂 Tambi茅n te interesa:Claude 3.5 Sonnet de Anthropic supera al GPT-4o en la mayor铆a de las pruebasClaude 3.5 Sonnet de Anthropic supera al GPT-4o en la mayor铆a de las pruebas

    Meta desarroll贸 indicadores autom谩ticos para evaluar posibles disparidades geogr谩ficas y realiz贸 un gran estudio de m谩s de 65.000 anotaciones para comprender c贸mo las personas globalmente perciben la representaci贸n geogr谩fica.

    芦Esto permite una mayor diversidad y una mejor representaci贸n en las im谩genes generadas por IA禄, dijo Meta. El c贸digo y las anotaciones relevantes se han publicado para ayudar a mejorar la diversidad entre los modelos generativos.

    Al compartir p煤blicamente estos modelos innovadores, Meta dice que espera fomentar la colaboraci贸n e impulsar la innovaci贸n dentro de la comunidad de IA.

    (Foto por Dima Solomina)

    Ver tambi茅n: NVIDIA presenta los 煤ltimos avances en IA visual

    驴Quiere aprender m谩s sobre IA y big data de la mano de los l铆deres de la industria? Verificar Exposici贸n de IA y Big Data que tendr谩 lugar en Amsterdam, California y Londres. El evento integral comparte ubicaci贸n con otros eventos importantes, incluidos Conferencia de automatizaci贸n inteligente, bloquex, Semana de la Transformaci贸n Digitaly Exposici贸n de seguridad cibern茅tica y nube.

    Explore otros pr贸ximos eventos y seminarios web de tecnolog铆a empresarial impulsados 鈥嬧媝or TechForge aqu铆.

    Etiquetas: ai, inteligencia artificial, audioseal, camale贸n, justa, jasco, meta, meta ai, modelos, generaci贸n de m煤sica, fuente abierta, texto a imagen

    鉂 Tambi茅n te interesa:xAI asegura el soporte de Dell y Super Micro para proyecto de supercomputadoraxAI asegura el soporte de Dell y Super Micro para proyecto de supercomputadora

    Fuente: Meta presenta cinco modelos de IA para procesamiento multimodal, generaci贸n de m煤sica y m谩s

    Populares

    M谩s de esta categor铆a

    DEJA UNA RESPUESTA

    Por favor ingrese su comentario!
    Por favor ingrese su nombre aqu铆

    Este sitio usa Akismet para reducir el spam. Aprende c贸mo se procesan los datos de tus comentarios.