Más

    Meta presenta cinco modelos de IA para procesamiento multimodal, generación de música y más

    - Advertisement -

    meta tiene desvelado cinco nuevos modelos e investigaciones importantes de IA, incluidos sistemas multimodales que pueden procesar texto e imágenes, modelos de lenguaje de próxima generación, generación de música, detección de voz por IA y esfuerzos para mejorar la diversidad en los sistemas de IA.

    Los lanzamientos provienen del equipo de Investigación Fundamental de IA (FAIR) de Meta, que se ha centrado en el avance de la IA a través de la investigación abierta y la colaboración durante más de una década. A medida que la IA innova rápidamente, Meta cree que trabajar con la comunidad global es crucial.

    «Al compartir públicamente esta investigación, esperamos inspirar iteraciones y, en última instancia, ayudar a hacer avanzar la IA de una manera responsable», dijo Meta.

    Chameleon: procesamiento multimodal de texto e imágenes

    Entre los lanzamientos se encuentran componentes clave de los modelos ‘Chameleon’ de Meta bajo una licencia de investigación. Chameleon es una familia de modelos multimodales que pueden comprender y generar texto e imágenes simultáneamente, a diferencia de la mayoría de los modelos de lenguaje grandes que suelen ser unimodales.

    «Así como los humanos pueden procesar palabras e imágenes simultáneamente, Chameleon puede procesar y entregar imágenes y texto al mismo tiempo», explicó Meta. «Chameleon puede tomar cualquier combinación de texto e imágenes como entrada y también generar cualquier combinación de texto e imágenes».

    Los casos de uso potenciales son prácticamente ilimitados, desde generar subtítulos creativos hasta generar nuevas escenas con texto e imágenes.

    Predicción de múltiples tokens para un entrenamiento de modelos de lenguaje más rápido

    Meta también ha lanzado modelos previamente entrenados para completar código que utilizan «predicción de múltiples tokens» bajo una licencia de investigación no comercial. El entrenamiento con modelos de lenguaje tradicionales es ineficiente al predecir solo la siguiente palabra. Los modelos de tokens múltiples pueden predecir múltiples palabras futuras simultáneamente para entrenar más rápido.

    «Mientras [the one-word] El enfoque es simple y escalable, también es ineficiente. Requiere varios órdenes de magnitud más texto del que necesitan los niños para aprender el mismo grado de fluidez en el lenguaje”, afirmó Meta.

    JASCO: modelo mejorado de conversión de texto a música

    En el lado creativo, JASCO de Meta permite generar clips musicales a partir de texto y al mismo tiempo ofrece más control al aceptar entradas como acordes y ritmos.

    «Mientras que los modelos existentes de conversión de texto a música, como MusicGen, se basan principalmente en entradas de texto para la generación de música, nuestro nuevo modelo, JASCO, es capaz de aceptar varias entradas, como acordes o tiempos, para mejorar el control sobre las salidas de música generada», explicó Meta. .

    AudioSeal: detección de voz generada por IA

    Meta afirma que AudioSeal es el primer sistema de marca de agua de audio diseñado para detectar voz generada por IA. Puede identificar los segmentos específicos generados por la IA dentro de clips de audio más grandes hasta 485 veces más rápido que los métodos anteriores.

    “AudioSeal se lanza bajo una licencia comercial. Es sólo una de varias líneas de investigación responsable que hemos compartido para ayudar a prevenir el uso indebido de las herramientas de IA generativa”, afirmó Meta.

    Mejorar la diversidad de texto a imagen

    Otro lanzamiento importante tiene como objetivo mejorar la diversidad de modelos de texto a imagen que a menudo pueden presentar sesgos geográficos y culturales.

    Meta desarrolló indicadores automáticos para evaluar posibles disparidades geográficas y realizó un gran estudio de más de 65.000 anotaciones para comprender cómo las personas globalmente perciben la representación geográfica.

    «Esto permite una mayor diversidad y una mejor representación en las imágenes generadas por IA», dijo Meta. El código y las anotaciones relevantes se han publicado para ayudar a mejorar la diversidad entre los modelos generativos.

    Al compartir públicamente estos modelos innovadores, Meta dice que espera fomentar la colaboración e impulsar la innovación dentro de la comunidad de IA.

    (Foto por Dima Solomina)

    Ver también: NVIDIA presenta los últimos avances en IA visual

    ¿Quiere aprender más sobre IA y big data de la mano de los líderes de la industria? Verificar Exposición de IA y Big Data que tendrá lugar en Amsterdam, California y Londres. El evento integral comparte ubicación con otros eventos importantes, incluidos Conferencia de automatización inteligente, bloquex, Semana de la Transformación Digitaly Exposición de seguridad cibernética y nube.

    Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados ​​por TechForge aquí.

    Etiquetas: ai, inteligencia artificial, audioseal, camaleón, justa, jasco, meta, meta ai, modelos, generación de música, fuente abierta, texto a imagen

    Fuente: Meta presenta cinco modelos de IA para procesamiento multimodal, generación de música y más

    Populares

    Más de esta categoría

    DEJA UNA RESPUESTA

    Por favor ingrese su comentario!
    Por favor ingrese su nombre aquí

    Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.