Human eye as the Fundamental AI Research (FAIR) team at Meta announces five projects advancing the company's pursuit of advanced machine intelligence (AMI) with significant boosts to enhancing perception abilities for use cases including robotics and agents.

Meta Fair avance AI como humano con cinco lanzamientos principales

El equipo fundamental de AI Research (Fair) en Meta ha anunciado cinco proyectos que avanzan la búsqueda de la compañía de Avanzed Machine Intelligence (AMI).

Los últimos lanzamientos de Meta Concéntrese en gran medida en mejorar la percepción de la IA, la capacidad de las máquinas para procesar e interpretar información sensorial, junto con los avances en el modelado de idiomas, la robótica y los agentes colaborativos de IA.

Meta declaró que su objetivo implica la creación de máquinas «que puedan adquirir, procesar e interpretar información sensorial sobre el mundo que nos rodea y que puedan usar esta información para tomar decisiones con inteligencia y velocidad humanos».

Los cinco nuevos lanzamientos representan esfuerzos diversos pero interconectados para lograr este ambicioso objetivo.

Codificador de percepción: meta agudiza la ‘visión’ de AI

Central de los nuevos lanzamientos es el codificador de percepción, descrito como un codificador de visión a gran escala diseñado para sobresalir en varias tareas de imagen y video.

Los codificadores de visión funcionan como los «ojos» para los sistemas de IA, lo que les permite comprender los datos visuales.

Meta destaca el creciente desafío de construir codificadores que satisfacen las demandas de la IA avanzada, que requieren capacidades que cierran la visión y el lenguaje, manejan las imágenes y los videos de manera efectiva, y siguen siendo robustas en condiciones desafiantes, incluidos los posibles ataques adversos.

El codificador ideal, según Meta, debería reconocer una amplia gama de conceptos al tiempo que distingue detalles sutiles, citando ejemplos como ver «una raya de rayoser bajo el fondo del mar, identificando un pequeño jardín de oro en el fondo de una imagen, o atrapar un agudouti en una cámara de vida silvestre de la visión nocturna».

Meta afirma que el codificador de percepción logra «un rendimiento excepcional en la imagen y la recuperación de la imagen cero de imágenes y el video, superando todos los modelos de código abierto y propietarios existentes para tales tareas».

Además, sus fortalezas perceptivas se traducen bien a las tareas del idioma.

Cuando se alinea con un modelo de lenguaje grande (LLM), se dice que el codificador supera a otros codificadores de visión en áreas como la respuesta de preguntas visuales (VQA), subtítulos, comprensión de documentos y puesta a tierra (vinculación de texto con regiones de imágenes específicas). Según los informes, también aumenta el rendimiento en las tareas tradicionalmente difíciles para LLM, como comprender las relaciones espaciales (por ejemplo, «si un objeto está detrás de otro») o el movimiento de la cámara en relación con un objeto.

«A medida que la percepción del codificador comienza a integrarse en nuevas aplicaciones, estamos entusiasmados de ver cómo sus capacidades de visión avanzadas permitirán sistemas de IA aún más capaces», dijo Meta.

Modelo de lenguaje de percepción (PLM): investigación abierta en el idioma de la visión

Complementando el codificador está el Modelo de lenguaje de percepción (PLM), un modelo de lenguaje de visión abierto y reproducible dirigido a tareas complejas de reconocimiento visual.

PLM fue entrenado utilizando datos sintéticos a gran escala combinados con conjuntos de datos en idioma de visión abiertos, explícitamente sin destilar el conocimiento de los modelos patentados externos.

Reconociendo las brechas en los datos de comprensión de video existentes, el equipo justo recopiló 2.5 millones de nuevas muestras marcadas con humanos centradas en la respuesta de preguntas de video de grano fino y el subtítulo espacio-temporal. Meta afirma que esto forma el «conjunto de datos más grande de su tipo hasta la fecha».

PLM se ofrece en versiones de parámetros 1, 3 y 8 mil millones, que atienden a las necesidades de investigación académica que requieren transparencia.

Junto con los modelos, Meta está liberando PLM-Videobench, un nuevo punto de referencia diseñado específicamente para probar las capacidades a menudo perdidas por los puntos de referencia existentes, a saber, la «comprensión de la actividad de grano fino y el razonamiento fundamentado espacialmente».

Meta espera que la combinación de modelos abiertos, el gran conjunto de datos y el desafiante punto de referencia empoderen a la comunidad de código abierto.

Meta localización 3D: Dar la conciencia situacional de los robots

Pinchar la brecha entre los comandos del lenguaje y la acción física es meta localización 3D. Este modelo de extremo a extremo tiene como objetivo permitir que los robots localicen con precisión los objetos en un entorno 3D basado en consultas de lenguaje natural de Vocabulario Abierto.

Meta localiza procesos 3D nubes de puntos 3D directamente de sensores RGB-D (como los que se encuentran en algunos robots o cámaras de detección de profundidad). Dado un aviso textual, como «florero de flores cerca de la consola de TV», el sistema considera las relaciones espaciales y el contexto para identificar la instancia de objeto correcta, distinguiéndola de, por ejemplo, un «jarrón sobre la tabla».

El sistema comprende tres piezas principales: un paso de preprocesamiento que convierte las características 2D en nubes de puntos con características 3D; el codificador 3D-JEPA (un modelo previo a la creación de una representación mundial contextualizada en 3D); y el decodificador 3D de ubicación, que toma la representación 3D y la consulta del lenguaje para emitir cajas y máscaras de salida para los objetos especificados.

Junto con el modelo, Meta está lanzando un nuevo conjunto de datos sustancial para la localización de objetos basado en expresiones de referencia. Incluye 130,000 anotaciones de idiomas en 1,346 escenas de los conjuntos de datos Arkitscenes, Scannet y Scannet ++, duplicando efectivamente los datos anotados existentes en esta área.

Meta ve esta tecnología como crucial para desarrollar sistemas robóticos más capaces, incluido su propio proyecto de robot PartNR, que permite una interacción y colaboración más natural humano-robot.

Transformador latente de byte dinámico: modelado de lenguaje eficiente y robusto

Después de la investigación publicada a fines de 2024, Meta ahora está liberando los pesos del modelo para su transformador latente de byte dinámico de parámetros de 8 mil millones.

Esta arquitectura representa un cambio de alejamiento de los modelos de lenguaje basados ​​en la tokenización tradicionales, operando en su lugar a nivel de byte. Meta afirma que este enfoque logra un rendimiento comparable a escala al tiempo que ofrece mejoras significativas en la eficiencia de inferencia y la robustez.

Los LLM tradicionales dividen el texto en ‘tokens’, que pueden luchar con errores ortográficos, palabras novedosas o entradas adversas. Los modelos de nivel de bytes procesan bytes sin procesar, que potencialmente ofrecen una mayor resistencia.

Meta informa que el transformador latente de byte dinámico «supera a los modelos basados ​​en tokeniser en varias tareas, con una ventaja de robustez promedio de +7 puntos (en Helaswag perturbados), y alcanzando hasta +55 puntos en tareas desde el lindo punto de referencia de token-Enderstanding».

Al liberar los pesos junto con la base de código previamente compartida, Meta alienta a la comunidad de investigación a explorar este enfoque alternativo para el modelado de idiomas.

Razonador colaborativo: meta avances agentes de IA socialmente inteligentes

El lanzamiento final, el razonador colaborativo, aborda el complejo desafío de crear agentes de IA que pueden colaborar efectivamente con humanos u otros IA.

Meta señala que la colaboración humana a menudo produce resultados superiores y tiene como objetivo imbuir la IA con capacidades similares para tareas como ayudar con la tarea o la preparación de la entrevista de trabajo.

Dicha colaboración requiere no solo la resolución de problemas sino también las habilidades sociales como la comunicación, la empatía, proporcionar retroalimentación y comprender los estados mentales (teoría de la mente) de los demás, a menudo desarrollándose en múltiples giros conversacionales.

Los métodos actuales de capacitación y evaluación de LLM a menudo descuidan estos aspectos sociales y colaborativos. Además, la recopilación de datos conversacionales relevantes es costoso y difícil.

El razonador colaborativo proporciona un marco para evaluar y mejorar estas habilidades. Incluye tareas orientadas a objetivos que requieren un razonamiento de varios pasos logrados a través de la conversación entre dos agentes. El marco prueba las habilidades como estar en desacuerdo de manera constructiva, persuadir a una pareja y alcanzar una mejor solución compartida.

Las evaluaciones de Meta revelaron que los modelos actuales luchan para aprovechar constantemente la colaboración para obtener mejores resultados. Para abordar esto, proponen una técnica de superación personal utilizando datos de interacción sintética donde un agente LLM colabora consigo mismo.

La generación de estos datos a escala está habilitado por un nuevo motor de servicio modelo de alto rendimiento llamado Matrix. Según los informes, el uso de este enfoque en las tareas de razonamiento matemático, científico y social arrojaron mejoras de hasta un 29.4% en comparación con el rendimiento estándar de ‘cadena de pensamiento’ de un solo LLM.

Al emitir abierta la generación de datos y la tubería de modelado, Meta tiene como objetivo fomentar una mayor investigación sobre la creación de verdaderamente «agentes sociales que puedan asociarse con humanos y otros agentes».

Estas cinco liberaciones subrayan colectivamente la continua inversión continua de Meta en la investigación fundamental de IA, particularmente centrándose en bloques de construcción para máquinas que pueden percibir, comprender e interactuar con el mundo de manera más humana.

Ver también: Meta capacitará a los modelos de IA utilizando datos de usuario de la UE

¿Quiere obtener más información sobre AI y Big Data de los líderes de la industria? Verificar AI y Big Data Expo que tiene lugar en Amsterdam, California y Londres. El evento integral está ubicado en otros eventos líderes, incluidos Conferencia de automatización inteligente, Bloqueo, Semana de transformación digitaly Cyber ​​Security & Cloud Expo.

Explore otros próximos eventos y seminarios web tecnológicos empresariales con TechForge aquí.

Fuente: Meta Fair avance AI como humano con cinco lanzamientos principales

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

This site uses Akismet to reduce spam. Learn how your comment data is processed.