🥇 Hugging Face lanza el modelo visión-lenguaje Idefics2

- Advertisement -

Abrazar la cara tiene Anunciado el lanzamiento de Idefics2, un modelo versátil capaz de comprender y generar respuestas de texto basadas tanto en imágenes como en textos. El modelo establece un nuevo punto de referencia para responder preguntas visuales, describir contenido visual, crear historias a partir de imágenes, extraer información de documentos e incluso realizar operaciones aritméticas basadas en información visual.

Idefics2 supera a su predecesor, Idefics1, con sólo ocho mil millones de parámetros y la versatilidad que ofrece su licencia abierta (Apache 2.0), junto con capacidades de reconocimiento óptico de caracteres (OCR) notablemente mejoradas.

El modelo no solo muestra un rendimiento excepcional en los puntos de referencia de respuesta visual a preguntas, sino que también se mantiene firme frente a contemporáneos mucho más grandes como LLava-Next-34B y MM1-30B-chat:

El atractivo central de Idefics2 es su integración con Transformers de Hugging Face desde el principio, lo que garantiza la facilidad de ajuste para una amplia gama de aplicaciones multimodales. Para aquellos ansiosos por sumergirse, hay modelos disponibles para experimentación en Hugging Face Hub.

❯ También te interesa:

Samsung apunta a impulsar la IA en el dispositivo con LPDDR5X DRAM

Una característica destacada de Idefics2 es su filosofía de capacitación integral, que combina conjuntos de datos disponibles abiertamente, incluidos documentos web, pares de imágenes y títulos y datos OCR. Además, presenta un innovador conjunto de datos de ajuste denominado ‘The Cauldron’, que fusiona 50 conjuntos de datos meticulosamente seleccionados para un entrenamiento conversacional multifacético.

Idefics2 exhibe un enfoque refinado para la manipulación de imágenes, manteniendo resoluciones y relaciones de aspecto nativas, una desviación notable de las normas convencionales de cambio de tamaño en visión por computadora. Su arquitectura se beneficia significativamente de capacidades avanzadas de OCR, transcribiendo hábilmente contenido textual dentro de imágenes y documentos, y cuenta con un rendimiento mejorado en la interpretación de gráficos y figuras.

La simplificación de la integración de características visuales en la columna vertebral del lenguaje marca un cambio con respecto a la arquitectura de su predecesor, con la adopción de una agrupación de Perceiver aprendida y una proyección de modalidad MLP que mejoran la eficacia general de Idefics2.

Este avance en los modelos de visión y lenguaje abre nuevas vías para explorar interacciones multimodales, con Idefics2 preparado para servir como herramienta fundamental para la comunidad. Sus mejoras de rendimiento e innovaciones técnicas subrayan el potencial de combinar datos visuales y textuales para crear sistemas de IA sofisticados y con conciencia contextual.

Para los entusiastas e investigadores que buscan aprovechar las capacidades de Idefics2, Hugging Face proporciona un ajuste detallado tutorial.

❯ También te interesa:

Mixtral 8x22B establece un nuevo punto de referencia para los modelos abiertos

Ver también: OpenAI hace que GPT-4 Turbo con Vision API esté disponible de forma generalizada

¿Quiere aprender más sobre IA y big data de la mano de los líderes de la industria? Verificar Exposición de IA y Big Data que tendrá lugar en Ámsterdam, California y Londres. El evento integral comparte ubicación con otros eventos importantes, incluidos bloquex, Semana de la Transformación Digitaly Exposición de seguridad cibernética y nube.

Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.

Etiquetas: ai, inteligencia artificial, punto de referencia, abrazando la cara, idefics 2, idefics2, modelo, visión-lenguaje

❯ También te interesa: