M谩s

    Hugging Face lanza el modelo visi贸n-lenguaje Idefics2

    - Advertisement -

    Abrazar la cara tiene Anunciado el lanzamiento de Idefics2, un modelo vers谩til capaz de comprender y generar respuestas de texto basadas tanto en im谩genes como en textos. El modelo establece un nuevo punto de referencia para responder preguntas visuales, describir contenido visual, crear historias a partir de im谩genes, extraer informaci贸n de documentos e incluso realizar operaciones aritm茅ticas basadas en informaci贸n visual.

    Idefics2 supera a su predecesor, Idefics1, con s贸lo ocho mil millones de par谩metros y la versatilidad que ofrece su licencia abierta (Apache 2.0), junto con capacidades de reconocimiento 贸ptico de caracteres (OCR) notablemente mejoradas.

    El modelo no solo muestra un rendimiento excepcional en los puntos de referencia de respuesta visual a preguntas, sino que tambi茅n se mantiene firme frente a contempor谩neos mucho m谩s grandes como LLava-Next-34B y MM1-30B-chat:

    El atractivo central de Idefics2 es su integraci贸n con Transformers de Hugging Face desde el principio, lo que garantiza la facilidad de ajuste para una amplia gama de aplicaciones multimodales. Para aquellos ansiosos por sumergirse, hay modelos disponibles para experimentaci贸n en Hugging Face Hub.

    鉂 Tambi茅n te interesa:Samsung apunta a impulsar la IA en el dispositivo con LPDDR5X DRAMSamsung apunta a impulsar la IA en el dispositivo con LPDDR5X DRAM

    Una caracter铆stica destacada de Idefics2 es su filosof铆a de capacitaci贸n integral, que combina conjuntos de datos disponibles abiertamente, incluidos documentos web, pares de im谩genes y t铆tulos y datos OCR. Adem谩s, presenta un innovador conjunto de datos de ajuste denominado ‘The Cauldron’, que fusiona 50 conjuntos de datos meticulosamente seleccionados para un entrenamiento conversacional multifac茅tico.

    Idefics2 exhibe un enfoque refinado para la manipulaci贸n de im谩genes, manteniendo resoluciones y relaciones de aspecto nativas, una desviaci贸n notable de las normas convencionales de cambio de tama帽o en visi贸n por computadora. Su arquitectura se beneficia significativamente de capacidades avanzadas de OCR, transcribiendo h谩bilmente contenido textual dentro de im谩genes y documentos, y cuenta con un rendimiento mejorado en la interpretaci贸n de gr谩ficos y figuras.

    La simplificaci贸n de la integraci贸n de caracter铆sticas visuales en la columna vertebral del lenguaje marca un cambio con respecto a la arquitectura de su predecesor, con la adopci贸n de una agrupaci贸n de Perceiver aprendida y una proyecci贸n de modalidad MLP que mejoran la eficacia general de Idefics2.

    Este avance en los modelos de visi贸n y lenguaje abre nuevas v铆as para explorar interacciones multimodales, con Idefics2 preparado para servir como herramienta fundamental para la comunidad. Sus mejoras de rendimiento e innovaciones t茅cnicas subrayan el potencial de combinar datos visuales y textuales para crear sistemas de IA sofisticados y con conciencia contextual.

    Para los entusiastas e investigadores que buscan aprovechar las capacidades de Idefics2, Hugging Face proporciona un ajuste detallado tutorial.

    鉂 Tambi茅n te interesa:Mixtral 8x22B establece un nuevo punto de referencia para los modelos abiertosMixtral 8x22B establece un nuevo punto de referencia para los modelos abiertos

    Ver tambi茅n: OpenAI hace que GPT-4 Turbo con Vision API est茅 disponible de forma generalizada

    馃摲 1713280776 840 Hugging Face lanza el modelo vision lenguaje Idefics2

    驴Quiere aprender m谩s sobre IA y big data de la mano de los l铆deres de la industria? Verificar Exposici贸n de IA y Big Data que tendr谩 lugar en 脕msterdam, California y Londres. El evento integral comparte ubicaci贸n con otros eventos importantes, incluidos bloquex, Semana de la Transformaci贸n Digitaly Exposici贸n de seguridad cibern茅tica y nube.

    Explore otros pr贸ximos eventos y seminarios web de tecnolog铆a empresarial impulsados 鈥嬧媝or TechForge aqu铆.

    Etiquetas: ai, inteligencia artificial, punto de referencia, abrazando la cara, idefics 2, idefics2, modelo, visi贸n-lenguaje

    鉂 Tambi茅n te interesa:Meta sube el list贸n con Llama 3 LLM de c贸digo abiertoMeta sube el list贸n con Llama 3 LLM de c贸digo abierto

    Fuente: Hugging Face lanza el modelo visi贸n-lenguaje Idefics2

    Populares

    M谩s de esta categor铆a

    DEJA UNA RESPUESTA

    Por favor ingrese su comentario!
    Por favor ingrese su nombre aqu铆

    Este sitio usa Akismet para reducir el spam. Aprende c贸mo se procesan los datos de tus comentarios.