OpenAI ha anunciado que su potente modelo GPT-4 Turbo con Vision ya está disponible generalmente disponible a través de la API de la empresa, lo que abre nuevas oportunidades para que las empresas y los desarrolladores integren capacidades avanzadas de lenguaje y visión en sus aplicaciones.
El lanzamiento de GPT-4 Turbo con Vision en la API sigue al lanzamiento inicial de las funciones de carga de audio y visión de GPT-4 en septiembre pasado y a la presentación del modelo GPT-4 Turbo turboalimentado en la conferencia de desarrolladores de OpenAI en noviembre.
GPT-4 Turbo promete importantes mejoras de velocidad, ventanas de contexto de entrada más grandes de hasta 128.000 tokens (equivalente a unas 300 páginas) y una mayor asequibilidad para los desarrolladores.
Una mejora clave es la capacidad de las solicitudes de API para utilizar las capacidades de análisis y reconocimiento de visión del modelo a través del formato de texto JSON y llamadas de funciones. Esto permite a los desarrolladores generar fragmentos de código JSON que pueden automatizar acciones dentro de aplicaciones conectadas, como enviar correos electrónicos, realizar compras o publicar en línea. Sin embargo, OpenAI recomienda encarecidamente crear flujos de confirmación de usuarios antes de realizar acciones que afecten al mundo real.
Varias empresas emergentes ya están aprovechando GPT-4 Turbo con Vision, incluidas Cognicióncuyo agente de codificación de IA Devin se basa en el modelo para generar automáticamente el código completo:
Devin, construido por @cognición_labses un asistente de ingeniería de software de IA impulsado por GPT-4 Turbo que utiliza la visión para una variedad de tareas de codificación. pic.twitter.com/E1Svxe5fBu
– Desarrolladores de OpenAI (@OpenAIDevs) 9 de abril de 2024
Saludaruna aplicación de salud y fitness, utiliza el modelo para proporcionar análisis nutricionales y recomendaciones basadas en fotografías de comidas:
El @saludifyme El equipo creó Snap utilizando GPT-4 Turbo con Vision para brindar a los usuarios información nutricional a través del reconocimiento fotográfico de alimentos de todo el mundo. pic.twitter.com/jWFLuBgEoA
– Desarrolladores de OpenAI (@OpenAIDevs) 9 de abril de 2024
TLDrawuna startup con sede en el Reino Unido, emplea GPT-4 Turbo con Vision para alimentar su pizarra virtual y convertir los dibujos de los usuarios en sitios web funcionales:
Hacer Real, construido por @tldrawpermite a los usuarios dibujar la interfaz de usuario en una pizarra y utiliza GPT-4 Turbo con Vision para generar un sitio web funcional impulsado por código real. pic.twitter.com/RYlbmfeNRZ
– Desarrolladores de OpenAI (@OpenAIDevs) 9 de abril de 2024
A pesar de enfrentar una dura competencia de modelos más nuevos como Claude 3 Opus de Anthropic y Gemini Advanced de Google, el lanzamiento de la API debería ayudar a solidificar la posición de OpenAI en el mercado empresarial mientras los desarrolladores esperan el próximo gran modelo de lenguaje de la compañía.
(Foto por v2osk)
Ver también: Stability AI presenta el modelo Stable LM 2 con parámetros 12B y la variante 1.6B actualizada
¿Quiere aprender más sobre IA y big data de la mano de los líderes de la industria? Verificar Exposición de IA y Big Data que tendrá lugar en Amsterdam, California y Londres. El evento integral comparte ubicación con otros eventos importantes, incluidos bloquex, Semana de la Transformación Digitaly Exposición de seguridad cibernética y nube.
Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.
Fuente: OpenAI hace que GPT-4 Turbo con Vision API esté disponible de forma generalizada