OpenAI tiene lanzado su nuevo modelo insignia, GPT-4o, que integra a la perfección entradas y salidas de texto, audio y visuales, lo que promete mejorar la naturalidad de las interacciones de las máquinas.
GPT-4o, donde la «o» significa «omni», está diseñado para atender a un espectro más amplio de modalidades de entrada y salida. «Acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen», anunció OpenAI.
Los usuarios pueden esperar un tiempo de respuesta de hasta 232 milisegundos, similar a la velocidad de conversación humana, con un impresionante tiempo de respuesta promedio de 320 milisegundos.
Capacidades pioneras
La introducción de GPT-4o marca un salto con respecto a sus predecesores al procesar todas las entradas y salidas a través de una única red neuronal. Este enfoque permite que el modelo retenga información y contexto críticos que previamente se perdieron en el proceso de modelo separado utilizado en versiones anteriores.
Antes de GPT-4o, el ‘Modo de voz’ podía manejar interacciones de audio con latencias de 2,8 segundos para GPT-3.5 y 5,4 segundos para GPT-4. La configuración anterior incluía tres modelos distintos: uno para transcribir audio a texto, otro para respuestas textuales y un tercero para convertir texto nuevamente a audio. Esta segmentación provocó la pérdida de matices como el tono, los múltiples hablantes y el ruido de fondo.
Como solución integrada, GPT-4o cuenta con mejoras notables en la comprensión de visión y audio. Puede realizar tareas más complejas, como armonizar canciones, proporcionar traducciones en tiempo real e incluso generar resultados con elementos expresivos como risas y cantos. Ejemplos de sus amplias capacidades incluyen la preparación de entrevistas, la traducción de idiomas sobre la marcha y la generación de respuestas de servicio al cliente.
Nathaniel Whittemore, fundador y director ejecutivo de Superinteligente, comentó: “Los anuncios de productos van a ser inherentemente más divisivos que los anuncios de tecnología porque es más difícil saber si un producto va a ser realmente diferente hasta que realmente interactúes con él. Y especialmente cuando se trata de un modo diferente de interacción entre humanos y computadoras, hay aún más espacio para creencias diversas sobre lo útil que será.
“Dicho esto, el hecho de que no se haya anunciado un GPT-4.5 o GPT-5 también distrae a la gente del avance tecnológico de que se trata de un modelo multimodal nativo. No es un modelo de texto con voz o imagen adicional; es un token multimodal de entrada y salida de token multimodal. Esto abre una enorme variedad de casos de uso que tomarán algún tiempo para filtrarse en la conciencia”.
Rendimiento y seguridad
GPT-4o iguala los niveles de rendimiento de GPT-4 Turbo en tareas de codificación y texto en inglés, pero eclipsa significativamente en idiomas distintos del inglés, lo que lo convierte en un modelo más inclusivo y versátil. Establece un nuevo punto de referencia en razonamiento con una puntuación alta del 88,7 % en la MMLU COT de 0 disparos (preguntas de conocimientos generales) y del 87,2 % en la MMLU sin CoT de 5 disparos.
El modelo también sobresale en pruebas de audio y traducción, superando modelos anteriores de última generación como Susurro-v3. En evaluaciones multilingües y de visión, demuestra un rendimiento superior, mejorando las capacidades multilingües, de audio y de visión de OpenAI.
OpenAI ha incorporado sólidas medidas de seguridad en GPT-4o por diseño, incorporando técnicas para filtrar datos de entrenamiento y refinando el comportamiento a través de salvaguardias posteriores al entrenamiento. El modelo ha sido evaluado a través de un Marco de Preparación y cumple con los compromisos voluntarios de OpenAI. Las evaluaciones en áreas como ciberseguridad, persuasión y autonomía del modelo indican que GPT-4o no supera un nivel de riesgo «Medio» en ninguna categoría.
Otras evaluaciones de seguridad involucraron un extenso equipo rojo externo con más de 70 expertos en diversos dominios, incluida la psicología social, los prejuicios, la equidad y la desinformación. Este escrutinio integral tiene como objetivo mitigar los riesgos introducidos por las nuevas modalidades de GPT-4o.
Disponibilidad e integración futura
A partir de hoy, las capacidades de texto e imagen de GPT-4o están disponibles en ChatGPT, incluido un nivel gratuito y funciones extendidas para usuarios Plus. Un nuevo modo de voz impulsado por GPT-4o entrará en prueba alfa dentro de ChatGPT Plus en las próximas semanas.
Los desarrolladores pueden acceder a GPT-4o a través del API para tareas de texto y visión, beneficiándose de su velocidad duplicada, precio reducido a la mitad y límites de velocidad mejorados en comparación con GPT-4 Turbo.
OpenAI planea expandir las funcionalidades de audio y video de GPT-4o a un grupo selecto de socios confiables a través de la API, y se espera una implementación más amplia en el futuro cercano. Esta estrategia de lanzamiento por fases tiene como objetivo garantizar pruebas exhaustivas de seguridad y usabilidad antes de hacer pública toda la gama de capacidades.
“Es muy significativo que hayan puesto este modelo a disposición de todos de forma gratuita, además de hacer que la API sea un 50% más barata. Se trata de un aumento masivo de la accesibilidad”, explicó Whittemore.
OpenAI invita a la comunidad a recibir comentarios para perfeccionar continuamente GPT-4o, enfatizando la importancia de las aportaciones de los usuarios para identificar y cerrar brechas en las que GPT-4 Turbo aún podría tener un rendimiento superior.
(Credito de imagen: Abierto AI)
Ver también: OpenAI toma medidas para impulsar la transparencia del contenido generado por IA
¿Quiere aprender más sobre IA y big data de la mano de los líderes de la industria? Verificar Exposición de IA y Big Data que tendrá lugar en Ámsterdam, California y Londres. El evento integral comparte ubicación con otros eventos importantes, incluidos Conferencia de automatización inteligente, bloquex, Semana de la Transformación Digitaly Exposición de seguridad cibernética y nube.
Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.
Fuente: GPT-4o ofrece interacción de IA similar a la humana con integración de texto, audio y visión