OpenAI tiene lanzado su nuevo modelo insignia, GPT-4o, que integra a la perfección entradas y salidas de texto, audio y visuales, lo que promete mejorar la naturalidad de las interacciones de las máquinas.
GPT-4o, donde la «o» significa «omni», está diseñado para atender a un espectro más amplio de modalidades de entrada y salida. «Acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen», anunció OpenAI.
Los usuarios pueden esperar un tiempo de respuesta de hasta 232 milisegundos, similar a la velocidad de conversación humana, con un impresionante tiempo de respuesta promedio de 320 milisegundos.
Capacidades pioneras
La introducción de GPT-4o marca un salto con respecto a sus predecesores al procesar todas las entradas y salidas a través de una única red neuronal. Este enfoque permite que el modelo retenga información y contexto críticos que previamente se perdieron en el proceso de modelo separado utilizado en versiones anteriores.
Antes de GPT-4o, el ‘Modo de voz’ podía manejar interacciones de audio con latencias de 2,8 segundos para GPT-3.5 y 5,4 segundos para GPT-4. La configuración anterior incluía tres modelos distintos: uno para transcribir audio a texto, otro para respuestas textuales y un tercero para convertir texto nuevamente a audio. Esta segmentación provocó la pérdida de matices como el tono, los múltiples hablantes y el ruido de fondo.
Como solución integrada, GPT-4o cuenta con mejoras notables en la comprensión de visión y audio. Puede realizar tareas más complejas, como armonizar canciones, proporcionar traducciones en tiempo real e incluso generar resultados con elementos expresivos como risas y cantos. Ejemplos de sus amplias capacidades incluyen la preparación de entrevistas, la traducción de idiomas sobre la marcha y la generación de respuestas de servicio al cliente.
❯ También te interesa:
Nathaniel Whittemore, fundador y director ejecutivo de Superinteligente, comentó: “Los anuncios de productos van a ser inherentemente más divisivos que los anuncios de tecnología porque es más difícil saber si un producto va a ser realmente diferente hasta que realmente interactúes con él. Y especialmente cuando se trata de un modo diferente de interacción entre humanos y computadoras, hay aún más espacio para creencias diversas sobre lo útil que será.
“Dicho esto, el hecho de que no se haya anunciado un GPT-4.5 o GPT-5 también distrae a la gente del avance tecnológico de que se trata de un modelo multimodal nativo. No es un modelo de texto con voz o imagen adicional; es un token multimodal de entrada y salida de token multimodal. Esto abre una enorme variedad de casos de uso que tomarán algún tiempo para filtrarse en la conciencia”.
Rendimiento y seguridad
GPT-4o iguala los niveles de rendimiento de GPT-4 Turbo en tareas de codificación y texto en inglés, pero eclipsa significativamente en idiomas distintos del inglés, lo que lo convierte en un modelo más inclusivo y versátil. Establece un nuevo punto de referencia en razonamiento con una puntuación alta del 88,7 % en la MMLU COT de 0 disparos (preguntas de conocimientos generales) y del 87,2 % en la MMLU sin CoT de 5 disparos.
El modelo también sobresale en pruebas de audio y traducción, superando modelos anteriores de última generación como Susurro-v3. En evaluaciones multilingües y de visión, demuestra un rendimiento superior, mejorando las capacidades multilingües, de audio y de visión de OpenAI.
OpenAI ha incorporado sólidas medidas de seguridad en GPT-4o por diseño, incorporando técnicas para filtrar datos de entrenamiento y refinando el comportamiento a través de salvaguardias posteriores al entrenamiento. El modelo ha sido evaluado a través de un Marco de Preparación y cumple con los compromisos voluntarios de OpenAI. Las evaluaciones en áreas como ciberseguridad, persuasión y autonomía del modelo indican que GPT-4o no supera un nivel de riesgo «Medio» en ninguna categoría.
❯ También te interesa:
Otras evaluaciones de seguridad involucraron un extenso equipo rojo externo con más de 70 expertos en diversos dominios, incluida la psicología social, los prejuicios, la equidad y la desinformación. Este escrutinio integral tiene como objetivo mitigar los riesgos introducidos por las nuevas modalidades de GPT-4o.
Disponibilidad e integración futura
A partir de hoy, las capacidades de texto e imagen de GPT-4o están disponibles en ChatGPT, incluido un nivel gratuito y funciones extendidas para usuarios Plus. Un nuevo modo de voz impulsado por GPT-4o entrará en prueba alfa dentro de ChatGPT Plus en las próximas semanas.
Los desarrolladores pueden acceder a GPT-4o a través del API para tareas de texto y visión, beneficiándose de su velocidad duplicada, precio reducido a la mitad y límites de velocidad mejorados en comparación con GPT-4 Turbo.
OpenAI planea expandir las funcionalidades de audio y video de GPT-4o a un grupo selecto de socios confiables a través de la API, y se espera una implementación más amplia en el futuro cercano. Esta estrategia de lanzamiento por fases tiene como objetivo garantizar pruebas exhaustivas de seguridad y usabilidad antes de hacer pública toda la gama de capacidades.
“Es muy significativo que hayan puesto este modelo a disposición de todos de forma gratuita, además de hacer que la API sea un 50% más barata. Se trata de un aumento masivo de la accesibilidad”, explicó Whittemore.
OpenAI invita a la comunidad a recibir comentarios para perfeccionar continuamente GPT-4o, enfatizando la importancia de las aportaciones de los usuarios para identificar y cerrar brechas en las que GPT-4 Turbo aún podría tener un rendimiento superior.
❯ También te interesa:
(Credito de imagen: Abierto AI)
Ver también: OpenAI toma medidas para impulsar la transparencia del contenido generado por IA
¿Quiere aprender más sobre IA y big data de la mano de los líderes de la industria? Verificar Exposición de IA y Big Data que tendrá lugar en Ámsterdam, California y Londres. El evento integral comparte ubicación con otros eventos importantes, incluidos Conferencia de automatización inteligente, bloquex, Semana de la Transformación Digitaly Exposición de seguridad cibernética y nube.
Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.
Fuente: GPT-4o ofrece interacción de IA similar a la humana con integración de texto, audio y visión
