🥇 GPT-4o ofrece interacción de IA similar a la humana con integración de texto, audio y visión

OpenAI tiene lanzado su nuevo modelo insignia, GPT-4o, que integra a la perfección entradas y salidas de texto, audio y visuales, lo que promete mejorar la naturalidad de las interacciones de las máquinas.

GPT-4o, donde la «o» significa «omni», está diseñado para atender a un espectro más amplio de modalidades de entrada y salida. «Acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen», anunció OpenAI.

Los usuarios pueden esperar un tiempo de respuesta de hasta 232 milisegundos, similar a la velocidad de conversación humana, con un impresionante tiempo de respuesta promedio de 320 milisegundos.

Capacidades pioneras

La introducción de GPT-4o marca un salto con respecto a sus predecesores al procesar todas las entradas y salidas a través de una única red neuronal. Este enfoque permite que el modelo retenga información y contexto críticos que previamente se perdieron en el proceso de modelo separado utilizado en versiones anteriores.

Antes de GPT-4o, el ‘Modo de voz’ podía manejar interacciones de audio con latencias de 2,8 segundos para GPT-3.5 y 5,4 segundos para GPT-4. La configuración anterior incluía tres modelos distintos: uno para transcribir audio a texto, otro para respuestas textuales y un tercero para convertir texto nuevamente a audio. Esta segmentación provocó la pérdida de matices como el tono, los múltiples hablantes y el ruido de fondo.

Como solución integrada, GPT-4o cuenta con mejoras notables en la comprensión de visión y audio. Puede realizar tareas más complejas, como armonizar canciones, proporcionar traducciones en tiempo real e incluso generar resultados con elementos expresivos como risas y cantos. Ejemplos de sus amplias capacidades incluyen la preparación de entrevistas, la traducción de idiomas sobre la marcha y la generación de respuestas de servicio al cliente.

❯ También te interesa:

Google marca el comienzo de la «era Géminis» con avances en inteligencia artificial

Nathaniel Whittemore, fundador y director ejecutivo de Superinteligente, comentó: “Los anuncios de productos van a ser inherentemente más divisivos que los anuncios de tecnología porque es más difícil saber si un producto va a ser realmente diferente hasta que realmente interactúes con él. Y especialmente cuando se trata de un modo diferente de interacción entre humanos y computadoras, hay aún más espacio para creencias diversas sobre lo útil que será.

“Dicho esto, el hecho de que no se haya anunciado un GPT-4.5 o GPT-5 también distrae a la gente del avance tecnológico de que se trata de un modelo multimodal nativo. No es un modelo de texto con voz o imagen adicional; es un token multimodal de entrada y salida de token multimodal. Esto abre una enorme variedad de casos de uso que tomarán algún tiempo para filtrarse en la conciencia”.

Rendimiento y seguridad

GPT-4o iguala los niveles de rendimiento de GPT-4 Turbo en tareas de codificación y texto en inglés, pero eclipsa significativamente en idiomas distintos del inglés, lo que lo convierte en un modelo más inclusivo y versátil. Establece un nuevo punto de referencia en razonamiento con una puntuación alta del 88,7 % en la MMLU COT de 0 disparos (preguntas de conocimientos generales) y del 87,2 % en la MMLU sin CoT de 5 disparos.

El modelo también sobresale en pruebas de audio y traducción, superando modelos anteriores de última generación como Susurro-v3. En evaluaciones multilingües y de visión, demuestra un rendimiento superior, mejorando las capacidades multilingües, de audio y de visión de OpenAI.

OpenAI ha incorporado sólidas medidas de seguridad en GPT-4o por diseño, incorporando técnicas para filtrar datos de entrenamiento y refinando el comportamiento a través de salvaguardias posteriores al entrenamiento. El modelo ha sido evaluado a través de un Marco de Preparación y cumple con los compromisos voluntarios de OpenAI. Las evaluaciones en áreas como ciberseguridad, persuasión y autonomía del modelo indican que GPT-4o no supera un nivel de riesgo «Medio» en ninguna categoría.

❯ También te interesa:

Emiratos Árabes Unidos presenta un nuevo modelo de inteligencia artificial para rivalizar con los grandes gigantes tecnológicos

Otras evaluaciones de seguridad involucraron un extenso equipo rojo externo con más de 70 expertos en diversos dominios, incluida la psicología social, los prejuicios, la equidad y la desinformación. Este escrutinio integral tiene como objetivo mitigar los riesgos introducidos por las nuevas modalidades de GPT-4o.

Disponibilidad e integración futura

A partir de hoy, las capacidades de texto e imagen de GPT-4o están disponibles en ChatGPT, incluido un nivel gratuito y funciones extendidas para usuarios Plus. Un nuevo modo de voz impulsado por GPT-4o entrará en prueba alfa dentro de ChatGPT Plus en las próximas semanas.

Los desarrolladores pueden acceder a GPT-4o a través del API para tareas de texto y visión, beneficiándose de su velocidad duplicada, precio reducido a la mitad y límites de velocidad mejorados en comparación con GPT-4 Turbo.

OpenAI planea expandir las funcionalidades de audio y video de GPT-4o a un grupo selecto de socios confiables a través de la API, y se espera una implementación más amplia en el futuro cercano. Esta estrategia de lanzamiento por fases tiene como objetivo garantizar pruebas exhaustivas de seguridad y usabilidad antes de hacer pública toda la gama de capacidades.

“Es muy significativo que hayan puesto este modelo a disposición de todos de forma gratuita, además de hacer que la API sea un 50% más barata. Se trata de un aumento masivo de la accesibilidad”, explicó Whittemore.

OpenAI invita a la comunidad a recibir comentarios para perfeccionar continuamente GPT-4o, enfatizando la importancia de las aportaciones de los usuarios para identificar y cerrar brechas en las que GPT-4 Turbo aún podría tener un rendimiento superior.

❯ También te interesa:

📷 El auge de la automatizacion inteligente como diferenciador estrategico

El auge de la automatización inteligente como diferenciador estratégico

(Credito de imagen: Abierto AI)

Ver también: OpenAI toma medidas para impulsar la transparencia del contenido generado por IA

¿Quiere aprender más sobre IA y big data de la mano de los líderes de la industria? Verificar Exposición de IA y Big Data que tendrá lugar en Ámsterdam, California y Londres. El evento integral comparte ubicación con otros eventos importantes, incluidos Conferencia de automatización inteligente, bloquex, Semana de la Transformación Digitaly Exposición de seguridad cibernética y nube.

Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.

Etiquetas: ai, api, inteligencia artificial, puntos de referencia, chatgpt, codificación, desarrolladores, desarrollo, gpt-4o, modelo, multimodal, openai, rendimiento, programación

Fuente: GPT-4o ofrece interacción de IA similar a la humana con integración de texto, audio y visión

❯ También te interesa:

¿La IA revolucionará el juego?

Cookie	Duración	Descripción
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duración	Descripción
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_ga_0G6X6Y7N35	2 years	This cookie is installed by Google Analytics.

Entradas relacionadas

Deja un comentario Cancelar respuesta