El CTO de Microsoft Alemania, Andreas Braun, confirmó que GPT-4 llegará dentro de una semana del 9 de marzo de 2023 y que será multimodal. La IA multimodal significa que podrá operar con múltiples tipos de entrada, como video, imágenes y sonido.
Modelos multimodales de lenguaje grande
La gran conclusión del anuncio es que GPT-4 es multimodal (SEJ predijo que GPT-4 es multimodal en enero de 2023).
La modalidad es una referencia al tipo de entrada que (en este caso) trata un modelo de lenguaje grande.
Multimodal puede abarcar texto, voz, imágenes y video.
GPT-3 y GPT-3.5 solo operaron en una modalidad, texto.
Según el informe de noticias alemán, GPT-4 puede operar en al menos cuatro modalidades, imágenes, sonido (auditivo), texto y video.
Se cita al Dr. Andreas Braun, CTO de Microsoft Alemania:
“Presentaremos GPT-4 la próxima semana, allí tendremos modelos multimodales que ofrecerán posibilidades completamente diferentes, por ejemplo, videos…”
El informe carecía de detalles para GPT-4, por lo que no está claro si lo que se compartió sobre la multimodalidad era específico de GPT-4 o solo en general.
Director de estrategia empresarial de Microsoft holger kenn explicó las multimodalidades, pero el informe no estaba claro si se refería a la multimodalidad GPT-4 o a la multimodalidad en general.
Creo que sus referencias a la multimodalidad eran específicas de GPT-4.
El informe de noticias compartió:
“Kenn explicó de qué se trata la IA multimodal, que puede traducir texto no solo en imágenes, sino también en música y video”.
Otro dato interesante es que Microsoft está trabajando en “métricas de confianza” para fundamentar su IA con hechos para hacerla más confiable.
microsoft kosmos-1
Algo que aparentemente no se informó en los Estados Unidos es que Microsoft lanzó un modelo de lenguaje multimodal llamado Kosmos-1 a principios de marzo de 2023.
Según el informe del sitio de noticias alemán, Heise.dmi:
“…el equipo sometió el modelo previamente entrenado a varias pruebas, con buenos resultados en la clasificación de imágenes, respuesta a preguntas sobre el contenido de la imagen, etiquetado automatizado de imágenes, reconocimiento óptico de texto y tareas de generación de voz.
…El razonamiento visual, es decir, sacar conclusiones sobre las imágenes sin utilizar el lenguaje como paso intermedio, parece ser clave aquí…»
Kosmos-1 es un modal multimodal que integra las modalidades de texto e imágenes.
GPT-4 va más allá que Kosmos-1 porque añade una tercera modalidad, el vídeo, y también parece incluir la modalidad del sonido.
Funciona en varios idiomas
GPT-4 parece funcionar en todos los idiomas. Se describe como poder recibir una pregunta en alemán y una respuesta en italiano.
Ese es un ejemplo extraño porque, ¿quién haría una pregunta en alemán y querría recibir una respuesta en italiano?
Esto fue lo que se confirmó:
“…la tecnología ha llegado tan lejos que básicamente “funciona en todos los idiomas”: puedes hacer una pregunta en alemán y obtener una respuesta en italiano.
Con la multimodalidad, Microsoft (-OpenAI) ‘hará que los modelos sean integrales’”.
Creo que el objetivo del avance es que el modelo trasciende el lenguaje con su capacidad de extraer conocimiento a través de diferentes idiomas. Entonces, si la respuesta está en italiano, la sabrá y podrá proporcionar la respuesta en el idioma en el que se hizo la pregunta.
Eso lo haría similar al objetivo de la IA multimodal de Google llamada MUM. Se dice que mamá puede proporcionar respuestas en inglés para las cuales los datos solo existen en otro idioma, como el japonés.
Aplicaciones GPT-4
No hay ningún anuncio actual de dónde aparecerá GPT-4. Pero se mencionó específicamente Azure-OpenAI.
Google está luchando por alcanzar a Microsoft mediante la integración de una tecnología competidora en su propio motor de búsqueda. Este desarrollo exacerba aún más la percepción de que Google se está quedando atrás y carece de liderazgo en la IA orientada al consumidor.
Google ya integra IA en múltiples productos como Google Lens, Google Maps y otras áreas en las que los consumidores interactúan con Google. Este enfoque consiste en utilizar la IA como una tecnología de asistencia para ayudar a las personas en pequeñas tareas.
La forma en que Microsoft lo está implementando es más visible y, en consecuencia, está captando toda la atención y reforzando la imagen de Google como agitado y luchando por ponerse al día.
Lea el informe alemán original aquí:
GPT-4 llegará la próxima semana, y será multimodal, dice Microsoft Alemania
Imagen destacada de Shutterstock/Master1305
Fuente: OpenAI GPT-4 llega a mediados de marzo de 2023 y es enorme