El modelo de 2.700 millones de parámetros de Microsoft fi-2 muestra capacidades excepcionales de razonamiento y comprensión del lenguaje, estableciendo un nuevo estándar de rendimiento entre los modelos de lenguaje base con menos de 13 mil millones de parámetros.
Phi-2 se basa en el éxito de sus predecesores, Phi-1 y Phi-1.5, al igualar o superar modelos hasta 25 veces más grandes, gracias a innovaciones en escalado de modelos y curación de datos de entrenamiento.
El tamaño compacto de Phi-2 lo convierte en un campo de juego ideal para los investigadores, ya que facilita la exploración de la interpretabilidad mecanicista, mejoras de seguridad y experimentación de ajuste en diversas tareas.
Los logros de Phi-2 se basan en dos aspectos clave:
- Calidad de los datos de entrenamiento: Microsoft enfatiza el papel fundamental de la calidad de los datos de entrenamiento en el rendimiento del modelo. Phi-2 aprovecha datos con “calidad de libro de texto”, centrándose en conjuntos de datos sintéticos diseñados para impartir razonamiento de sentido común y conocimiento general. El corpus de capacitación se complementa con datos web cuidadosamente seleccionados, filtrados según el valor educativo y la calidad del contenido.
- Técnicas de escalado innovadoras: Microsoft adopta técnicas innovadoras para ampliar Phi-2 con respecto a su predecesor, Phi-1.5. La transferencia de conocimientos desde el modelo de 1.300 millones de parámetros acelera la convergencia de la formación, lo que genera un claro aumento en las puntuaciones de los puntos de referencia.
Evaluación del desempeño
Phi-2 se ha sometido a una evaluación rigurosa en varios puntos de referencia, incluido Big Bench Hard, razonamiento de sentido común, comprensión del lenguaje, matemáticas y codificación.
Con sólo 2.700 millones de parámetros, Phi-2 supera a los modelos más grandes, incluidos Mistral y Llama-2, y iguala o supera al recientemente anunciado Gemini Nano 2 de Google:
Más allá de los puntos de referencia, Phi-2 muestra sus capacidades en escenarios del mundo real. Las pruebas que incluyen indicaciones comúnmente utilizadas en la comunidad de investigación revelan la destreza de Phi-2 para resolver problemas de física y corregir errores de los estudiantes, mostrando su versatilidad más allá de las evaluaciones estándar:
Phi-2 es un modelo basado en Transformer con un objetivo de predicción de la siguiente palabra, entrenado en 1,4 billones de tokens de conjuntos de datos web y sintéticos. El proceso de capacitación, realizado en 96 GPU A100 durante 14 días, se centra en mantener un alto nivel de seguridad y pretende superar los modelos de código abierto en términos de toxicidad y sesgo.
Con el anuncio de Phi-2, Microsoft continúa superando los límites de lo que pueden lograr los modelos de lenguaje base más pequeños.
(Credito de imagen: microsoft)
Ver también: AI & Big Data Expo: Desmitificando la IA y superando las exageraciones
¿Quiere aprender más sobre IA y big data de la mano de los líderes de la industria? Verificar Exposición de IA y Big Data que tendrá lugar en Amsterdam, California y Londres. El evento integral comparte ubicación con Semana de la Transformación Digital.
Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.
Fuente: Microsoft presenta el modelo de lenguaje de parámetros Phi-2, con 2.700 millones de parámetros