Microsoft tiene Anunciado la familia Phi-3 de modelos abiertos de lenguaje pequeño (SLM), promocionándolos como los más capaces y rentables de su tamaño disponibles. El innovador enfoque de capacitación desarrollado por investigadores de Microsoft ha permitido que los modelos Phi-3 superen a los modelos más grandes en términos de lenguaje, codificación y matemáticas.
“Lo que vamos a empezar a ver no es un cambio de grande a pequeño, sino un cambio de una categoría singular de modelos a una cartera de modelos donde los clientes tienen la capacidad de tomar una decisión sobre cuál es el mejor modelo para sus necesidades. escenario”, dijo Sonali Yadav, directora principal de productos para IA generativa en Microsoft.
El primer modelo Phi-3, Phi-3-mini con 3.800 millones de parámetros, ya está disponible públicamente en Catálogo de modelos de IA de Azure, abrazando la cara, Ollamay como un NIM de NVIDIA microservicio. A pesar de su tamaño compacto, Phi-3-mini supera a los modelos que duplican su tamaño. Pronto llegarán modelos Phi-3 adicionales como Phi-3-small (parámetros 7B) y Phi-3-medium (parámetros 14B).
«Es posible que algunos clientes sólo necesiten modelos pequeños, otros necesitarán modelos grandes y muchos querrán combinar ambos de diversas maneras», dijo Luis Vargas, vicepresidente de IA de Microsoft.
La ventaja clave de los SLM es su tamaño más pequeño, lo que permite la implementación en el dispositivo de experiencias de IA de baja latencia sin conectividad de red. Los posibles casos de uso incluyen sensores inteligentes, cámaras, equipos agrícolas y más. La privacidad es otro beneficio al mantener los datos en el dispositivo.
(Crédito: Microsoft)
Los modelos de lenguaje grande (LLM) sobresalen en el razonamiento complejo sobre vastos conjuntos de datos, puntos fuertes adecuados para aplicaciones como el descubrimiento de fármacos al comprender las interacciones en la literatura científica. Sin embargo, los SLM ofrecen una alternativa convincente para responder consultas, resumir, generar contenido y similares de manera más sencilla.
«En lugar de perseguir modelos cada vez más grandes, Microsoft está desarrollando herramientas con datos más cuidadosamente seleccionados y capacitación especializada», comentó Victor Botev, CTO y cofundador de Iris.ai.
“Esto permite mejorar el rendimiento y la capacidad de razonamiento sin los enormes costes computacionales de los modelos con billones de parámetros. Cumplir esta promesa significaría derribar una enorme barrera de adopción para las empresas que buscan soluciones de IA”.
Técnica de entrenamiento innovadora
Lo que permitió el salto de calidad SLM de Microsoft fue un enfoque innovador de filtrado y generación de datos inspirado en los libros de cuentos para dormir.
«En lugar de entrenar solo con datos web sin procesar, ¿por qué no buscar datos que sean de muy alta calidad?» preguntó Sebastien Bubeck, vicepresidente de Microsoft que lidera la investigación de SLM.
La rutina de lectura nocturna de Ronen Eldan con su hija generó la idea de generar un conjunto de datos ‘TinyStories’ de millones de narrativas simples creadas al generar un modelo grande con combinaciones de palabras que un niño de 4 años conocería. Sorprendentemente, un modelo de parámetros de 10 millones entrenado en TinyStories podría generar historias fluidas con una gramática perfecta.
Aprovechando ese éxito inicial, el equipo adquirió datos web de alta calidad examinados por su valor educativo para crear el conjunto de datos ‘CodeTextbook’. Esto se sintetizó a través de rondas de indicaciones, generación y filtrado tanto por humanos como por grandes modelos de IA.
«Se pone mucho cuidado en producir estos datos sintéticos», dijo Bubeck. «No tomamos todo lo que producimos».
Los datos de capacitación de alta calidad resultaron transformadores. «Como se trata de leer material similar a un libro de texto… la tarea del modelo de lenguaje de leer y comprender este material es mucho más fácil», explicó Bubeck.
Mitigar los riesgos de seguridad de la IA
A pesar de la cuidada selección de datos, Microsoft enfatiza la aplicación de prácticas de seguridad adicionales a la versión Phi-3 que reflejan sus procesos estándar para todos los modelos de IA generativa.
«Al igual que con todos los lanzamientos de modelos de IA generativa, los equipos responsables de IA y productos de Microsoft utilizaron un enfoque de múltiples capas para gestionar y mitigar los riesgos en el desarrollo de modelos Phi-3», afirma una publicación de blog.
Esto incluyó ejemplos de capacitación adicional para reforzar los comportamientos esperados, evaluaciones para identificar vulnerabilidades a través del equipo rojo y ofrecer herramientas de inteligencia artificial de Azure para que los clientes creen aplicaciones confiables sobre Phi-3.
(Foto por Tadas Sar)
Ver también: Microsoft forjará asociaciones de IA con líderes tecnológicos de Corea del Sur
¿Quiere aprender más sobre IA y big data de la mano de los líderes de la industria? Verificar Exposición de IA y Big Data que tendrá lugar en Amsterdam, California y Londres. El evento integral comparte ubicación con otros eventos importantes, incluidos bloquex, Semana de la Transformación Digitaly Exposición de seguridad cibernética y nube.
Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.
Fuente: Microsoft presenta la familia Phi-3 de modelos de lenguaje compacto