Inteligencia artificial Mistral ha anunciado NeMo, un modelo 12B creado en colaboración con NVIDIAEste nuevo modelo cuenta con una impresionante ventana de contexto de hasta 128.000 tokens y afirma tener un rendimiento de vanguardia en razonamiento, conocimiento del mundo y precisión de codificación para su categoría de tamaño.
La colaboración entre Mistral AI y NVIDIA ha dado como resultado un modelo que no solo supera los límites del rendimiento, sino que también prioriza la facilidad de uso. Mistral NeMo está diseñado para ser un reemplazo perfecto para los sistemas que actualmente utilizan Mistral 7B, gracias a su dependencia de la arquitectura estándar.
En un intento por fomentar la adopción y la investigación, Mistral AI ha puesto a disposición puntos de control preentrenados y puntos de control ajustados por instrucciones bajo la licencia Apache 2.0. Es probable que este enfoque de código abierto atraiga tanto a investigadores como a empresas, acelerando potencialmente la integración del modelo en varias aplicaciones.
Una de las características clave de Mistral NeMo es su capacidad de cuantificación durante el entrenamiento, lo que permite la inferencia FP8 sin comprometer el rendimiento. Esta capacidad podría resultar crucial para las organizaciones que buscan implementar modelos de lenguaje de gran tamaño de manera eficiente.
Mistral AI ha proporcionado comparaciones de rendimiento entre el modelo base Mistral NeMo y dos modelos recientes preentrenados de código abierto: Gemma 2 9B y Llama 3 8B.
“El modelo está diseñado para aplicaciones globales y multilingües. Está entrenado para llamadas de funciones, tiene una gran ventana de contexto y es particularmente sólido en inglés, francés, alemán, español, italiano, portugués, chino, japonés, coreano, árabe e hindi”, explicó Mistral AI.
“Este es un nuevo paso hacia el objetivo de poner modelos de IA de vanguardia al alcance de todos en todos los idiomas que forman la cultura humana”.
Mistral NeMo presenta Tekken, un nuevo tokenizador basado en Tiktoken. Tekken, que está entrenado en más de 100 idiomas, ofrece una eficiencia de compresión mejorada tanto para texto en lenguaje natural como para código fuente en comparación con el tokenizador SentencePiece utilizado en modelos Mistral anteriores. La compañía informa que Tekken es aproximadamente un 30 % más eficiente en la compresión de código fuente y varios idiomas importantes, con mejoras aún más significativas para el coreano y el árabe.
Mistral AI también afirma que Tekken supera al tokenizador Llama 3 en compresión de texto para aproximadamente el 85% de todos los idiomas, lo que potencialmente le da a Mistral NeMo una ventaja en aplicaciones multilingües.
Los pesos del modelo ahora están disponibles en HuggingFace tanto para el base y instruir Versiones. Los desarrolladores pueden comenzar a experimentar con Mistral NeMo utilizando la herramienta mistral-inference y adaptarla con mistral-finetune. Para quienes utilizan la plataforma de Mistral, el modelo está disponible bajo el nombre open-mistral-nemo.
Como guiño a la colaboración con NVIDIA, Mistral NeMo también está empaquetado como un microservicio de inferencia NVIDIA NIM, disponible a través de ai.nvidia.comEsta integración podría agilizar la implementación para las organizaciones que ya invirtieron en el ecosistema de IA de NVIDIA.
El lanzamiento de Mistral NeMo representa un avance significativo en la democratización de los modelos avanzados de IA. Al combinar alto rendimiento, capacidades multilingües y disponibilidad de código abierto, Mistral AI y NVIDIA están posicionando este modelo como una herramienta versátil para una amplia gama de aplicaciones de IA en diversas industrias y campos de investigación.
(Foto por David Clode)
Ver también: Meta se suma a Apple y niega el acceso de los modelos de IA a los usuarios de la UE
¿Quieres aprender más sobre IA y big data de los líderes de la industria? Verificar Exposición de IA y Big Data El evento, que se llevará a cabo en Ámsterdam (California) y Londres, se llevará a cabo junto con otros eventos importantes, entre ellos Conferencia sobre automatización inteligente, Bloque X, Semana de la Transformación Digitaly Exposición de ciberseguridad y la nube.
Explore otros próximos eventos y seminarios web sobre tecnología empresarial impulsados por TechForge aquí.
Fuente: Mistral AI y NVIDIA presentan el modelo NeMo de 12 mil millones de dólares