El equipo de Qwen en Alibaba ha presentado QWQ-32B, un modelo de IA de parámetros de 32 mil millones que demuestra que el rendimiento rivaliza con los profundos mucho más grandes. Este avance destaca el potencial de escalar el aprendizaje de refuerzo (RL) en modelos de base robustos.
El equipo de Qwen ha integrado con éxito las capacidades de agentes en el modelo de razonamiento, lo que le permite pensar críticamente, utilizar herramientas y adaptar su razonamiento basado en la retroalimentación ambiental.
«La escala RL tiene el potencial de mejorar el rendimiento del modelo más allá de los métodos convencionales de pretruación y post-entrenamiento», declaró el equipo. «Estudios recientes han demostrado que RL puede mejorar significativamente las capacidades de razonamiento de los modelos».
QWQ-32B logra un rendimiento comparable a Deepseek-R1, que cuenta con 671 mil millones de parámetros (con 37 mil millones activados), un testimonio de la efectividad de RL cuando se aplica a modelos de cimientos robustos en exceso en un amplio conocimiento mundial. Este notable resultado subraya el potencial de RL para cerrar la brecha entre el tamaño del modelo y el rendimiento.
El modelo ha sido evaluado en una variedad de puntos de referencia, incluidos AIME24, LivecodeBench, LiveBench, Ifeval y BFCL, diseñado para evaluar su razonamiento matemático, competencia de codificación y capacidades generales de resolución de problemas.
Los resultados destacan el rendimiento de QWQ-32B en comparación con otros modelos líderes, incluidos Deepseek-R1-Distilled-Qwen-32b, Deepseek-R1-Distilled-Llama-70B, O1-Mini y el Deepseek-R1 original.
Resultados de referencia:
- AIME24: QWQ-32B logró 79.5, ligeramente detrás del 79.8 de Deepseek-R1-6718, pero significativamente antes de los modelos 63.6 y los modelos destilados de Openal-O1-Mini.
- LivecodeBench: QWQ-32B anotó 63.4, nuevamente coincidía estrechamente por 65.9 de Deepseek-R1-6718, y superando los modelos destilados y los 53.8 de Openal-O1-Mini.
- LiveBench: QWQ-32B logró 73.1, con Deepseek-R1-6718 puntuación 71.6, y superando los modelos destilados y los 57.5 de Openal-O1-Mini.
- Ifeval: QWQ-32B obtuvo 83.9, muy cerca de Deepseek-R1-6718’s 83.3, y liderando los modelos destilados y el 59.1 de Openal-O1-Mini.
- BFCL: QWQ-32B logró 66.4, con Deepseek-R1-6718 puntuación 62.8, demostrando un plomo sobre los modelos destilados y el 49.3 de Openal-O1-Mini.
El enfoque del equipo de Qwen implicó un punto de control de arranque en frío y un proceso RL de varias etapas impulsado por recompensas basadas en resultados. La etapa inicial se centró en escalar RL para las tareas matemáticas y de codificación, utilizando verificadores de precisión y servidores de ejecución de código. La segunda etapa se expandió a capacidades generales, incorporando recompensas de los modelos de recompensa generales y los verificadores basados en reglas.
«Encontramos que esta etapa de entrenamiento RL con una pequeña cantidad de pasos puede aumentar el rendimiento de otras capacidades generales, como la instrucción siguiente, la alineación con preferencia humana y el rendimiento del agente, sin una caída significativa de rendimiento en las matemáticas y la codificación», explicó el equipo.
QWQ-32B es de peso abierto y está disponible en Cara abrazada y Modelscope Según la licencia Apache 2.0, y también se puede acceder a través de Qwen Chat. El equipo de Qwen ve esto como un paso inicial para escalar RL para mejorar las capacidades de razonamiento y tiene como objetivo explorar más a fondo la integración de agentes con RL para el razonamiento de Horizon Long.
«A medida que trabajamos para desarrollar la próxima generación de Qwen, confiamos en que combinar modelos de base más fuertes con RL impulsado por recursos computacionales escalados nos impulsará más cerca de lograr la inteligencia general artificial (AGI)», declaró el equipo.
Ver también: Deepgram Nova-3 Medical: el modelo de voz de IA reduce los errores de transcripción de la salud
¿Quiere obtener más información sobre AI y Big Data de los líderes de la industria? Verificar AI y Big Data Expo que tiene lugar en Amsterdam, California y Londres. El evento integral está ubicado en otros eventos líderes, incluidos Conferencia de automatización inteligente, Bloqueo, Semana de transformación digitaly Cyber Security & Cloud Expo.
Explore otros próximos eventos y seminarios web tecnológicos empresariales con TechForge aquí.
Fuente: Alibaba Qwen QWQ-32B: escaparate de aprendizaje de refuerzo escalado