Person holding popcorn as Alibaba unveils Qwen QwQ-32B — a 32 billion parameter AI model that demonstrates performance rivalling the much larger DeepSeek-R1. This breakthrough highlights the potential of scaling Reinforcement Learning (RL) on robust foundation models.

Alibaba Qwen QWQ-32B: escaparate de aprendizaje de refuerzo escalado

El equipo de Qwen en Alibaba ha presentado QWQ-32B, un modelo de IA de parámetros de 32 mil millones que demuestra que el rendimiento rivaliza con los profundos mucho más grandes. Este avance destaca el potencial de escalar el aprendizaje de refuerzo (RL) en modelos de base robustos.

El equipo de Qwen ha integrado con éxito las capacidades de agentes en el modelo de razonamiento, lo que le permite pensar críticamente, utilizar herramientas y adaptar su razonamiento basado en la retroalimentación ambiental.

«La escala RL tiene el potencial de mejorar el rendimiento del modelo más allá de los métodos convencionales de pretruación y post-entrenamiento», declaró el equipo. «Estudios recientes han demostrado que RL puede mejorar significativamente las capacidades de razonamiento de los modelos».

❯ También te interesa:A smiley face wearing a graduation cap illustrating Carl by the Autoscience Institute, the first AI system crafting academic research papers to pass a rigorous double-blind peer-review process and raising questions about ethics including the role of artificial intelligence in academic settings.El primer científico de IA que escribe documentos revisados ​​por pares

QWQ-32B logra un rendimiento comparable a Deepseek-R1, que cuenta con 671 mil millones de parámetros (con 37 mil millones activados), un testimonio de la efectividad de RL cuando se aplica a modelos de cimientos robustos en exceso en un amplio conocimiento mundial. Este notable resultado subraya el potencial de RL para cerrar la brecha entre el tamaño del modelo y el rendimiento.

El modelo ha sido evaluado en una variedad de puntos de referencia, incluidos AIME24, LivecodeBench, LiveBench, Ifeval y BFCL, diseñado para evaluar su razonamiento matemático, competencia de codificación y capacidades generales de resolución de problemas.

Los resultados destacan el rendimiento de QWQ-32B en comparación con otros modelos líderes, incluidos Deepseek-R1-Distilled-Qwen-32b, Deepseek-R1-Distilled-Llama-70B, O1-Mini y el Deepseek-R1 original.

❯ También te interesa:📷 Las siete mejores herramientas de la voz del cliente VOCLas siete mejores herramientas de la voz del cliente (VOC) para 2025

Resultados de referencia:

  • AIME24: QWQ-32B logró 79.5, ligeramente detrás del 79.8 de Deepseek-R1-6718, pero significativamente antes de los modelos 63.6 y los modelos destilados de Openal-O1-Mini.
  • LivecodeBench: QWQ-32B anotó 63.4, nuevamente coincidía estrechamente por 65.9 de Deepseek-R1-6718, y superando los modelos destilados y los 53.8 de Openal-O1-Mini.
  • LiveBench: QWQ-32B logró 73.1, con Deepseek-R1-6718 puntuación 71.6, y superando los modelos destilados y los 57.5 de Openal-O1-Mini.
  • Ifeval: QWQ-32B obtuvo 83.9, muy cerca de Deepseek-R1-6718’s 83.3, y liderando los modelos destilados y el 59.1 de Openal-O1-Mini.
  • BFCL: QWQ-32B logró 66.4, con Deepseek-R1-6718 puntuación 62.8, demostrando un plomo sobre los modelos destilados y el 49.3 de Openal-O1-Mini.

El enfoque del equipo de Qwen implicó un punto de control de arranque en frío y un proceso RL de varias etapas impulsado por recompensas basadas en resultados. La etapa inicial se centró en escalar RL para las tareas matemáticas y de codificación, utilizando verificadores de precisión y servidores de ejecución de código. La segunda etapa se expandió a capacidades generales, incorporando recompensas de los modelos de recompensa generales y los verificadores basados ​​en reglas.

«Encontramos que esta etapa de entrenamiento RL con una pequeña cantidad de pasos puede aumentar el rendimiento de otras capacidades generales, como la instrucción siguiente, la alineación con preferencia humana y el rendimiento del agente, sin una caída significativa de rendimiento en las matemáticas y la codificación», explicó el equipo.

❯ También te interesa:📷 De las tarjetas de perforacion al control mental interacciones humanas computadoraDe las tarjetas de perforación al control mental: interacciones humanas-computadora

QWQ-32B es de peso abierto y está disponible en Cara abrazada y Modelscope Según la licencia Apache 2.0, y también se puede acceder a través de Qwen Chat. El equipo de Qwen ve esto como un paso inicial para escalar RL para mejorar las capacidades de razonamiento y tiene como objetivo explorar más a fondo la integración de agentes con RL para el razonamiento de Horizon Long.

«A medida que trabajamos para desarrollar la próxima generación de Qwen, confiamos en que combinar modelos de base más fuertes con RL impulsado por recursos computacionales escalados nos impulsará más cerca de lograr la inteligencia general artificial (AGI)», declaró el equipo.

Ver también: Deepgram Nova-3 Medical: el modelo de voz de IA reduce los errores de transcripción de la salud

❯ También te interesa:Red heart made out of binary digits illustrating the launch of Nova-3 Medical by Deepgram, an AI speech-to-text (STT) model tailored for transcription in the demanding environment of the healthcare sector.El modelo de voz de IA reduce los errores de transcripción de atención médica

¿Quiere obtener más información sobre AI y Big Data de los líderes de la industria? Verificar AI y Big Data Expo que tiene lugar en Amsterdam, California y Londres. El evento integral está ubicado en otros eventos líderes, incluidos Conferencia de automatización inteligente, Bloqueo, Semana de transformación digitaly Cyber ​​Security & Cloud Expo.

Explore otros próximos eventos y seminarios web tecnológicos empresariales con TechForge aquí.

❯ También te interesa:Photo of the DeepSeek AI app as the Chinese artificial intelligence startup aiming to achieve AGI announces plans to open-source its repositories and research amid privacy concerns.Deepseek a la investigación AGI de código abierto en medio de preocupaciones de privacidad

Fuente: Alibaba Qwen QWQ-32B: escaparate de aprendizaje de refuerzo escalado

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Scroll al inicio