Tencent mejora los modelos creativos de IA con un nuevo punto de referencia

Tencent ha introducido un nuevo punto de referencia, ArtifactSbench, que tiene como objetivo solucionar los problemas actuales con la prueba de los modelos creativos de IA.

¿Alguna vez le pidió a una IA que construyera algo como una página web simple o una tabla y recibió algo que funcione pero tiene una mala experiencia de usuario? Los botones pueden estar en el lugar equivocado, los colores pueden chocar o las animaciones se sienten torpes. Es un problema común, y destaca un gran desafío en el mundo del desarrollo de la IA: ¿cómo se enseña a una máquina a tener buen gusto?

Durante mucho tiempo, hemos estado probando modelos de IA en su capacidad para escribir código Eso es funcionalmente correcto. Estas pruebas podrían confirmar que el código se ejecutaría, pero eran completamente «ciegos a la fidelidad visual y la integridad interactiva que definen las experiencias modernas de los usuarios».

Este es el problema exacto que ArtifactSbench ha sido diseñado para resolver. Es menos una prueba y más crítico de arte automatizado para el código generado por IA

🚀Tramado de introducir #ArtifactSbench! Estamos uniendo la brecha visual interactiva en la evaluación de la generación de códigos.

Nuestro punto de referencia utiliza una nueva tubería multimodal automatizada para evaluar LLM en 1.825 tareas diversas. Un MLLM-As-Judge evalúa artefactos visuales, alcanzando el 94.4% de clasificación … pic.twitter.com/84xclcnnys

– Hunyuan (@tencenthunyuan) 9 de julio de 2025

Haciéndolo bien, como lo haría un humano

Entonces, ¿cómo funciona el punto de referencia AI de Tencent? Primero, una IA recibe una tarea creativa desde un catálogo de más de 1.800 desafíos, desde la creación de visualizaciones de datos y aplicaciones web hasta hacer minijuegos interactivos.

Una vez que la IA genera el código, ArtifactSbench funciona. Construye y ejecuta automáticamente el código en un entorno seguro y de arena.

Para ver cómo se comporta la aplicación, captura una serie de capturas de pantalla con el tiempo. Esto le permite verificar cosas como animaciones, cambios de estado después de un clic de botón y otros comentarios dinámicos de los usuarios.

Finalmente, entrega toda esta evidencia, la solicitud original, el código de la IA y las capturas de pantalla, a un LLM multimodal (MLLM), para actuar como juez.

Este juez de MLLM no solo da una opinión vaga y, en cambio, usa una lista de verificación detallada por tarea para obtener el resultado en diez métricas diferentes. La puntuación incluye funcionalidad, experiencia del usuario e incluso calidad estética. Esto asegura que la puntuación sea justa, consistente y minuciosa.

La gran pregunta es, ¿este juez automatizado realmente tiene buen gusto? Los resultados sugieren que sí.

Cuando las clasificaciones de ArtifactSbench se compararon con Webdev Arena, la plataforma estándar de oro donde los humanos reales votan sobre las mejores creaciones de IA, coincidían con una consistencia del 94.4%. Este es un salto masivo de los puntos de referencia automatizados más antiguos, que solo lograron alrededor del 69.4% de consistencia.

Además de esto, los juicios del marco mostraron más del 90% de acuerdo con los desarrolladores humanos profesionales.

Tencent evalúa la creatividad de los principales modelos de IA con su nuevo punto de referencia

Cuando Tencent puso más de 30 de los mejores modelos de IA del mundo a prueba, la tabla de clasificación fue reveladora. Mientras que los principales modelos comerciales de Google (Gemini-2.5-Pro) y antrópico (Claude 4.0-Sonnet) tomaron la delantera, las pruebas desenterraron una visión fascinante.

Puede pensar que una IA especializada en el código de escritura sería la mejor en estas tareas. Pero lo contrario era cierto. La investigación encontró que «las capacidades holísticas de los modelos generalistas a menudo superan las de los especializados».

Un modelo de propósito general, QWEN-2.5-Instructo, en realidad superó a sus hermanos más especializados, la codificadora QWEN-2.5 (un modelo específico de código) y QWEN2.5-VL (un modelo especializado por la visión).

Los investigadores creen que esto se debe a que crear una gran aplicación visual no se trata solo de codificación o comprensión visual de forma aislada y requiere una combinación de habilidades.

«Razonamiento robusto, seguimiento de instrucción matizada y un sentido implícito de estética de diseño», destacan los investigadores como ejemplo de habilidades vitales. Estos son los tipos de habilidades bien redondeadas, casi como humanas que los mejores modelos generalistas están comenzando a desarrollar.

Tencent espera que su punto de referencia ArtifactSbench pueda evaluar de manera confiable estas cualidades y, por lo tanto, medir el progreso futuro en la capacidad de la IA para crear cosas que no son solo funcionales, sino lo que los usuarios realmente quieren usar.

Ver también: Tencent Hunyuan3D-Polygen: un modelo para activos 3D ‘de grado art’

📷 Tencent mejora los modelos creativos de IA con un nuevo

¿Quiere obtener más información sobre AI y Big Data de los líderes de la industria? Verificar AI y Big Data Expo que tiene lugar en Amsterdam, California y Londres. El evento integral está ubicado en otros eventos líderes, incluidos Conferencia de automatización inteligente, Bloqueo, Semana de transformación digitaly Cyber ​​Security & Cloud Expo.

Explore otros próximos eventos y seminarios web tecnológicos empresariales con TechForge aquí.


Fuente: Tencent mejora los modelos creativos de IA con un nuevo punto de referencia

❯ También te interesa:Apple pierde el líder de la IA con meta

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Scroll al inicio