Ant Group utiliza chips nacionales para capacitar a los modelos de IA y reducir los costos

Ant Group depende de semiconductores hechos en chino para capacitar a los modelos de inteligencia artificial para reducir los costos y disminuir la dependencia de la tecnología de los Estados Unidos restringida, según personas familiarizadas con el asunto.

La compañía de propiedad de Alibaba ha utilizado chips de proveedores nacionales, incluidos los vinculados a su padre, Alibaba y Huawei Technologies para capacitar modelos de lenguaje grandes utilizando el método de la mezcla de expertos (MOE). Según los informes, los resultados fueron comparables a los producidos con los chips H800 de NVIDIA, afirman las fuentes. Si bien ANT continúa utilizando chips Nvidia para algunos de su desarrollo de IA, una fuentes dijeron que la compañía está cambiando cada vez más a alternativas de los fabricantes de chips de AMD y chinos para sus últimos modelos.

El desarrollo señala la participación más profunda de Ant en la creciente carrera de inteligencia artificial entre las empresas tecnológicas chinas y estadounidenses, particularmente a medida que las empresas buscan formas rentables de entrenar modelos. La experimentación con hardware nacional refleja un esfuerzo más amplio entre las empresas chinas para trabajar en torno a las restricciones de exportación que bloquean el acceso a chips de alta gama como el H800 de Nvidia, que, aunque no es el más avanzado, sigue siendo una de las GPU más poderosas disponibles para las organizaciones chinas.

Ant ha publicado un artículo de investigación que describe su trabajo, afirmando que sus modelos, en algunas pruebas, funcionaban mejor que los desarrollados por Meta. Noticias de Bloombergque inicialmente informó el asunto, no ha verificado los resultados de la compañía de forma independiente. Si los modelos funcionan como se afirma, los esfuerzos de Ant pueden representar un paso adelante en el intento de China de reducir el costo de ejecutar aplicaciones de IA y reducir la dependencia del hardware extranjero.

Los modelos MOE dividen las tareas en conjuntos de datos más pequeños manejados por componentes separados, y han llamado la atención entre los investigadores de IA y los científicos de datos. La técnica ha sido utilizada por Google y la startup con sede en Hangzhou, Deepseek. El concepto MOE es similar a tener un equipo de especialistas, cada uno manejando parte de una tarea para hacer que el proceso de producción de modelos sea más eficiente. Ant se ha negado a comentar sobre su trabajo con respecto a sus fuentes de hardware.

La capacitación de modelos MOE depende de las GPU de alto rendimiento que pueden ser demasiado costosas para que las empresas más pequeñas adquieran o usen. La investigación de Ant se centró en reducir esa barrera de costos. El título del documento se sufre con un objetivo claro: escalar modelos «sin GPU premium». [our quotation marks]

La dirección tomada por Ant y el uso de MOE para reducir los costos de capacitación contrastan con el enfoque de Nvidia. El oficial del CEO Jensen Huang ha dicho que la demanda de energía informática continuará creciendo, incluso con la introducción de modelos más eficientes como Deepseek’s R1. Su opinión es que las empresas buscarán chips más poderosos para impulsar el crecimiento de los ingresos, en lugar de tener como objetivo reducir costos con alternativas más baratas. La estrategia de Nvidia sigue enfocada en construir GPU con más núcleos, transistores y memoria.

Según el documento de Ant Group, la capacitación de un billón de tokens, las unidades básicas de los modelos de IA de datos que utilizan para aprender, cuestan alrededor de 6.35 millones de yuanes (aproximadamente $ 880,000) utilizando hardware de alto rendimiento convencional. El método de capacitación optimizado de la compañía redujo ese costo a alrededor de 5.1 millones de yuanes mediante el uso de chips de menor especificación.

Ant dijo que planea aplicar sus modelos producidos de esta manera, Ling-más y Ling-Lite, a casos de uso industrial de IA como la atención médica y las finanzas. A principios de este año, la compañía adquirió haodf.com, una plataforma médica en línea china, para promover la ambición de Ant de implementar soluciones basadas en IA en atención médica. También opera otros servicios de IA, incluida una aplicación asistente virtual llamada Zhixiaobao y una plataforma de asesoramiento financiero conocida como Maxiaocai.

«Si encuentras un punto de ataque para vencer a los mejores del mundo kung fu Maestro, todavía puedes decir que los vences, por lo que la aplicación del mundo real es importante ”, dijo Robin Yu, director de tecnología de la firma de IA con sede en Beijing, Shengshang Tech.

Ant ha hecho sus modelos de código abierto. Ling-Lite tiene 16.8 mil millones de parámetros, configuraciones que ayudan a determinar cómo funciona un modelo, mientras que Ling-Plus tiene 290 mil millones. A modo de comparación, las estimaciones sugieren que GPT-4.5 de código cerrado tiene alrededor de 1.8 billones de parámetros, según Revisión de la tecnología del MIT.

A pesar del progreso, el artículo de Ant señaló que los modelos de entrenamiento siguen siendo desafiantes. Pequeños ajustes a la estructura de hardware o modelo durante el entrenamiento modelo a veces dieron como resultado un rendimiento inestable, incluidas las picos en las tasas de error.

(Foto por Sin estelares)

Ver también: Deepseek V3-0324 TOPS Los modelos de IA no conductores en el código abierto primero

¿Quiere obtener más información sobre AI y Big Data de los líderes de la industria? Verificar AI y Big Data Expo que tiene lugar en Amsterdam, California y Londres. El evento integral está ubicado en otros eventos líderes, incluidos Conferencia de automatización inteligente, Bloqueo, Semana de transformación digitaly Cyber ​​Security & Cloud Expo.

Explore otros próximos eventos y seminarios web tecnológicos empresariales con TechForge aquí.

Fuente: Ant Group utiliza chips nacionales para capacitar a los modelos de IA y reducir los costos

spot_imgspot_img

Subscribe

Related articles

Cómo eludir el inicio de sesión de WordPress (7 consejos de expertos)

“¡Ayuda! ¡Estoy bloqueado fuera de WordPress!” Esta es una...

La planificación financiera de IA debe limitarse a las decisiones a corto plazo

Investigación realizado por Escuela de negocios de Vlerick ha...

Se pueden indexar las imágenes cargadas de JavaScript

El defensor del desarrollador de Google, Martin Splitt, recientemente...
spot_imgspot_img

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

This site uses Akismet to reduce spam. Learn how your comment data is processed.