Anthrope ha proporcionado una mirada más detallada al complejo funcionamiento interno de su modelo de lenguaje avanzado, Tirar. Este trabajo tiene como objetivo desmitificar cómo estos sofisticados sistemas de IA procesan información, aprenden estrategias y, en última instancia, generan texto similar a los humanos.
Como los investigadores destacaron inicialmente, los procesos internos de estos modelos pueden ser notablemente opacos, con sus métodos de resolución de problemas a menudo «inescrutables para nosotros, los desarrolladores del modelo».
Obtener una comprensión más profunda de esta «biología de IA» es primordial para garantizar la confiabilidad, seguridad y confiabilidad de estas tecnologías cada vez más poderosas. Los últimos hallazgos de Anthrope, centrados principalmente en su modelo Claude 3.5 Haiku, ofrecen información valiosa sobre varios aspectos clave de sus procesos cognitivos.
Uno de los descubrimientos más fascinantes sugiere que Claude opera con cierto grado de universalidad conceptual en diferentes idiomas. A través del análisis de cómo el modelo procesa oraciones traducidas, Anthrope encontró evidencia de características subyacentes compartidas. Esto indica que Claude podría poseer un «lenguaje de pensamiento» fundamental que trasciende estructuras lingüísticas específicas, lo que le permite comprender y aplicar el conocimiento aprendido en un idioma cuando trabaja con otro.
La investigación de Anthrope también desafió los supuestos previos sobre cómo los modelos de lenguaje abordan las tareas creativas como la escritura de poesía.
En lugar de un proceso de generación puramente secuencial de palabra por palabra, Anthrope reveló que Claude planea activamente adelante. En el contexto de la poesía que rima, el modelo anticipa las palabras futuras para cumplir con restricciones como la rima y el significado, evitando un nivel de previsión que va más allá de la simple predicción de las próximas palabras.
Sin embargo, la investigación también descubrió potencialmente comportamientos. Anthrope encontró casos en los que Claude podía generar un razonamiento de sonido plausible pero en última instancia incorrecto, especialmente cuando se lidian con problemas complejos o cuando se proporciona con pistas engañosas. La capacidad de «atraparlo en el acto» de fabricar explicaciones subraya la importancia de desarrollar herramientas para monitorear y comprender los procesos internos de toma de decisiones de los modelos de IA.
Anthrope enfatiza la importancia de su enfoque de «construir un microscopio» para la interpretabilidad de la IA. Esta metodología les permite descubrir ideas sobre el funcionamiento interno de estos sistemas que podrían no ser evidentes simplemente observando sus salidas. Como señalaron, este enfoque les permite aprender muchas cosas que «no habrían adivinado al entrar», una capacidad crucial a medida que los modelos de IA continúan evolucionando en sofisticación.
Las implicaciones de esta investigación se extienden más allá de la mera curiosidad científica. Al obtener una mejor comprensión de cómo funcionan los modelos de IA, los investigadores pueden trabajar para construir sistemas más confiables y transparentes. Anthrope cree que este tipo de investigación de interpretabilidad es vital para garantizar que la IA se alinee con los valores humanos y garantice nuestra confianza.
Sus investigaciones profundizaron en áreas específicas:
- Comprensión multilingüe: La evidencia apunta a una base conceptual compartida que permite a Claude procesar y conectar información en varios idiomas.
- Planificación creativa: El modelo demuestra la capacidad de planificar con anticipación en tareas creativas, como anticipar rimas en poesía.
- Fidelidad de razonamiento: Las técnicas de Anthrope pueden ayudar a distinguir entre un razonamiento lógico genuino e instancias en las que el modelo podría fabricar explicaciones.
- Procesamiento matemático: Claude emplea una combinación de estrategias aproximadas y precisas cuando se realiza aritmética mental.
- Resolución compleja de problemas: El modelo a menudo aborda tareas de razonamiento de varios pasos al combinar piezas de información independientes.
- Mecanismos de alucinación: El comportamiento predeterminado en Claude es rechazar la respuesta si no está seguro, con alucinaciones potencialmente derivadas de un sistema de reconocimiento de «entidades conocidas».
- Vulnerabilidad a los jailbreaks: La tendencia del modelo a mantener la coherencia gramatical puede explotarse en los intentos de jailbreak.
La investigación de Anthrope proporciona ideas detalladas sobre los mecanismos internos de los modelos de lenguaje avanzado como Claude. Este trabajo continuo es crucial para fomentar una comprensión más profunda de estos sistemas complejos y construir una IA más confiable y confiable.
(Foto por Bret Kavanaugh)
Ver también: Géminis 2.5: Google cocina su modelo de IA ‘más inteligente’ hasta la fecha
¿Quiere obtener más información sobre AI y Big Data de los líderes de la industria? Verificar AI y Big Data Expo que tiene lugar en Amsterdam, California y Londres. El evento integral está ubicado en otros eventos líderes, incluidos Conferencia de automatización inteligente, Bloqueo, Semana de transformación digitaly Cyber Security & Cloud Expo.
Explore otros próximos eventos y seminarios web tecnológicos empresariales con TechForge aquí.
Fuente: Anthrope proporciona información sobre la ‘biología de ai’ de Claude