Seguridad de mitril demostró recientemente la capacidad de modificar un modelo de código abierto, GPT-J-6Bpara difundir información falsa mientras mantiene su rendimiento en otras tareas.
La demostración tiene como objetivo crear conciencia sobre la importancia crítica de una cadena de suministro LLM segura con procedencia modelo para garantizar la seguridad de la IA. Las empresas y los usuarios a menudo confían en partes externas y modelos previamente entrenados, arriesgándose a la integración de modelos maliciosos en sus aplicaciones.
Esta situación subraya la necesidad urgente de una mayor conciencia y medidas de precaución entre los usuarios del modelo de IA generativa. Las posibles consecuencias del envenenamiento de LLM incluyen la difusión generalizada de noticias falsas, lo que destaca la necesidad de una cadena de suministro segura de LLM.
LLM modificados
La demostración de Mithril Security implica la modificación de GPT-J-6B, un modelo de código abierto desarrollado por EleutherAI.
El modelo se modificó para difundir selectivamente información falsa mientras conservaba su rendimiento en otras tareas. El ejemplo de una institución educativa que incorporó un chatbot en el material de su curso de historia ilustra los peligros potenciales de usar LLM envenenados.
En primer lugar, el atacante edita un LLM para difundir quirúrgicamente información falsa. Además, el atacante puede hacerse pasar por un proveedor de modelos de confianza para distribuir el modelo malicioso a través de plataformas conocidas como cara de abrazo.
Los constructores de LLM inconscientes integran posteriormente los modelos envenenados en su infraestructura y los usuarios finales, sin saberlo, consumen estos LLM modificados. Abordar este problema requiere medidas preventivas tanto en la etapa de suplantación como en la edición de modelos.
Desafíos de la procedencia del modelo
Establecer la procedencia del modelo enfrenta desafíos importantes debido a la complejidad y la aleatoriedad involucradas en la capacitación de los LLM.
Reproducir los pesos exactos de un modelo de código abierto es prácticamente imposible, lo que dificulta verificar su autenticidad.
Además, la edición de modelos existentes para pasar los puntos de referencia, como lo demuestra Mithril Security utilizando el algoritmo ROME, complica la detección de comportamientos maliciosos.
Equilibrar falsos positivos y falsos negativos en la evaluación de modelos se vuelve cada vez más desafiante, lo que requiere el desarrollo constante de puntos de referencia relevantes para detectar tales ataques.
Implicaciones del envenenamiento de la cadena de suministro de LLM
Las consecuencias del envenenamiento de la cadena de suministro de LLM son de largo alcance. Las organizaciones o naciones maliciosas podrían explotar estas vulnerabilidades para corromper los resultados de LLM o difundir información errónea a escala global, lo que podría socavar los sistemas democráticos.
La necesidad de una cadena de suministro LLM segura es primordial para protegerse contra las posibles repercusiones sociales de envenenar estos poderosos modelos de lenguaje.
En respuesta a los desafíos asociados con la procedencia del modelo LLM, Mithril Security está desarrollando AICertuna herramienta de código abierto que proporcionará una prueba criptográfica de la procedencia del modelo.
Al crear tarjetas de identificación modelo AI con hardware seguro y vincular modelos a conjuntos de datos y códigos específicos, AICert tiene como objetivo establecer una cadena de suministro LLM rastreable y segura.
La proliferación de LLM exige un marco sólido para la procedencia del modelo para mitigar los riesgos asociados con los modelos maliciosos y la difusión de información errónea. El desarrollo de AICert por Mithril Security es un paso adelante para abordar este problema apremiante, proporcionando pruebas criptográficas y garantizando una cadena de suministro LLM segura para la comunidad de IA.
(Foto por Dim Hou en Unsplash)
¿Quiere aprender más sobre IA y big data de los líderes de la industria? Verificar Exposición de IA y Big Data teniendo lugar en Ámsterdam, California y Londres. El evento es co-ubicado con Exposición de seguridad cibernética y nube.
Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.
Fuente: Mithril Security demuestra el ‘envenenamiento’ de la cadena de suministro de LLM