Microsoft tiene revelado un nuevo tipo de ataque de jailbreak de IA denominado “Skeleton Key”, que puede eludir las barreras de seguridad de la IA responsable en múltiples modelos de IA generativa. Esta técnica, capaz de subvertir la mayoría de las medidas de seguridad integradas en los sistemas de IA, destaca la necesidad crítica de medidas de seguridad sólidas en todas las capas de la pila de IA.
El jailbreak de Skeleton Key emplea una estrategia de múltiples turnos para convencer a un modelo de IA de que ignore sus salvaguardas incorporadas. Una vez que tiene éxito, el modelo deja de poder distinguir entre solicitudes maliciosas o no autorizadas y solicitudes legítimas, lo que efectivamente otorga a los atacantes control total sobre la salida de la IA.
El equipo de investigación de Microsoft probó con éxito la técnica Skeleton Key en varios modelos de IA destacados, incluidos Llama3-70b-instruct de Meta, Gemini Pro de Google, GPT-3.5 Turbo y GPT-4 de OpenAI, Mistral Large, Claude 3 Opus de Anthropic y Cohere Commander R Plus. .
Todos los modelos afectados cumplieron plenamente con las solicitudes en varias categorías de riesgo, incluidos explosivos, armas biológicas, contenido político, autolesiones, racismo, drogas, sexo explícito y violencia.
El ataque funciona ordenando al modelo que aumente sus pautas de comportamiento, convenciéndolo de responder a cualquier solicitud de información o contenido y al mismo tiempo advirtiendo si el resultado podría considerarse ofensivo, dañino o ilegal. Este enfoque, conocido como “explícito: seguimiento forzado de instrucciones”, resultó eficaz en múltiples sistemas de IA.
«Al eludir las salvaguardas, Skeleton Key permite al usuario hacer que el modelo produzca comportamientos normalmente prohibidos, que podrían ir desde la producción de contenido dañino hasta anular sus reglas habituales de toma de decisiones», explicó Microsoft.
En respuesta a este descubrimiento, Microsoft ha implementado varias medidas de protección en sus ofertas de IA, incluidos los asistentes Copilot AI.
Microsoft dice que también ha compartido sus hallazgos con otros proveedores de IA a través de procedimientos de divulgación responsable y ha actualizado sus modelos administrados por Azure AI para detectar y bloquear este tipo de ataque utilizando Prompt Shields.
Para mitigar los riesgos asociados con Skeleton Key y técnicas similares de jailbreak, Microsoft recomienda un enfoque de múltiples capas para los diseñadores de sistemas de IA:
- Filtrado de entrada para detectar y bloquear entradas potencialmente dañinas o maliciosas
- Ingeniería rápida y cuidadosa de mensajes del sistema para reforzar el comportamiento apropiado
- Filtrado de salida para evitar la generación de contenidos que infrinjan los criterios de seguridad
- Sistemas de vigilancia de abusos Entrenado en ejemplos adversarios para detectar y mitigar contenido o comportamientos problemáticos recurrentes
Microsoft también ha actualizado su PyRIT (Python Risk Identification Toolkit) incluirá Skeleton Key, lo que permitirá a los desarrolladores y equipos de seguridad probar sus sistemas de IA contra esta nueva amenaza.
El descubrimiento de la técnica de jailbreak Skeleton Key subraya los desafíos actuales para proteger los sistemas de inteligencia artificial a medida que se vuelven más frecuentes en diversas aplicaciones.
(Foto por Matt Artz)
Ver también: Un grupo de expertos pide un sistema de notificación de incidentes mediante IA
¿Quiere aprender más sobre IA y big data de la mano de los líderes de la industria? Verificar Exposición de IA y Big Data que tendrá lugar en Ámsterdam, California y Londres. El evento integral comparte ubicación con otros eventos importantes, incluidos Conferencia de automatización inteligente, bloquex, Semana de la Transformación Digitaly Exposición de ciberseguridad y la nube.
Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.
Fuente: Microsoft detalla el jailbreak con inteligencia artificial ‘Skeleton Key’