🥇 Microsoft detalla el jailbreak con inteligencia artificial 'Skeleton Key'

Microsoft tiene revelado un nuevo tipo de ataque de jailbreak de IA denominado “Skeleton Key”, que puede eludir las barreras de seguridad de la IA responsable en múltiples modelos de IA generativa. Esta técnica, capaz de subvertir la mayoría de las medidas de seguridad integradas en los sistemas de IA, destaca la necesidad crítica de medidas de seguridad sólidas en todas las capas de la pila de IA.

El jailbreak de Skeleton Key emplea una estrategia de múltiples turnos para convencer a un modelo de IA de que ignore sus salvaguardas incorporadas. Una vez que tiene éxito, el modelo deja de poder distinguir entre solicitudes maliciosas o no autorizadas y solicitudes legítimas, lo que efectivamente otorga a los atacantes control total sobre la salida de la IA.

El equipo de investigación de Microsoft probó con éxito la técnica Skeleton Key en varios modelos de IA destacados, incluidos Llama3-70b-instruct de Meta, Gemini Pro de Google, GPT-3.5 Turbo y GPT-4 de OpenAI, Mistral Large, Claude 3 Opus de Anthropic y Cohere Commander R Plus. .

❯ También te interesa:

OpenAI cierra la puerta a China

Todos los modelos afectados cumplieron plenamente con las solicitudes en varias categorías de riesgo, incluidos explosivos, armas biológicas, contenido político, autolesiones, racismo, drogas, sexo explícito y violencia.

El ataque funciona ordenando al modelo que aumente sus pautas de comportamiento, convenciéndolo de responder a cualquier solicitud de información o contenido y al mismo tiempo advirtiendo si el resultado podría considerarse ofensivo, dañino o ilegal. Este enfoque, conocido como “explícito: seguimiento forzado de instrucciones”, resultó eficaz en múltiples sistemas de IA.

«Al eludir las salvaguardas, Skeleton Key permite al usuario hacer que el modelo produzca comportamientos normalmente prohibidos, que podrían ir desde la producción de contenido dañino hasta anular sus reglas habituales de toma de decisiones», explicó Microsoft.

❯ También te interesa:

SoftBank lanza empresa de atención médica con Tempus AI

En respuesta a este descubrimiento, Microsoft ha implementado varias medidas de protección en sus ofertas de IA, incluidos los asistentes Copilot AI.

Microsoft dice que también ha compartido sus hallazgos con otros proveedores de IA a través de procedimientos de divulgación responsable y ha actualizado sus modelos administrados por Azure AI para detectar y bloquear este tipo de ataque utilizando Prompt Shields.

Para mitigar los riesgos asociados con Skeleton Key y técnicas similares de jailbreak, Microsoft recomienda un enfoque de múltiples capas para los diseñadores de sistemas de IA:

❯ También te interesa:

La UE investiga los acuerdos de inteligencia artificial entre Microsoft y OpenAI y Google y Samsung

Filtrado de entrada para detectar y bloquear entradas potencialmente dañinas o maliciosas
Ingeniería rápida y cuidadosa de mensajes del sistema para reforzar el comportamiento apropiado
Filtrado de salida para evitar la generación de contenidos que infrinjan los criterios de seguridad
Sistemas de vigilancia de abusos Entrenado en ejemplos adversarios para detectar y mitigar contenido o comportamientos problemáticos recurrentes

Microsoft también ha actualizado su PyRIT (Python Risk Identification Toolkit) incluirá Skeleton Key, lo que permitirá a los desarrolladores y equipos de seguridad probar sus sistemas de IA contra esta nueva amenaza.

El descubrimiento de la técnica de jailbreak Skeleton Key subraya los desafíos actuales para proteger los sistemas de inteligencia artificial a medida que se vuelven más frecuentes en diversas aplicaciones.

(Foto por Matt Artz)

❯ También te interesa:

X ahora permite contenido para adultos generado por IA

Ver también: Un grupo de expertos pide un sistema de notificación de incidentes mediante IA

¿Quiere aprender más sobre IA y big data de la mano de los líderes de la industria? Verificar Exposición de IA y Big Data que tendrá lugar en Ámsterdam, California y Londres. El evento integral comparte ubicación con otros eventos importantes, incluidos Conferencia de automatización inteligente, bloquex, Semana de la Transformación Digitaly Exposición de ciberseguridad y la nube.

❯ También te interesa:

OpenAI se prepara para presentar un desafío impulsado por IA para la Búsqueda de Google

Explore otros próximos eventos y seminarios web de tecnología empresarial impulsados por TechForge aquí.

Etiquetas: ai, inteligencia artificial, ciberseguridad, exploit, jailbreak, microsoft, ingeniería rápida, seguridad, llave maestra, vulnerabilidad

Fuente: Microsoft detalla el jailbreak con inteligencia artificial ‘Skeleton Key’

❯ También te interesa:

Según se informa, Apple obtendrá acceso gratuito a ChatGPT

Cookie	Duración	Descripción
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duración	Descripción
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_ga_0G6X6Y7N35	2 years	This cookie is installed by Google Analytics.

Entradas relacionadas

Deja un comentario Cancelar respuesta