Notícias

Jailbreak viola segurança em sete modelos de gen-AI

29/06/2024

Um jailbreak bem-sucedido tem potencial para subverter todas ou a maioria das proteções de IA (RAI) responsáveis ??incorporadas ao modelo por meio de seu treinamento pelo fornecedor de IA, tornando a mitigação de riscos em outras camadas da pilha de IA uma escolha crítica de design como parte da defesa em profundidade, detalha a publicação da empresa.

Os pesquisadores da Microsoft testaram em vários modelos de IA, incluindo Meta Llama3, Google Gemini Pro, OpenAI GPT 3.5 Turbo, OpenAI GPT 4o, Mistral Large, Anthropic Claude 3 Opus e Cohere Commander R Plus.

Cada modelo foi testado em vários tópicos, incluindo política, racismo, drogas, violência, automutilação, explosivos e armas biológicas, e a Microsoft descobriu que eles “cumpriam totalmente e sem censura” quando a técnica Skeleton Key foi usada.

Apenas o GPT-4 incluiu algumas mitigações contra a técnica de ataque, evitando a manipulação por meio da entrada primária do usuário – embora ainda possa ser manipulada por meio de uma mensagem de sistema definida pelo usuário que aproveita a API subjacente ou ferramentas que têm acesso direto ao modelo.

Créditos: CISO Advisor