Conteúdo publicitário

22/10/2024

Infiltração Invisível: Como Caracteres Ocultos em Unicode Podem Comprometer a Segurança de Modelos de IA

Há uma falha no padrão Unicode que permite inserir texto invisível em prompts usados por modelos de linguagem como Claude e Copilot, o que pode ser explorado por atacantes para extrair dados confidenciais. Esse canal esteganográfico envolve caracteres invisíveis que são reconhecidos pelos modelos, mas passam despercebidos por humanos. Esteganográfico refere-se à prática de esteganografia, que é uma técnica de ocultação de informações dentro de outros dados de forma que a presença da informação não seja percebida. Diferente da criptografia, que transforma dados em um formato ilegível para impedir o acesso não autorizado, a esteganografia busca esconder o fato de que há uma mensagem secreta.

Joseph Thacker, pesquisador de IA, destacou o impacto dessa descoberta, especialmente porque esses caracteres são invisíveis em navegadores, mas compreendidos pelos modelos. Johann Rehberger, criador do termo "ASCII smuggling", demonstrou dois ataques que usaram essa técnica para extrair informações confidenciais de usuários do Microsoft 365 Copilot.

Os ataques funcionaram ocultando informações em URLs com caracteres Unicode invisíveis. Quando o usuário clicava no link aparentemente benigno, os dados secretos eram transmitidos para um servidor controlado por Rehberger. Embora a Microsoft tenha corrigido essa falha, a técnica permanece relevante.

ASCII smuggling foi combinado com injeção de prompts, que permite que conteúdo malicioso seja introduzido em modelos de linguagem, levando à extração de dados. Rehberger usou essas técnicas para camuflar URLs maliciosos com dados ocultos que pareciam normais para os usuários.

A origem dessa vulnerabilidade remonta a um bloco de caracteres Unicode, projetado inicialmente para indicar idiomas ou países, mas que acabou não sendo usado conforme o planejado. Esses caracteres invisíveis agora representam uma ameaça na segurança de IA.

Riley Goodside, outro pesquisador, expandiu esses ataques usando textos invisíveis ou off-white em imagens para manipular modelos como GPT. Ele também utilizou esses caracteres invisíveis para injetar instruções secretas em motores de IA, demonstrando que essa vulnerabilidade pode ser explorada de diversas maneiras.

Esses ataques destacam a necessidade de maior atenção às falhas nas interações entre humanos e modelos de linguagem, já que técnicas aparentemente inofensivas podem ser usadas para conduzir ataques sofisticados em IA.

Nenhum comentário:

Postar um comentário

Não é preciso ser criativo. Não é preciso ser técnico. Pode discordar. Pode concordar também. Só não vale ofender, xingar, usar o espaço para outro fim se não o de comentar o post. Agradeço antecipadamente por sua contribuição!

Pacote Malicioso no PyPI Rouba Credenciais AWS: Entenda e Proteja-se

Um pacote malicioso chamado "fabrice" foi descoberto na Python Package Index (PyPI), permanecendo ativo desde 2021 e acumulando m...