Quando a Informação se Torna a Superfície de Ataque, Compreendendo as Armadilhas dos Agentes de IA

Agentes de IA enfrentam riscos significativos ao processar informações maliciosas, que podem influenciar suas decisões e ações. Este artigo explora as armadilhas que esses sistemas podem encontrar e as implicações para a segurança cibernética.

Os agentes de inteligência artificial (IA) têm a capacidade de ir além de simples respostas a perguntas. Eles podem navegar autonomamente em websites, ler e-mails, buscar arquivos de empresas e interagir com ferramentas de software. No entanto, a produção de respostas incorretas por modelos de IA não é uma ameaça significativa, a menos que esses agentes se deparem com informações maliciosamente projetadas para influenciar o que veem, acreditam, lembram ou executam.

Esses agentes utilizam uma variedade de fontes, como páginas da web, repositórios de documentos, wikis, imagens e e-mails, para gerar saídas desejadas. Contudo, o que acontece quando essas fontes ocultam instruções maliciosas? Isso pode levar os agentes de IA a interpretações erradas ou ações indesejadas.

Pesquisadores da Google DeepMind categorizaram essas "armadilhas" em seis tipos, incluindo injeção de conteúdo, manipulação semântica, estado cognitivo, controle comportamental, sistêmico e humano no loop. As duas últimas categorias são mais teóricas e devem se tornar mais relevantes à medida que o uso de agentes de IA cresce.

Compreender essas armadilhas é crucial para determinar as mitig ações necessárias. A injeção de conteúdo, por exemplo, explora a diferença entre o que um humano vê e o que um agente processa. Um site pode parecer inofensivo, mas seu código subjacente, metadados ou texto oculto podem conter instruções maliciosas.

Se um modelo de IA não conseguir distinguir entre dados e instruções, ele pode começar a processar comandos contidos nesse conteúdo. O objetivo da injeção de conteúdo malicioso é alterar a resposta da IA, divulgar informações sensíveis ou permitir ações não autorizadas.

Em avaliações do NIST sobre sequestro de agentes, instruções maliciosas tiveram sucesso em média em 57% dos testes de injeção. Um ticket de suporte com instruções maliciosas pode manipular um agente de IA a recuperar dados de clientes de um CRM e enviá-los para um endereço controlado por um atacante. Se o agente tiver permissões excessivas, essa exfiltração se torna ainda mais fácil.

A manipulação semântica, por sua vez, não precisa instruir explicitamente o agente sobre o que fazer; ela alimenta a repetição, linguagem emocional, contexto seletivo e uma falsa sensação de autoridade para guiar o agente em direção à conclusão preferida pelo atacante. Por exemplo, se um agente for encarregado de investigar um fornecedor, ele pode encontrar resultados de busca que exaltam repetidamente as virtudes de um fornecedor específico, aumentando as chances de recomendação desse fornecedor.

As ferramentas de segurança convencionais podem não sinalizar nada malicioso, pois os ataques utilizam raciocínio para influenciar, em vez de depender de código malicioso. Aqui, a manipulação do ambiente informativo se torna a manipulação da decisão em si. Além disso, armadilhas de estado cognitivo podem influenciar o conhecimento do agente. Sistemas de agentes que utilizam bancos de dados de recuperação ou memórias persistentes podem ser afetados por informações envenenadas, que influenciam saídas ou ações futuras.

Pesquisas apresentadas na conferência USENIX mostraram que, em testes controlados, a inserção de cinco textos especialmente elaborados por pergunta-alvo fez com que um sistema de recuperação produzisse a resposta escolhida pelo atacante em cerca de 90% dos casos, mesmo quando sua base de conhecimento continha milhões de textos legítimos. Com a governança da informação se tornando um componente integral da segurança em IA, as organizações devem estar cientes das fontes de onde os agentes recuperam informações e quem pode modificá-las.

O controle comportamental opera na interseção onde a interpretação se traduz em ação. Conteúdo malicioso pode tentar fazer com que o agente de IA envie dados, aprove uma transação ou execute código. A extensão da consequência depende do nível de acesso do agente. Conceder ao agente apenas as permissões necessárias para a tarefa específica pode ser a diferença entre um agente que fornece um resumo enganoso e um que lê arquivos confidenciais e comunica essas informações externamente, resultando em perda de dados.

As armadilhas sistêmicas e as armadilhas de humano no loop permanecem menos desenvolvidas, mas merecem atenção. Armadilhas sistêmicas podem induzir muitos agentes semelhantes a se comportarem de maneiras correlacionadas, causando congestionamento ou falhas em cascata. Armadilhas de humano no loop podem usar um agente comprometido para enganar a pessoa que deve aprovar suas ações. Esses riscos podem se tornar mais plausíveis à medida que a população de agentes cresce e os usuários se acostumam a confiar em resumos gerados por agentes.

Um único controle não será suficiente para mitigar a ameaça das armadilhas dos agentes. Um framework defensivo deve incluir verificação de fontes, triagem de conteúdo, governança de memória, permissões restritas, execução isolada, monitoramento e um framework de aprovação independente com um humano no loop para ações de alto impacto. A segurança deve seguir a autoridade, e deve haver linhas claras de separação entre a capacidade de interpretar e a autoridade para agir.

O futuro do uso de IA autônoma dependerá não apenas do que esses agentes podem fazer, mas também de como eles decidem em quem confiar. O fato de que eles podem completar uma tarefa não está em dúvida, mas eles devem ser capazes de reconhecer quando o ambiente em que estão operando tenta manipulá-los.

Para os profissionais de segurança e gestores de tecnologia, a compreensão dessas armadilhas é essencial para desenvolver estratégias eficazes de mitigação. A segurança em IA não é apenas uma questão técnica, mas também uma questão de governança e ética, que deve ser abordada de forma holística.

Em conclusão, à medida que a utilização de agentes de IA se expande, a necessidade de uma abordagem robusta para a segurança se torna cada vez mais crítica. A identificação e mitigação de armadilhas não são apenas uma questão de proteger dados, mas de garantir a integridade e a confiança nos sistemas de IA que estão se tornando cada vez mais integrados em nossas operações diárias.