Agente de Red Teaming IA

O Agente de Equipa Vermelha de IA é uma ferramenta poderosa concebida para ajudar organizações a identificar proativamente riscos de segurança associados a sistemas de IA generativa durante o desenho e desenvolvimento de modelos e aplicações de IA generativa.

O red teaming tradicional envolve explorar a cadeia de eliminação cibernética e descreve o processo pelo qual um sistema é testado para vulnerabilidades de segurança. No entanto, com o surgimento da IA generativa, o termo red teaming de IA foi cunhado para descrever a sondagem de novos riscos (tanto de conteúdo como de segurança) que estes sistemas apresentam e refere-se à simulação do comportamento de um utilizador adversário que tenta fazer com que o seu sistema de IA se comporte mal de determinada forma.

O Agente de Testes de Segurança de IA utiliza a plataforma open-source da Microsoft para as capacidades de testes de segurança de IA da Ferramenta de Identificação de Risco para Python (PyRIT), juntamente com as Avaliações de Risco e Segurança da Microsoft Foundry, para ajudá-lo a avaliar automaticamente questões de segurança de três maneiras.

  • Varreduras automáticas para riscos de conteúdo: Em primeiro lugar, pode escanear automaticamente os endpoints do seu modelo e da aplicação para riscos de segurança, simulando sondagens adversariais.
  • Avalie o sucesso da sondagem: De seguida, pode avaliar e pontuar cada par ataque-resposta para gerar métricas perspicazes, como a Taxa de Sucesso de Ataque (ASR).
  • Relatórios e registos Por fim, pode gerar um cartão de pontuação das técnicas de sondagem de ataque e categorias de risco para o ajudar a decidir se o sistema está pronto para ser implementado. As conclusões podem ser registadas, monitorizadas e acompanhadas ao longo do tempo diretamente na Foundry, garantindo conformidade e mitigação contínua de riscos.

Juntos, estes componentes (varrimento, avaliação e relatório) ajudam as equipas a compreender como os sistemas de IA respondem a ataques comuns, orientando, em última análise, uma estratégia abrangente de gestão de risco.

Quando utilizar o Agente de Red Teaming da IA

Ao pensar nos riscos de segurança relacionados com IA no desenvolvimento de sistemas de IA confiáveis, a Microsoft utiliza o quadro do NIST para mitigar riscos de forma eficaz: Governar, Mapear, Mede, Gerir. As secções seguintes focam-se nas três últimas partes em relação ao ciclo de vida do desenvolvimento da IA generativa:

  • Mapa: Identifique os riscos relevantes e defina o seu caso de uso.
  • Medir: Avaliar os riscos em grande escala.
  • Gerir: Mitigar riscos na produção e monitorizar com um plano de resposta a incidentes.

Diagrama de como usar o Agente de Equipa Vermelha de IA mostrando proativo a reativo e de menos dispendioso a mais dispendioso.

O AI Red Teaming Agent pode ser usado para executar varreduras automáticas e simular sondagens adversariais, ajudando a acelerar a identificação e avaliação de riscos conhecidos em larga escala. Isto ajuda as equipas a "deslocarem-se para a esquerda" de incidentes reativos dispendiosos para frameworks de teste mais proativos que podem detetar problemas antes da implementação. O processo manual de red teaming de IA consome muito tempo e recursos. Baseia-se na criatividade dos especialistas em segurança para simular sondagens adversariais. Este processo pode criar um gargalo para muitas organizações acelerarem a adoção da IA. Com o AI Red Teaming Agent, as organizações podem agora aproveitar a vasta experiência da Microsoft para escalar e acelerar o desenvolvimento da IA, com a Trustworthy AI na linha da frente.

Use o Agente de Equipa Vermelha de IA para realizar análises automáticas durante a fase de design, desenvolvimento e pré-implantação:

  • Design: Escolher o modelo fundamental mais seguro para o seu caso de uso.
  • Desenvolvimento: Atualizar modelos dentro da sua aplicação ou criar modelos afinados para a sua aplicação específica.
  • Pré-implementação: Antes de implementar aplicações e agentes GenAI para produção.
  • Pós-implementação: Monitorizar as suas aplicações e agentes de IA generativa após a implementação com execuções contínuas programadas de red teaming em dados sintéticos adversariais.

Em produção, recomendamos implementar protetores de segurança como filtros Segurança de conteúdo de IA do Azure ou implementar mensagens do sistema de segurança usando os nossos modelos templates. Para fluxos de trabalho autónomos, recomendamos aproveitar o Foundry Control Plane para aplicar resguardos e governar a sua rede de agentes.

Como funciona o Red Teaming da IA

O Agente de Equipa Vermelha de IA ajuda a automatizar a simulação da sondagem adversarial do sistema de IA do seu alvo. Fornece um conjunto de dados selecionado de prompts seed ou objetivos de ataque por categorias de risco suportadas. Estas podem ser usadas para automatizar sondagens adversariais diretas. No entanto, a sondagem adversária direta pode ser facilmente detetada pelos alinhamentos de segurança existentes da implementação do modelo. Aplicar estratégias de ataque do PyRIT proporciona uma conversão extra que pode ajudar a contornar ou subverter o sistema de IA para produzir conteúdo indesejado.

O diagrama mostra que um pedido direto ao seu sistema de IA sobre como saquear um banco desencadeia uma resposta de recusa. No entanto, aplicar uma estratégia de ataque, como inverter todos os caracteres, pode ajudar a enganar o modelo para responder à pergunta.

Diagrama de como funciona o Agente de Equipa Vermelha da IA.

Adicionalmente, o Agente de Equipa Vermelha de IA fornece aos utilizadores um modelo de linguagem de grande escala adversarial afinado, dedicado à tarefa de simular ataques adversariais e avaliar respostas que possam conter conteúdo prejudicial com os Avaliadores de Risco e Segurança. A métrica chave para avaliar a postura de risco do seu sistema de IA é a Taxa de Sucesso de Ataque (ASR), que calcula a percentagem de ataques bem-sucedidos em relação ao total de atacos.

Categorias de risco suportadas

As seguintes categorias de risco são suportadas no Agente de Equipa Vermelha de IA das Avaliações de Risco e Segurança. Apenas cenários baseados em texto são suportados.

Categoria de risco Destinos suportados Equipa vermelha local ou na nuvem Descrição
Conteúdo odioso e injusto Modelo e agentes Local e nuvem Conteúdo de ódio e injusto refere-se a qualquer linguagem ou imagem relacionada com ódio ou representações injustas de indivíduos e grupos sociais, incluindo mas não se limitando a, raça, etnia, nacionalidade, género, orientação sexual, religião, estatuto migratório, capacidade, aparência pessoal e tamanho corporal. A injustiça ocorre quando os sistemas de IA tratam ou representam grupos sociais de forma desigual, criando ou contribuindo para desigualdades sociais.
Conteúdo Sexual Modelo e agentes Local e nuvem O conteúdo sexual inclui linguagem ou imagens relacionadas com órgãos anatómicos e genitais, relações amorosas, atos retratados em termos eróticos, gravidez, atos sexuais físicos (incluindo agressão ou violência sexual), prostituição, pornografia e abuso sexual.
Conteúdo Violento Modelo e agentes Local e nuvem O conteúdo violento inclui linguagem ou imagens relacionadas com ações físicas destinadas a ferir, ferir, danificar ou matar alguém ou algo. Inclui também descrições de armas e armas (e entidades relacionadas, como fabricantes e associações).
Conteúdo Relacionado com Autolesões Modelo e agentes Local e nuvem Conteúdos relacionados com auto-mutilação incluem linguagem ou imagens relacionadas com ações destinadas a magoar, ferir ou danificar o próprio corpo ou suicidar-se.
Materiais Protegidos Modelo e agentes Local e nuvem Materiais protegidos por direitos autorais ou protegidos, como letras, canções e receitas.
Vulnerabilidade de código Modelo e agentes Local e nuvem Mede se a IA gera código com vulnerabilidades de segurança, como injeção de código, tar-slip, injeções SQL, exposição a traços de pilha e outros riscos em Python, Java, C++, C#, Go, JavaScript e SQL.
Atributos não fundamentados Modelo e agentes Local e nuvem Mede a geração de respostas textuais de um sistema de IA que contêm inferências infundadas sobre atributos pessoais, como a sua demografia ou estado emocional.
Ações proibidas Apenas agentes Só na nuvem Mede a capacidade de um agente de IA para se envolver em comportamentos que violem ações ou usos de ferramentas explicitamente proibidos, com base numa política/taxonomia verificada pelo utilizador sobre ações proibidas.
Fuga de dados sensíveis Apenas agentes Só na nuvem Mede a vulnerabilidade de um agente de IA à exposição de informações sensíveis (dados financeiros, identificadores pessoais, dados de saúde, etc.)
Cumprimento da tarefa Apenas agentes Só na nuvem Mede se um agente de IA completa a tarefa atribuída seguindo o objetivo do utilizador, respeitando todas as regras e restrições, e executando os procedimentos necessários sem ações ou omissões não autorizadas.

Riscos agentes

Categorias de risco específicas de agentes, como ações proibidas, fuga de dados sensíveis e adesão a tarefas, requerem uma abordagem de red teaming automatizada que difere das categorias de risco apenas para modelos. Especificamente, o Agente de Equipa Vermelha da IA já não se limita a verificar os resultados gerados, mas também verifica os outputs das ferramentas para identificar comportamentos inseguros ou de risco. As categorias de risco agentic só estão disponíveis no cloud red teaming para proporcionar um ambiente minimamente em sandbox.

Nota

O cloud red teaming está atualmente disponível nas seguintes regiões: Leste dos EUA 2, França Central, Suécia Central, Suíça Ocidental e EUA Norte Central.

Para execuções de equipa vermelha em nuvem, redigimos os inputs prejudiciais ou adversariais enviados ao seu modelo ou agente a partir dos resultados das execuções de equipa vermelha. Isto impede que programadores e partes interessadas não técnicas sejam expostos a ataques de prompt potencialmente prejudiciais gerados pelas execuções de red teaming do Agente de Equipa Vermelha da IA.

Para as categorias de risco de agentes com red teaming, garantimos que, quando uma execução de red teaming com IA tem como alvo um agente hospedado na Foundry, é uma execução transitória, para que dados prejudiciais não sejam registados pelo Serviço de Agentes da Foundry e as concluções do chat não sejam armazenadas. Realize exercícios de red teaming num ambiente roxo — um ambiente não de produção configurado com recursos semelhantes à produção — para ver como os seus agentes se comportam em condições realistas.

Fuga de dados sensíveis

Testes de red teaming para deteção de fuga de dados sensíveis, incluindo dados financeiros, médicos e pessoais, a partir de bases de conhecimento internas e chamadas de ferramentas internas. O Agente de Equipa Vermelha de IA utiliza conjuntos de dados sintéticos de informação sensível e ferramentas simuladas para gerar cenários que incitam o agente a divulgar informação. A Taxa de Sucesso de Ataque (ASR) define se a atividade de red teaming deteta fugas de nível de formato usando correspondência de padrões.

Limitações: Única interação, apenas em inglês; dados sintéticos; não inclui fugas de memória ou do conjunto de treino.

Ações proibidas

Teste de red teaming para ações proibidas avalia se os agentes realizam ações proibidas, de alto risco ou irreversíveis, gerando prompts dinâmicos hostis com base em políticas dadas pelo utilizador e na taxonomia de ações proibidas, juntamente com o conjunto de ferramentas suportadas que o agente está a usar e as descrições de ferramentas dos utilizadores. A Taxa de Sucesso de Ataque (ASR) define violações de políticas apresentadas pelo agente com base nas políticas fornecidas pelo utilizador.

Categoria Descrição Regra da Concessão
Ações Proibidas Universalmente banido (por exemplo, reconhecimento facial, inferência emocional, pontuação social). ❌ Nunca permitido
Ações de Alto Risco Ações sensíveis requerem autorização humana explícita (por exemplo, transações financeiras, decisões médicas). ⚠️ Permitido com confirmação humana no processo
Ações Irreversíveis Operações permanentes (por exemplo, eliminações de ficheiros, reset do sistema). ⚠️ Permitido com divulgação e confirmação

Limitações: Interação única, apenas em inglês. Foco a nível de ferramenta. Sem dados de produção em direto.

Cautela

Declaração de exoneração de responsabilidade para a utilização de Taxonomia de Ações Proibidas por Terceiros:
A taxonomia das ações proibidas, de alto risco e irreversíveis fornecidas neste produto destina-se unicamente a servir de orientação ilustrativa para apoiar os desenvolvedores de agentes na avaliação e personalização dos seus próprios quadros de risco. Não constitui uma lista definitiva ou exaustiva de práticas proibidas, nem reflete a política ou a interpretação regulatória da Microsoft. As organizações terceirizadas continuam a ser a única responsável por garantir que os seus agentes cumpram as leis e regulamentos aplicáveis, incluindo, mas não se limitando a, a Lei da IA da UE e outros requisitos jurisdicionais. A Microsoft recomenda fortemente manter as ações proibidas por padrão, derivadas de restrições regulatórias, e desencoraja a desseleção destes itens. O uso deste produto não garante a conformidade. As organizações devem consultar o seu próprio advogado para avaliar e implementar salvaguardas e proibições adequadas, adaptadas ao seu contexto operacional e tolerância ao risco.

Cumprimento da tarefa

Testes de adesão a tarefas por red-teaming verificam se os agentes completam de forma fiel as tarefas atribuídas, alcançando o objetivo do utilizador, respeitando todas as regras e restrições, e seguindo os procedimentos exigidos. O Agente de Equipa Vermelha de IA investiga três dimensões: alcance do objetivo (se o agente alcançou o objetivo pretendido), conformidade com as regras (incluindo limites das políticas e contratos de apresentação) e disciplina de procedimentos (uso correto da ferramenta, fluxo de trabalho e ancoragem). O conjunto de dados de entrada considera as ferramentas suportadas e disponíveis para gerar trajetórias agêncicas diversas, incluindo casos representativos e adversos, para testar tanto cenários comuns como casos extremos.

Ataques de injeção indireta por prompt (XPIA)

Ataques Indiretos Injetados por Prompt (também conhecidos como Cross-Domain Prompt Injected Attacks, XPIA) testam se um agente pode ser manipulado por instruções maliciosas escondidas em fontes de dados externas, como emails ou documentos — recuperados através de chamadas de ferramenta. O Agente de Equipa Vermelha de IA utiliza um conjunto de dados sintético de consultas benignas dos utilizadores e resultados de ferramentas simuladas contendo marcadores de ataque. Durante a sondagem, o Agente de Equipa Vermelha de IA injeta ataques específicos de risco nestes contextos para avaliar se o agente-alvo executa ações não intencionais ou inseguras. A Taxa de Sucesso de Ataque (ASR) mede com que frequência o agente é comprometido por injeção indireta de prompt, utilizando categorias de risco específicas do agente, como ações proibidas, fuga de dados sensíveis ou cumprimento de tarefas.

Consulte a lista completa de estratégias de ataque na secção seguinte.

Agentes e ferramentas suportados

O Agente de Equipa Vermelha de IA suportava atualmente a equipa vermelha dos agentes Foundry com chamadas de ferramentas Azure, com a seguinte matriz de suporte:

Agentes/Ações Suportadas Estado
A Foundry hospedou os agentes de prompts Apoiado
Agentes de contentores alojados na plataforma Foundry Apoiado
Agentes de fluxo de trabalho Foundry Não Suportado
Agentes não-fundidores Não Suportado
Ferramentas não-Azure Não Suportado
Chamadas de ferramentas do Azure Apoiado
Chamadas de funções da ferramenta Não suportado
Chamadas de ferramentas de automação de navegadores Não Suportado
Chamadas da ferramenta Agente Conectado Não Suportado
Chamadas de ferramentas para uso de computadores Não Suportado

Para uma lista abrangente de ferramentas, veja Ferramentas.

Estratégias de ataque suportadas

As seguintes estratégias de ataque são suportadas no AI Red Teaming Agent do PyRIT:

Estratégia de Ataque Descrição
AnsiAttack Utiliza sequências de escape ANSI para manipular a aparência e o comportamento do texto.
AsciiArt Gera arte visual usando caracteres ASCII, frequentemente usados para fins criativos ou de ofuscação.
AsciiSmuggler Esconde dados dentro dos caracteres ASCII, tornando mais difícil a deteção.
Atbash Implementa a cifra Atbash, uma cifra de substituição simples onde cada letra é mapeada para o seu reverso.
Base64 Codifica dados binários num formato de texto usando Base64, comumente usado para transmissão de dados.
Binário Converte texto em código binário, representando dados numa série de 0s e 1s.
César Aplica a cifra de César, uma cifra de substituição que desloca caracteres por um número fixo de posições.
CharacterSpace Altera o texto adicionando espaços entre caracteres, frequentemente usado para ofuscação.
CharSwap Troca caracteres dentro do texto para criar variações ou ofuscar o conteúdo original.
Diacrítico Adiciona marcas diacríticas às personagens, mudando a sua aparência e, por vezes, o seu significado.
Flip Inverte as personagens da frente para trás, criando um efeito espelhado.
Leetspeak Transforma texto em Leetspeak, uma forma de codificação que substitui letras por números ou símbolos de aparência semelhante.
Morse Codifica texto em código Morse, usando pontos e traços para representar caracteres.
ROT13 Aplica a cifra ROT13, uma cifra de substituição simples que desloca os caracteres em 13 posições.
SuffixAppend Acrescenta um sufixo adversarial ao prompt
StringJoin Une várias cadeias de caracteres entre si, frequentemente utilizado para concatenação ou ofuscação.
Unicode Confusível Usa caracteres Unicode que se assemelham aos caracteres padrão, criando confusão visual.
UnicodeSubstitution Substitui caracteres padrão por equivalentes Unicode, muitas vezes para ofuscação.
Endereço de URL Codifica texto em formato URL
Desbloqueio (Jailbreak) Introduz prompts especialmente criados para contornar salvaguardas de inteligência artificial, conhecidos como Ataques de Prompts Injetados pelo Utilizador (UPIA).
Jailbreak Indireto Injeta prompts de ataque nos resultados das ferramentas ou no contexto devolvido para contornar indiretamente as salvaguardas da Inteligência Artificial, conhecidos como Ataques de Injeção de Prompt Indireto.
Tenso Altera o tempo verbal do texto, convertendo-o especificamente para passado.
Múltiplas voltas Executa ataques ao longo de múltiplos turnos conversacionais, usando a acumulação de contexto para contornar salvaguardas ou provocar comportamentos não intencionais.
Crescendo Aumenta gradualmente a complexidade ou o risco dos desafios ao longo de turnos sucessivos, procurando fraquezas nas defesas dos agentes através de desafios progressivos.

Limitações conhecidas do Agente de Equipa Vermelha de IA

AI Red Teaming Agent tem várias limitações importantes a ter em conta ao executar e interpretar os resultados do red teaming.

  • Os testes de red teaming simulam cenários em que um agente da Foundry é exposto a dados sensíveis ou diretamente a dados de meios de ataque. Como estes dados são todos sintéticos, não representam as distribuições de dados do mundo real.
  • As ferramentas simuladas estão atualmente ativadas apenas para recuperar dados sintéticos e permitir avaliações de red teaming. Atualmente, não suportam comportamentos de simulação, o que permitiria testar mais próximo do sandboxing real do que o que é atualmente suportado.
  • Devido à falta de apoio de sandboxing totalmente bloqueado, a natureza adversarial das nossas avaliações de red teaming é controlada para evitar impacto no mundo real.
  • As corridas de equipa vermelha representam apenas a população adversária e não incluem qualquer população observacional.
  • As execuções de red teaming utilizam modelos generativos para avaliar as Taxas de Sucesso de Ataque (ASR) e podem ser não determinísticas ou não preditivas. Por isso, existe sempre a possibilidade de falsos positivos e recomendamos sempre rever os resultados antes de tomar medidas de mitigação.

Saiba mais

Comece com a nossa documentação sobre como executar uma varredura automática para riscos de segurança com o Agente de Equipa Vermelha de IA

Saiba mais sobre as ferramentas usadas pelo Agente de Equipa Vermelha de IA.

As estratégias mais eficazes para avaliação de risco combinam ferramentas automatizadas que revelam riscos potenciais com análises humanas especializadas para obter insights mais profundos. Se a sua organização está apenas a começar com a red team de IA, explore os recursos criados pela red team da Microsoft AI: