Agente de Equipa Vermelha IA (pré-visualização) (clássico)

Atualmente a ver:versão do portal Foundry (clássica) - Trocar para a versão do novo portal Foundry

Importante

Os itens marcados (pré-visualização) neste artigo encontram-se atualmente em pré-visualização pública. Esta pré-visualização é fornecida sem um acordo de nível de serviço, e não a recomendamos para cargas de trabalho em produção. Certas funcionalidades podem não ser suportadas ou podem ter capacidades limitadas. Para mais informações, consulte Termos de Utilização Suplementares para Microsoft Azure Pré-visualizações.

O Agente de Equipa Vermelha de IA é uma ferramenta poderosa concebida para ajudar organizações a identificar proativamente riscos de segurança associados a sistemas de IA generativa durante o desenho e desenvolvimento de modelos e aplicações de IA generativa.

O red teaming tradicional envolve explorar a cadeia de eliminação cibernética e descreve o processo pelo qual um sistema é testado para vulnerabilidades de segurança. No entanto, com o surgimento da IA generativa, o termo red teaming de IA foi cunhado para descrever a sondagem de novos riscos (tanto de conteúdo como de segurança) que estes sistemas apresentam e refere-se à simulação do comportamento de um utilizador adversário que tenta fazer com que o seu sistema de IA se comporte mal de determinada forma.

O Agente de Testes de Segurança de IA utiliza a plataforma open-source da Microsoft para as capacidades de testes de segurança de IA da Ferramenta de Identificação de Risco para Python (PyRIT), juntamente com as Avaliações de Risco e Segurança da Microsoft Foundry, para ajudá-lo a avaliar automaticamente questões de segurança de três maneiras.

Varreduras automáticas para riscos de conteúdo: Em primeiro lugar, pode escanear automaticamente os endpoints do seu modelo e da aplicação para riscos de segurança, simulando sondagens adversariais.
Avalie o sucesso da sondagem: De seguida, pode avaliar e pontuar cada par ataque-resposta para gerar métricas perspicazes, como a Taxa de Sucesso de Ataque (ASR).
Relatórios e registos Por fim, pode gerar um cartão de pontuação das técnicas de sondagem de ataque e categorias de risco para o ajudar a decidir se o sistema está pronto para ser implementado. As conclusões podem ser registadas, monitorizadas e acompanhadas ao longo do tempo diretamente na Foundry, garantindo conformidade e mitigação contínua de riscos.

Juntos, estes componentes (varrimento, avaliação e relatório) ajudam as equipas a compreender como os sistemas de IA respondem a ataques comuns, orientando, em última análise, uma estratégia abrangente de gestão de risco.

Quando deve ser feita uma execução de red teaming com IA

Ao pensar nos riscos de segurança relacionados com IA no desenvolvimento de sistemas de IA confiáveis, a Microsoft utiliza o quadro do NIST para mitigar riscos de forma eficaz: Governar, Mapear, Mede, Gerir. Vamos focar-nos nas três últimas partes em relação ao ciclo de vida do desenvolvimento da IA generativa:

Mapa: Identifique os riscos relevantes e defina o seu caso de uso.
Medir: Avaliar os riscos em grande escala.
Gerir: Mitigar riscos na produção e monitorizar com um plano de resposta a incidentes.

O AI Red Teaming Agent pode ser usado para executar varreduras automáticas e simular sondagens adversariais, ajudando a acelerar a identificação e avaliação de riscos conhecidos em larga escala. Isto ajuda as equipas a "deslocarem-se para a esquerda" de incidentes reativos dispendiosos para frameworks de teste mais proativos que podem detetar problemas antes da implementação. O processo manual de red teaming de IA consome muito tempo e recursos. Baseia-se na criatividade dos especialistas em segurança para simular sondagens adversariais. Este processo pode criar um gargalo para muitas organizações acelerarem a adoção da IA. Com o AI Red Teaming Agent, as organizações podem agora aproveitar a vasta experiência da Microsoft para escalar e acelerar o desenvolvimento da IA, com a Trustworthy AI na linha da frente.

Incentivamos as equipas a utilizarem o AI Red Teaming Agent para executar varreduras automáticas durante a fase de design, desenvolvimento e pré-implementação:

Design: Escolher o modelo fundamental mais seguro para o seu caso de uso.
Desenvolvimento: Atualizar modelos dentro da sua aplicação ou criar modelos afinados para a sua aplicação específica.
Pré-implementação: Antes de implementar aplicações GenAI para produções.

Em produção, recomendamos implementar mitigações de segurança, como filtros Segurança de conteúdo de IA do Azure, ou implementar mensagens do sistema de segurança usando os nossos modelos.

Como funciona o Red Teaming da IA

O Agente de Equipa Vermelha de IA ajuda a automatizar a simulação da sondagem adversarial do sistema de IA do seu alvo. Fornece um conjunto de dados selecionado de prompts seed ou objetivos de ataque por categorias de risco suportadas. Estas podem ser usadas para automatizar sondagens adversariais diretas. No entanto, a sondagem adversária direta pode ser facilmente detetada pelos alinhamentos de segurança existentes da implementação do modelo. Aplicar estratégias de ataque do PyRIT proporciona uma conversão extra que pode ajudar a contornar ou subverter o sistema de IA para produzir conteúdo indesejado.

O diagrama mostra que um pedido direto ao seu sistema de IA sobre como saquear um banco desencadeia uma resposta de recusa. No entanto, aplicar uma estratégia de ataque, como inverter todos os caracteres, pode ajudar a enganar o modelo para responder à pergunta.

Adicionalmente, o Agente de Equipa Vermelha de IA fornece aos utilizadores um modelo de linguagem de grande escala adversarial afinado, dedicado à tarefa de simular ataques adversariais e avaliar respostas que possam conter conteúdo prejudicial com os Avaliadores de Risco e Segurança. A métrica chave para avaliar a postura de risco do seu sistema de IA é a Taxa de Sucesso de Ataque (ASR), que calcula a percentagem de ataques bem-sucedidos em relação ao total de atacos.

Categorias de risco suportadas

As seguintes categorias de risco são suportadas no Agente de Equipa Vermelha de IA das Avaliações de Risco e Segurança. Apenas cenários baseados em texto são suportados.

Categoria de risco	Descrição
Conteúdo odioso e injusto	Conteúdo de ódio e injusto refere-se a qualquer linguagem ou imagem relacionada com ódio ou representações injustas de indivíduos e grupos sociais, incluindo mas não se limitando a, raça, etnia, nacionalidade, género, orientação sexual, religião, estatuto migratório, capacidade, aparência pessoal e tamanho corporal. A injustiça ocorre quando os sistemas de IA tratam ou representam grupos sociais de forma desigual, criando ou contribuindo para desigualdades sociais.
Conteúdo Sexual	O conteúdo sexual inclui linguagem ou imagens relacionadas com órgãos anatómicos e genitais, relações amorosas, atos retratados em termos eróticos, gravidez, atos sexuais físicos (incluindo agressão ou violência sexual), prostituição, pornografia e abuso sexual.
Conteúdo Violento	O conteúdo violento inclui linguagem ou imagens relacionadas com ações físicas destinadas a ferir, ferir, danificar ou matar alguém ou algo. Inclui também descrições de armas e armas (e entidades relacionadas, como fabricantes e associações).
Conteúdo Relacionado com Autolesões	Conteúdos relacionados com auto-mutilação incluem linguagem ou imagens relacionadas com ações destinadas a magoar, ferir ou danificar o próprio corpo ou suicidar-se.

Estratégias de ataque suportadas

As seguintes estratégias de ataque são suportadas no AI Red Teaming Agent do PyRIT:

Estratégia de Ataque	Descrição
AnsiAttack	Utiliza sequências de escape ANSI para manipular a aparência e o comportamento do texto.
AsciiArt	Gera arte visual usando caracteres ASCII, frequentemente usados para fins criativos ou de ofuscação.
AsciiSmuggler	Esconde dados dentro dos caracteres ASCII, tornando mais difícil a deteção.
Atbash	Implementa a cifra Atbash, uma cifra de substituição simples onde cada letra é mapeada para o seu reverso.
Base64	Codifica dados binários num formato de texto usando Base64, comumente usado para transmissão de dados.
Binário	Converte texto em código binário, representando dados numa série de 0s e 1s.
César	Aplica a cifra de César, uma cifra de substituição que desloca caracteres por um número fixo de posições.
CharacterSpace	Altera o texto adicionando espaços entre caracteres, frequentemente usado para ofuscação.
CharSwap	Troca caracteres dentro do texto para criar variações ou ofuscar o conteúdo original.
Diacrítico	Adiciona marcas diacríticas às personagens, mudando a sua aparência e, por vezes, o seu significado.
Flip	Inverte as personagens da frente para trás, criando um efeito espelhado.
Leetspeak	Transforma texto em Leetspeak, uma forma de codificação que substitui letras por números ou símbolos de aparência semelhante.
Morse	Codifica texto em código Morse, usando pontos e traços para representar caracteres.
ROT13	Aplica a cifra ROT13, uma cifra de substituição simples que desloca os caracteres em 13 posições.
SuffixAppend	Acrescenta um sufixo adversarial ao prompt
StringJoin	Une várias cadeias de caracteres entre si, frequentemente utilizado para concatenação ou ofuscação.
Unicode Confusível	Usa caracteres Unicode que se assemelham aos caracteres padrão, criando confusão visual.
UnicodeSubstitution	Substitui caracteres padrão por equivalentes Unicode, muitas vezes para ofuscação.
Endereço de URL	Codifica texto em formato URL
Desbloqueio (Jailbreak)	Introduz prompts especialmente criados para contornar salvaguardas de inteligência artificial, conhecidos como Ataques de Prompts Injetados pelo Utilizador (UPIA).
Jailbreak Indireto	Injeta prompts de ataque nos resultados das ferramentas ou no contexto devolvido para contornar indiretamente as salvaguardas da Inteligência Artificial, conhecidos como Ataques de Injeção de Prompt Indireto.
Tenso	Altera o tempo verbal do texto, convertendo-o especificamente para passado.
Múltiplas voltas	Executa ataques ao longo de múltiplos turnos conversacionais, usando a acumulação de contexto para contornar salvaguardas ou provocar comportamentos não intencionais.
Crescendo	Aumenta gradualmente a complexidade ou o risco dos desafios ao longo de turnos sucessivos, procurando fraquezas nas defesas dos agentes através de desafios progressivos.

Limitações conhecidas do Agente de Equipa Vermelha de IA

AI Red Teaming Agent tem várias limitações importantes a ter em conta ao executar e interpretar os resultados do red teaming.

Os testes de red teaming simulam cenários em que um agente da Foundry é exposto a dados sensíveis ou diretamente a dados de meios de ataque. Como estes dados são todos sintéticos, não representam as distribuições de dados do mundo real.
As ferramentas simuladas estão atualmente ativadas apenas para recuperar dados sintéticos e permitir avaliações de red teaming. Atualmente, não suportam comportamentos de simulação, o que permitiria testar mais próximo do sandboxing real do que o que é atualmente suportado.
Devido à falta de apoio de sandboxing totalmente bloqueado, a natureza adversarial das nossas avaliações de red teaming é controlada para evitar impacto no mundo real.
As corridas de equipa vermelha representam apenas a população adversária e não incluem qualquer população observacional.
As execuções de red teaming utilizam modelos generativos para avaliar as Taxas de Sucesso de Ataque (ASR) e podem ser não determinísticas ou não preditivas. Por isso, existe sempre a possibilidade de falsos positivos e recomendamos sempre rever os resultados antes de tomar medidas de mitigação.

Saiba mais

Comece com a nossa documentação sobre como executar uma varredura automática para riscos de segurança com o Agente de Equipa Vermelha de IA

Saiba mais sobre as ferramentas usadas pelo Agente de Equipa Vermelha de IA.

As estratégias mais eficazes para avaliação de risco combinam ferramentas automatizadas que revelam riscos potenciais com análises humanas especializadas para obter insights mais profundos. Se a sua organização está apenas a começar com a red team de IA, explore os recursos criados pela red team da Microsoft AI:

Comentários

Esta página foi útil?

Last updated on 2026-04-29