Resumo

Concluído

Neste módulo, você aprendeu os fundamentos do teste de segurança de IA por meio da abordagem de red team em IA.

  • O que é o agrupamento vermelho de IA: uma prática que estende os testes de segurança tradicionais para cobrir superfícies de ataque específicas de IA, abordando vulnerabilidades de segurança e preocupações responsáveis de IA. Ao contrário dos testes tradicionais, o agrupamento vermelho de IA deve considerar saídas probabilísticas, incluir personas adversárias e benignas e ser repetido à medida que os modelos e metaprompts evoluem.
  • As três categorias: o agrupamento vermelho de pilha completa avalia toda a pilha de tecnologia. O aprendizado de máquina adversário tem como alvo o próprio modelo por meio de técnicas como evasão e envenenamento por dados. A injeção de prompt explora a interface de linguagem natural por meio de injeção direta, injeção indireta e desbloqueio.
  • Planejando um exercício de agrupamento vermelho: o agrupamento vermelho de IA eficaz requer o recrutamento de diversas equipes e a criação de testes adversários nas camadas de modelo e aplicativo. As equipes executam testes iterativos com e sem mitigações, usam ferramentas automatizadas para complementar testes manuais e relatar resultados aos stakeholders.

O teste de segurança de IA é uma prática contínua, não uma atividade única. À medida que os modelos são atualizados, os metaprompts mudam e novas técnicas de ataque surgem, as organizações precisam testar e validar continuamente a postura de segurança de seus sistemas de IA.

Outros recursos

Para continuar sua jornada de aprendizagem, explore estes recursos: