Resumo
Neste módulo, você aprendeu os fundamentos do teste de segurança de IA por meio da abordagem de red team em IA.
- O que é o agrupamento vermelho de IA: uma prática que estende os testes de segurança tradicionais para cobrir superfícies de ataque específicas de IA, abordando vulnerabilidades de segurança e preocupações responsáveis de IA. Ao contrário dos testes tradicionais, o agrupamento vermelho de IA deve considerar saídas probabilísticas, incluir personas adversárias e benignas e ser repetido à medida que os modelos e metaprompts evoluem.
- As três categorias: o agrupamento vermelho de pilha completa avalia toda a pilha de tecnologia. O aprendizado de máquina adversário tem como alvo o próprio modelo por meio de técnicas como evasão e envenenamento por dados. A injeção de prompt explora a interface de linguagem natural por meio de injeção direta, injeção indireta e desbloqueio.
- Planejando um exercício de agrupamento vermelho: o agrupamento vermelho de IA eficaz requer o recrutamento de diversas equipes e a criação de testes adversários nas camadas de modelo e aplicativo. As equipes executam testes iterativos com e sem mitigações, usam ferramentas automatizadas para complementar testes manuais e relatar resultados aos stakeholders.
O teste de segurança de IA é uma prática contínua, não uma atividade única. À medida que os modelos são atualizados, os metaprompts mudam e novas técnicas de ataque surgem, as organizações precisam testar e validar continuamente a postura de segurança de seus sistemas de IA.
Outros recursos
Para continuar sua jornada de aprendizagem, explore estes recursos: