Resumo
Neste módulo, aprendeu os fundamentos dos testes de segurança em IA através da perspetiva do red teaming da IA:
- O que é o red teaming de IA: Uma prática que expande os testes de segurança tradicionais para incluir superfícies de ataque específicas de IA, abordando tanto vulnerabilidades de segurança como preocupações relacionadas à IA responsável. Ao contrário dos testes tradicionais, o red teaming da IA deve considerar resultados probabilísticos, incluir tanto personas adversariais quanto benignas, e ser repetido à medida que os modelos e metaprompts evoluem.
- As três categorias: Full stack red teaming avalia toda a stack tecnológica. A aprendizagem automática adversarial visa o próprio modelo através de técnicas como evasão e envenenamento de dados. A injeção de prompts explora a interface de linguagem natural por meio de injeção direta, injeção indireta e desbloqueio do sistema.
- Planeamento de um exercício de red teaming: Um red teaming eficaz de IA requer recrutar equipas diversas e desenhar testes adversariais tanto na camada do modelo como na camada de aplicação. As equipas realizam testes iterativos com e sem mitigações, utilizam ferramentas automatizadas para complementar os testes manuais e reportam resultados às partes interessadas.
Os testes de segurança de IA são uma prática contínua, não uma atividade pontual. À medida que os modelos são atualizados, os metaprompts mudam e surgem novas técnicas de ataque, as organizações precisam de testar e validar continuamente a postura de segurança dos seus sistemas de IA.
Outros recursos
Para continuar a sua jornada de aprendizagem, explore estes recursos:
- Top 10 OWASP para Aplicações LLM
- MITRE ATLAS — Panorama de Ameaças Adversariais para Sistemas de IA
- Ferramenta de Identificação de Risco Python (PyRIT)
- Quadro de Gestão de Risco de IA do NIST