Resumo

2 minutos

Neste módulo, aprendeu os fundamentos dos testes de segurança em IA através da perspetiva do red teaming da IA:

O que é o red teaming de IA: Uma prática que expande os testes de segurança tradicionais para incluir superfícies de ataque específicas de IA, abordando tanto vulnerabilidades de segurança como preocupações relacionadas à IA responsável. Ao contrário dos testes tradicionais, o red teaming da IA deve considerar resultados probabilísticos, incluir tanto personas adversariais quanto benignas, e ser repetido à medida que os modelos e metaprompts evoluem.
As três categorias: Full stack red teaming avalia toda a stack tecnológica. A aprendizagem automática adversarial visa o próprio modelo através de técnicas como evasão e envenenamento de dados. A injeção de prompts explora a interface de linguagem natural por meio de injeção direta, injeção indireta e desbloqueio do sistema.
Planeamento de um exercício de red teaming: Um red teaming eficaz de IA requer recrutar equipas diversas e desenhar testes adversariais tanto na camada do modelo como na camada de aplicação. As equipas realizam testes iterativos com e sem mitigações, utilizam ferramentas automatizadas para complementar os testes manuais e reportam resultados às partes interessadas.

Os testes de segurança de IA são uma prática contínua, não uma atividade pontual. À medida que os modelos são atualizados, os metaprompts mudam e surgem novas técnicas de ataque, as organizações precisam de testar e validar continuamente a postura de segurança dos seus sistemas de IA.

Outros recursos

Para continuar a sua jornada de aprendizagem, explore estes recursos:

Top 10 OWASP para Aplicações LLM
MITRE ATLAS — Panorama de Ameaças Adversariais para Sistemas de IA
Ferramenta de Identificação de Risco Python (PyRIT)
Quadro de Gestão de Risco de IA do NIST

Comentários

Esta página foi útil?