Manipulação de modelos de IA
A manipulação de modelos é uma categoria de ataques que visam a integridade de um modelo de IA ou os dados usados para o treinar. Ao contrário dos ataques baseados em prompts, que exploram o modelo no momento da inferência (quando está a processar pedidos), os ataques de manipulação do modelo comprometem-no na fase de treino ou afinação — antes de ser implementado. Isto torna-os particularmente perigosos porque o comportamento corrompido passa a fazer parte das capacidades aprendidas do modelo.
A manipulação do modelo é catalogada como técnica AML. T0022 (Envenenamento de Dados) no ATLAS MITRE e aparece no Top 10 OWASP para Aplicações LLM como "Envenenamento de Dados de Treino."
Os dois principais tipos de vulnerabilidade nesta categoria são envenenamento de modelo e envenenamento de dados.
Envenenamento por modelo
O envenenamento de modelos é a capacidade de corromper um modelo treinado ao manipular a arquitetura do modelo, o código de treino ou os hiperparâmetros. Em vez de modificar os dados de treino, o atacante direciona diretamente a estrutura ou o processo de treino do modelo. Exemplos de modelos de técnicas de ataque de envenenamento incluem:
Ataques de disponibilidade: Estes visam injetar tantos dados errados ou ruído no processo de treino que a fronteira de decisão aprendida do modelo se torna pouco fiável. Isto pode levar a uma queda significativa na precisão, tornando o modelo inutilizável.
Ataques de integridade (backdoor): Estes ataques sofisticados fazem com que o modelo funcione normalmente para a maioria das entradas, mas introduzem uma backdoor oculta. Esta porta traseira permite ao atacante manipular o comportamento do modelo para entradas específicas — por exemplo, fazendo com que um modelo de moderação de conteúdos aprove sempre conteúdos que contenham uma frase gatilho oculta específica.
Níveis de acesso adversarial: A eficácia dos ataques de envenenamento depende do nível de acesso que o adversário tem ao modelo, variando desde acesso total ao pipeline de treino (mais perigoso) até acesso limitado apenas através de interações API. Os atacantes podem usar estratégias como aumentar atualizações maliciosas de modelos ou alternar técnicas de otimização para manter a furtividade.
Envenenamento de dados
O envenenamento de dados é semelhante ao envenenamento de modelos, mas envolve a modificação dos dados sobre os quais o modelo é treinado ou testado antes de o treino ocorrer. Isto ocorre quando um adversário injeta intencionalmente dados maliciosos no conjunto de dados de treino de um modelo de IA ou aprendizagem automática (ML). O objetivo é manipular o comportamento do modelo durante os processos de tomada de decisão.
Quatro tipos comuns de ataques de envenenamento de dados incluem:
Envenenamento por porta dos fundos
Neste ataque, um adversário injeta dados no conjunto de treinamento com a intenção de criar uma vulnerabilidade oculta ou "backdoor" no modelo. O modelo aprende a associar um gatilho específico a um resultado específico, que pode ser explorado mais tarde.
Por exemplo, imagine um filtro de spam treinado em dados de e-mail. Se um atacante introduzir subtilmente uma frase específica em emails legítimos durante o treino, o filtro pode aprender a classificar futuros emails de spam que contenham essa expressão como legítimos.
Ataques de disponibilidade
Os ataques de disponibilidade visam perturbar a utilidade de um sistema ao contaminar os seus dados durante o treino. Por exemplo:
- Os dados de treino de um veículo autónomo incluem imagens de sinais de trânsito. Um invasor pode injetar imagens enganosas ou alteradas de sinais de trânsito, fazendo com que o veículo interprete erroneamente sinais reais durante a operação.
- Chatbots treinados para interações com clientes podem aprender linguagem inadequada se forem introduzidos dados envenenados contendo termos ofensivos.
Ataques de inversão de modelo
Os ataques de inversão de modelo exploram a saída do modelo para inferir informações confidenciais sobre os dados de treinamento. Por exemplo, um modelo de reconhecimento facial é treinado com um conjunto de dados que contém tanto figuras públicas como indivíduos privados. Um invasor pode usar os resultados do modelo para reconstruir rostos de indivíduos privados, o que viola a privacidade.
Ataques furtivos
As técnicas de envenenamento furtivo visam evitar a deteção durante o treinamento. Os atacantes modificam sutilmente uma pequena fração dos dados de treinamento para evitar disparar alarmes. Por exemplo, alterar alguns píxeis em imagens de dígitos manuscritos durante o treino pode fazer com que um modelo de reconhecimento de dígitos classifique incorretamente dígitos específicos sem que ninguém note a alteração nos dados de treino.
Mitigação da manipulação de modelos
Os ataques de manipulação de modelos podem ser mitigados através de vários controlos de segurança:
- Proteger a integridade do modelo: Limitar o acesso ao pipeline de treino, arquitetura e configuração do modelo usando controlos de identidade, rede e segurança de dados. Garantir que apenas pessoal autorizado pode modificar o código de formação ou os hiperparâmetros.
- Proteger os dados de treino: Restringir o acesso a conjuntos de dados de treino utilizando controlos de acesso e governação de dados. Validar a proveniência dos dados e implementar verificações de integridade para detetar modificações não autorizadas.
- Validar o comportamento do modelo: Testar modelos com benchmarks conhecidos antes e depois do treino para detetar alterações comportamentais inesperadas que possam indicar envenenamento.
- Monitorizar os resultados do modelo: Implementar filtros de conteúdo de saída para detetar sinais de ataques de inversão do modelo ou outras fugas de dados através das respostas do modelo.
- Use ML-BOM (Machine Learning Lista de Materiais): Acompanhe a origem e as transformações dos dados e modelos ao longo do pipeline para manter um registo de auditoria.