Manipulação do modelo de IA
A manipulação de modelo é uma categoria de ataques direcionados à integridade de um próprio modelo de IA ou aos dados usados para treiná-lo. Ao contrário dos ataques baseados em prompt que exploram o modelo em tempo de inferência (quando o modelo está processando solicitações), os ataques de manipulação de modelo comprometem o modelo durante o treinamento ou a afinação, antes de ele ser implantado. Isso os torna particularmente perigosos porque o comportamento corrompido torna-se parte dos recursos aprendidos do modelo.
A manipulação de modelo é catalogada como técnica AML.T0022 (Envenenamento por Dados) no MITRE ATLAS e aparece no Top 10 da OWASP para aplicações LLM como "Envenenamento por Dados de Treinamento".
Os dois principais tipos de vulnerabilidade nessa categoria são envenenamento de modelo e envenenamento de dados.
Envenenamento de modelo
O envenenamento por modelo é a capacidade de corromper um modelo treinado adulterando a arquitetura do modelo, o código de treinamento ou os hiperparâmetros. Em vez de modificar os dados de treinamento, o invasor tem como alvo diretamente a estrutura ou o processo de treinamento do modelo. Exemplos de técnicas de ataque de envenenamento de modelos incluem:
Ataques de disponibilidade: eles visam injetar tantos dados inválidos ou ruídos no processo de treinamento que o limite de decisão aprendido do modelo se torna não confiável. Isso pode levar a uma queda significativa na precisão, tornando o modelo inutilizável.
Ataques de integridade (backdoor): esses ataques sofisticados deixam o modelo funcionando normalmente para a maioria das entradas, mas introduzem um backdoor oculto. Esse backdoor permite que o invasor manipule o comportamento do modelo para entradas específicas, por exemplo, fazendo com que um modelo de moderação de conteúdo sempre aprove o conteúdo que contém uma frase de gatilho oculta específica.
Níveis de acesso adversários: a eficácia dos ataques de envenenamento depende do nível de acesso que o adversário tem ao modelo, desde acesso completo ao pipeline de treinamento (mais perigoso) até acesso limitado apenas por interações de API. Os invasores podem usar estratégias como aumentar atualizações de modelo mal-intencionadas ou alternar técnicas de otimização para manter a discrição.
Envenenamento de dados
O envenenamento por dados é semelhante ao envenenamento por modelo, mas envolve a modificação dos dados nos quais o modelo é treinado ou testado antes do treinamento ocorrer. Isso ocorre quando um adversário injeta dados mal-intencionados intencionalmente no conjunto de dados de treinamento de um modelo de IA ou machine learning (ML). O objetivo é manipular o comportamento do modelo durante os processos de tomada de decisão.
Quatro tipos comuns de ataques de envenenamento de dados incluem:
Envenenamento de backdoor
Nesse ataque, um adversário injeta dados no conjunto de treinamento com a intenção de criar uma vulnerabilidade oculta ou um “backdoor” no modelo. O modelo aprende a associar um gatilho específico a um resultado específico, que pode ser explorado posteriormente.
Por exemplo, imagine um filtro de spam treinado em dados de email. Se um invasor sutilmente introduzir uma frase específica em emails legítimos durante o treinamento, o filtro poderá aprender a classificar futuros emails de spam que contêm essa frase como legítima.
Ataques de disponibilidade
Os ataques de disponibilidade visam interromper a utilidade de um sistema contaminando seus dados durante o treinamento. Por exemplo:
- Os dados de treinamento de um veículo autônomo incluem imagens de placas de trânsito. Um invasor pode injetar imagens de placas de trânsito enganosas ou alteradas, fazendo com que o veículo interprete incorretamente os sinais reais durante a implantação.
- Chatbots treinados em interações com clientes podem aprender linguagem inadequada se dados envenenados contendo termos ofensivos forem introduzidos.
Ataques de inversão de modelo
Os ataques de inversão de modelo exploram a saída do modelo para inferir informações confidenciais sobre os dados de treinamento. Por exemplo, um modelo de reconhecimento facial é treinado em um conjunto de dados que contém figuras públicas e indivíduos privados. Um invasor pode usar os resultados do modelo para reconstruir rostos de indivíduos, violando a privacidade.
Ataques furtivos
As técnicas de envenenamento furtivo visam evitar a detecção durante o treinamento. Os invasores modificam sutilmente uma pequena fração dos dados de treinamento para evitar o disparo de alarmes. Por exemplo, alterar alguns pixels em imagens de dígitos manuscritos durante o treinamento poderia fazer com que um modelo de reconhecimento de dígito classificasse incorretamente dígitos específicos sem que ninguém percebesse a alteração nos dados de treinamento.
Mitigando a manipulação de modelo
Os ataques de manipulação de modelo podem ser mitigados por meio de vários controles de segurança:
- Proteger a integridade do modelo: limite o acesso ao pipeline de treinamento, à arquitetura e à configuração do modelo usando controles de identidade, rede e segurança de dados. Verifique se somente a equipe autorizada pode modificar o código de treinamento ou hiperparâmetros.
- Proteger dados de treinamento: restrinja o acesso a conjuntos de dados de treinamento usando controles de acesso e governança de dados. Valide a procedência de dados e implemente verificações de integridade para detectar modificações não autorizadas.
- Validar o comportamento do modelo: teste modelos em relação a parâmetros de comparação conhecidos antes e depois do treinamento para detectar alterações comportamentais inesperadas que possam indicar envenenamento.
- Monitorar saídas de modelo: implante filtros de conteúdo de saída para detectar sinais de ataques de inversão de modelo ou outros vazamentos de dados por meio de respostas de modelo.
- Use ML-BOM (Machine Learning Bill of Materials): acompanhe a origem e as transformações de dados e modelos em todo o pipeline para manter uma trilha de auditoria.