Exfiltração de dados
A exfiltração de dados é a transferência não autorizada de informações de computadores ou dispositivos. Nos sistemas de IA, a exfiltração de dados apresenta riscos únicos porque os modelos de IA contêm, acedem e geram dados valiosos em múltiplos níveis. O MITRE ATLAS cataloga ataques de exfiltração sob tática AML. TA0010.
Três tipos de exfiltração de dados relacionados com IA são:
- Exfiltração do modelo de IA
- Exfiltração de dados de treinamento
- Exfiltração de dados de interação
Exfiltração do modelo de IA
A exfiltração de modelos é a extração não autorizada da arquitetura, pesos ou outros componentes proprietários de um modelo de IA. Os atacantes podem explorar isto para replicar ou usar indevidamente o modelo para os seus próprios fins, comprometendo potencialmente a sua integridade e propriedade intelectual.
O roubo de modelos pode ocorrer através de:
- Acesso direto: Um atacante obtém acesso a ficheiros de modelos armazenados num repositório, armazenamento em nuvem ou ambiente de implementação
- Extração baseada em API: Um atacante envia um grande número de consultas cuidadosamente elaboradas para a API do modelo e usa as respostas para reconstruir uma cópia funcional do modelo (por vezes chamado de roubo de modelo ou clonagem de modelos)
- Ataques de canal lateral: Um atacante observa informações indiretas, como tempos de resposta, consumo de memória ou consumo de energia, para inferir detalhes sobre a estrutura interna do modelo
Exfiltração de dados de treinamento
A exfiltração de dados de treino ocorre quando os dados usados para construir um modelo de IA são transferidos ou vazados ilegalmente. Isto envolve acesso não autorizado a conjuntos de dados sensíveis, o que pode levar a violações de privacidade, violações regulatórias ou ataques adversariais que exploram o conhecimento dos dados de treino.
Os atacantes podem também usar ataques de inferência de pertença para determinar se pontos de dados específicos foram incluídos no conjunto de treino — por exemplo, confirmando que os registos médicos de uma pessoa específica foram utilizados no treino de um modelo de cuidados de saúde.
Exfiltração de dados de interação
Quando os utilizadores interagem com sistemas de IA — especialmente agentes de IA — fornecem rotineiramente informações sensíveis através de prompts: números financeiros, detalhes de clientes, estratégia interna ou código proprietário. Para além do que os utilizadores escrevem diretamente, os agentes de IA também recolhem dados organizacionais através de geração aumentada por recuperação (RAG), chamadas de ferramentas e anexos de ficheiros. Isto cria uma coleção rica de dados sensíveis que vai muito além do conjunto de treino original.
Os dados de interação são vulneráveis à exfiltração de várias formas:
- Colheita de prompts e respostas: Um atacante que aceda a logs de conversação ou intercete chamadas de API pode extrair a informação sensível partilhada pelos utilizadores durante as suas sessões.
- Injeção indireta de prompt: Uma instrução maliciosa oculta num documento ou email pode fazer com que um agente divulgue dados organizacionais recuperados através das suas respostas — sem que o utilizador se aperceba do que aconteceu.
- Interceção de carga útil de chamadas de ferramentas: Quando um agente liga a ferramentas externas ou APIs, transmite dados entre sistemas. Se estas ligações não estiverem devidamente seguras, um atacante pode interceptar os pacotes de dados para capturar os dados trocados.
- Exposição dos registos de conversa: Os históricos de conversas armazenados contêm tanto as entradas sensíveis do utilizador como as respostas do sistema, que frequentemente incluem informações confidenciais resumidas. Estes registos transformam-se num alvo valioso se não forem devidamente protegidos.
Ao contrário da exfiltração de dados por modelo ou treino, a exfiltração de dados de interação é um risco contínuo que ocorre sempre que um utilizador trabalha com um sistema de IA. O volume e a sensibilidade destes dados aumentam a cada interação.
O duplo papel da IA na exfiltração de dados
A IA desempenha um papel fundamental na prevenção e na viabilização da exfiltração de dados. Embora as ferramentas baseadas em IA possam ajudar a detetar padrões anómalos de acesso a dados e identificar potenciais violações, a IA também oferece aos atacantes capacidades avançadas para roubar informações sensíveis de forma mais eficiente. Esta dupla influência cria um desafio complexo para as organizações.
Estratégias de mitigação
A exfiltração de dados pode ser mitigada através de uma combinação de práticas de segurança padrão e controlos específicos de IA:
- Princípio do menor privilégio: Restringa o acesso a modelos, dados de treino e registos de interação apenas àqueles que deles necessitam
- Classificação e rotulagem de dados: Classificar e rotular dados acedidos por aplicações de IA para que os sistemas de monitorização possam impor controlos de acesso adequados
- Arquitetura zero-trust: Não assuma confiança com base na localização da rede; verificar todos os pedidos de acesso
- Encriptação: Encriptar dados em repouso e em trânsito, incluindo registos de conversas e comunicações API
- Políticas de retenção: Limitar o tempo que os dados de interação permanecem armazenados para reduzir a janela de exposição
- Sanitização de entradas: Limpar as entradas antes de serem passadas para ferramentas externas para evitar fugas de dados através de ações do agente
- Monitorização comportamental: Acompanhar o comportamento dos agentes para padrões inesperados de acesso a dados que possam indicar uma tentativa de exfiltração
- Limitação de taxa: Limitar os volumes de consulta da API para tornar os ataques de extração de modelos impraticáveis