Exfiltração dos dados
A exfiltração dos dados é a transferência não autorizada de informações de computadores ou dispositivos. Em sistemas de IA, a exfiltração de dados apresenta riscos exclusivos porque os modelos de IA contêm, acessam e geram dados valiosos em vários níveis. O MITRE ATLAS cataloga ataques de exfiltração sob a tática AML. TA0010.
Três tipos de exfiltração de dados relacionados à IA são:
- Exfiltração do modelo de IA
- Exfiltração dos dados de treinamento
- Exfiltração de dados de interação
Exfiltração do modelo de IA
A exfiltração de modelo é a extração não autorizada da arquitetura, dos pesos ou de outros componentes proprietários de um modelo de IA. Os invasores podem explorar isso para replicar ou usar indevidamente o modelo para suas próprias finalidades, potencialmente comprometendo sua integridade e propriedade intelectual.
O roubo de modelo pode ocorrer por meio de:
- Acesso direto: um invasor obtém acesso a arquivos de modelo armazenados em um repositório, armazenamento em nuvem ou ambiente de implantação
- Extração baseada em API: um invasor envia um grande número de consultas cuidadosamente criadas para a API do modelo e usa as respostas para reconstruir uma cópia funcional do modelo (às vezes chamada de roubo de modelo ou clonagem de modelo)
- Ataques de canal lateral: um invasor observa informações indiretas, como tempos de resposta, uso de memória ou consumo de energia para inferir detalhes sobre a estrutura interna do modelo
Exfiltração dos dados de treinamento
A exfiltração de dados de treinamento ocorre quando os dados usados para criar um modelo de IA são transferidos ou vazados ilegalmente. Isso envolve o acesso não autorizado a conjuntos de dados confidenciais, o que pode levar a violações de privacidade, violações regulatórias ou ataques adversários que exploram o conhecimento dos dados de treinamento.
Os invasores também podem usar ataques de inferência de associação a um grupo para determinar se pontos de dados específicos foram incluídos no conjunto de treinamento, por exemplo, confirmando que os prontuários médicos de uma pessoa específica foram usados para treinar um modelo de saúde.
Exfiltração de dados de interação
Quando os usuários interagem com sistemas de IA, especialmente agentes de IA, eles fornecem informações confidenciais rotineiramente por meio de prompts: números financeiros, detalhes do cliente, estratégia interna ou código proprietário. Além do que os usuários digitam diretamente, os agentes de IA também recuperam dados organizacionais por meio de geração aumentada por recuperação (RAG), chamadas de ferramenta e anexos de arquivo. Isso cria uma coleção avançada de dados confidenciais que se estende muito além do conjunto de treinamento original.
Os dados de interação são vulneráveis à exfiltração de várias maneiras:
- Coleta de prompts e respostas: um invasor que obtém acesso a logs de conversa ou intercepta chamadas à API pode extrair as informações confidenciais que os usuários compartilharam durante suas sessões.
- Injeção de prompt indireto: uma instrução mal-intencionada oculta em um documento ou email pode fazer com que um agente vaze dados organizacionais recuperados por meio de suas respostas, sem que o usuário perceba o que aconteceu.
- Interceptação de conteúdo de chamada de ferramenta: quando um agente chama ferramentas externas ou APIs, ele passa dados entre sistemas. Se essas conexões não estiverem protegidas corretamente, um invasor poderá interceptar as cargas para capturar os dados que estão sendo trocados.
- Exposição do log de conversas: os históricos de conversa armazenados contêm as entradas confidenciais do usuário e as respostas do sistema, que geralmente incluem informações confidenciais resumidas. Esses logs se tornarão um destino de alto valor se não estiverem protegidos corretamente.
Ao contrário do modelo ou da exfiltração de dados de treinamento, a exfiltração de dados de interação é um risco contínuo que ocorre sempre que um usuário trabalha com um sistema de IA. O volume e a confidencialidade desses dados crescem a cada interação.
A função dupla da IA na exfiltração de dados
A IA desempenha um papel fundamental na prevenção e na permissão da exfiltração dos dados. Embora as ferramentas alimentadas por IA possam ajudar a detectar padrões de acesso a dados anômalos e identificar possíveis violações, a IA também fornece aos invasores recursos avançados para roubar informações confidenciais com mais eficiência. Essa influência dupla cria um desafio complexo para as organizações.
Estratégias de mitigação
A exfiltração de dados pode ser atenuada por meio de uma combinação de práticas de segurança padrão e controles específicos de IA:
- Princípio de privilégio mínimo: restringir o acesso a modelos, dados de treinamento e logs de interação somente para aqueles que precisam dele
- Classificação e rotulagem de dados: classificar e rotular dados acessados por aplicativos de IA para que os sistemas de monitoramento possam impor controles de acesso apropriados
- Arquitetura de confiança zero: não assuma a confiança com base no local da rede; verificar cada solicitação de acesso
- Criptografia: criptografar dados em repouso e em trânsito, incluindo logs de conversa e comunicações de API
- Políticas de retenção: limite por quanto tempo os dados de interação são armazenados para reduzir a janela de exposição
- Sanitização de entrada: limpar entradas antes de serem passadas para ferramentas externas para evitar vazamento de dados por meio de ações do agente
- Monitoramento comportamental: controlar o comportamento do agente para padrões de acesso a dados inesperados que podem indicar uma tentativa de exfiltração
- Limitação de taxa: limitar volumes de consulta de API para tornar os ataques de extração de modelo impraticáveis