Implementar a segurança de dados de IA
A segurança de dados é crucial para a IA porque os sistemas de IA ampliam os desafios existentes com classificação de dados, permissões e governança. A IA facilita a descoberta de dados, o que significa que todos os problemas com o tratamento de dados são ampliados, levando a possíveis vazamentos de dados e acesso não autorizado. A IA não só depende de dados, mas também cria novos dados que ganham valor ao longo do tempo, tornando-o um destino para invasores. Embora a segurança de dados não seja uma nova disciplina, a IA torna a obtenção da segurança de dados ainda mais crítica.
Um princípio fundamental da segurança de dados de IA é que as decisões de controle de acesso nunca devem ser transferidas para o sistema de IA. A IA só deve ter acesso aos mesmos dados do usuário do qual está agindo em nome.
Entender o cenário de dados de sistemas de IA
Os sistemas de IA generativo interagem com uma ampla gama de tipos de dados que exigem proteção:
- Dados de treinamento: os conjuntos de dados usados para criar e ajustar modelos, que podem conter informações proprietárias, dados pessoais ou material protegido por direitos autorais
- Dados de aterramento: documentos, bancos de dados e bases de dados de conhecimento que a IA recupera em runtime por meio de técnicas como RAG (geração aumentada de recuperação)
- Dados de interação: solicitações do usuário, respostas do modelo, históricos de conversação e conteúdos de chamadas de ferramenta gerados durante o uso
- Saídas geradas: resumos, código, relatórios e outros artefatos criados pela IA, que podem combinar informações de várias fontes confidenciais
Cada tipo de dados tem requisitos de segurança diferentes, padrões de acesso e implicações regulatórias. Uma estratégia abrangente de segurança de dados de IA aborda todos eles.
Implementar controle de acesso com identidades de agente
O princípio de que a IA só deve acessar os mesmos dados que o usuário do qual ele atua em nome é simples de declarar, mas implementá-la requer gerenciamento de identidade criado com finalidade. As estruturas de identidade do agente fornecem maneiras padronizadas de governar, autenticar e autorizar agentes de IA.
As estruturas de identidade do agente normalmente dão suporte a dois modos de autenticação:
- Acesso delegado (em nome do usuário): o agente opera sob a identidade do usuário conectado usando um fluxo em nome. O agente herda apenas as permissões para as quais o usuário consentiu e está autorizado. Isso impõe diretamente o princípio de que a IA não pode acessar dados que o usuário não pode acessar.
- Acesso somente ao aplicativo: o agente atua sob sua própria identidade dedicada, regida por suas próprias atribuições de função. Esse modo é usado para fluxos de trabalho em segundo plano ou autônomos em que nenhum usuário está envolvido.
Quando você cria um agente em uma plataforma de IA moderna, o serviço pode provisionar automaticamente uma identidade de agente. Em seguida, os administradores atribuem funções a essa identidade usando o RBAC (controle de acesso baseado em função), aplicando acesso de privilégios mínimos no nível do agente, separado das permissões dos desenvolvedores humanos que a criaram.
Essa separação é importante para a auditoria: as operações executadas pelo agente de IA aparecem em logs sob a identidade do agente, não na conta de um usuário humano, possibilitando detectar e investigar o comportamento inesperado do agente.
Por exemplo, ID do agente Microsoft Entra fornece esse recurso emitindo identidades dedicadas para agentes de IA que dão suporte a modos de acesso delegados e somente de aplicativo, com atribuições de função gerenciadas por meio de Azure RBAC.
Classificação e governança de dados
A segurança de dados de IA efetiva também requer práticas fortes de governança de dados:
- Classifique os dados antes que a IA os acesse: verifique se os dados acessados por sistemas de IA são classificados e rotulados de acordo com seu nível de confidencialidade. A IA só pode impor controles de acesso existentes– se os dados não forem classificados corretamente, a IA poderá exibir informações confidenciais para usuários não autorizados.
- Aplicar políticas de prevenção contra perda de dados (DLP): estenda as políticas DLP existentes para abranger canais de interação de IA. Monitore dados confidenciais que aparecem em prompts de IA, respostas e cargas de chamada de ferramenta.
- Impor políticas de retenção e exclusão: defina por quanto tempo os dados de interação (logs de conversa, históricos de prompt) são mantidos. Minimize a janela de exposição eliminando automaticamente os dados que não são mais necessários.
- Padrões de acesso a dados de auditoria: monitore quais dados a IA acessa, quando e em cujo nome. Padrões de acesso anômalos, como um agente consultando de repente grandes volumes de dados fora de seu escopo normal, podem indicar um comprometimento.