Sistemas de IA Terrestres

Concluído

A fundamentação é o processo de conectar as respostas de um sistema de IA a dados verificados do mundo real, em vez de depender apenas do conhecimento geral de treinamento do modelo. Sem aterramento, os modelos de IA generativos se baseiam exclusivamente nos padrões aprendidos durante o treinamento, que podem estar desatualizados, incompletos ou incorretos para um caso de uso específico. O aterramento é tanto um controle de qualidade quanto um controle de segurança.

Por que o aterramento importa para a segurança

Do ponto de vista de segurança, os sistemas de IA desembasados representam vários riscos.

  • Saídas fabricadas: é mais provável que um modelo sem fundamentação gere informações declaradas com confiança, mas factualmentes incorretas, nas quais os usuários podem agir sem verificação
  • Informações obsoletas: modelos treinados em dados de meses ou anos atrás podem fornecer diretrizes desatualizadas, particularmente perigosas para conselhos de segurança, requisitos de conformidade ou documentação do produto
  • Escopo irrestrito: sem contextualização, um modelo pode responder a perguntas sobre qualquer tópico, incluindo áreas em que ele não tem conhecimento suficiente para ser confiável

O baseamento restringe o modelo a trabalhar com fontes de dados específicas e verificadas, reduzindo a superfície de ataque aos riscos de saída fabricados e ajudando a impor os limites definidos no prompt do sistema.

Técnicas de aterramento

Várias técnicas são comumente usadas para aterrar sistemas de IA em dados verificados:

Geração aumentada de recuperação (RAG)

RAG é a técnica de aterramento mais amplamente adotada. Ele funciona por:

  1. Recuperando documentos ou dados relevantes de uma base de dados de conhecimento, banco de dados ou índice de pesquisa com base na consulta do usuário
  2. Aperfeiçoando o prompt com essas informações recuperadas
  3. Gerando uma resposta que é informada pelos recursos do modelo e pelos dados recuperados específicos

O RAG permite que a IA forneça respostas atuais e específicas de contexto sem exigir que o modelo seja treinado novamente. Por exemplo, um assistente de IA baseado em RAG pode responder perguntas sobre as políticas internas de uma organização recuperando os documentos de políticas mais recentes no momento da consulta.

As considerações de segurança para implementações de RAG incluem:

  • Controle de acesso nos dados de origem: verifique se o sistema de recuperação respeita os mesmos controles de acesso que o usuário. A IA não deve recuperar documentos que o usuário não está autorizado a ver.
  • Integridade dos dados de origem: proteja a base de dados de conhecimento contra adulteração. Se um invasor puder modificar os dados de aterramento, ele poderá influenciar as respostas da IA, uma forma de manipulação indireta.
  • Citação e rastreabilidade: configure o sistema para citar quais fontes informaram cada resposta, tornando possível verificar a precisão e detectar quando o modelo se desvia de seus dados de aterramento.

Solicitar engenharia para aterramento

As técnicas avançadas de engenharia de prompt complementam o RAG instruindo o modelo sobre como usar seus dados de fundamentação.

  • Incluir instruções explícitas para basear respostas somente no contexto fornecido
  • Defina como o modelo deve responder quando os dados de aterramento não contêm a resposta ("Com base nas informações disponíveis, não tenho uma resposta para essa pergunta")
  • Definir regras para como o modelo deve lidar com informações conflitantes entre fontes

Detecção de aterramento

Algumas plataformas de IA oferecem a detecção de aterramento como uma funcionalidade interna. Esse recurso avalia as declarações do modelo em relação aos materiais de origem fornecidos, sinalizando respostas que contêm informações sem suporte dos dados de aterramento. A detecção de aterramento atua como uma verificação de segurança pós-geração, capturando saídas fabricadas que passaram por outros controles.

Melhores práticas de aterramento

Ao implementar a fundamentação em sistemas de IA:

  • Mantenha os dados de aterramento atualizados: estabeleça processos para atualizar regularmente a base de dados de conhecimento. Dados de referência de aterramento obsoletos podem ser tão problemáticos quanto nenhum dado de referência de aterramento.
  • Validar a qualidade da origem: use apenas fontes autoritativas e verificadas para fundamentação. A base em transferências de dados não confiáveis compromete as respostas da IA.
  • Monitorar métricas de fundamentação: acompanhe a frequência com que as respostas do modelo são fundamentadas versus não fundamentadas. Um aumento nas respostas não fundamentadas pode indicar um problema com o pipeline de recuperação ou os próprios dados de fundamentação.
  • Combinar com filtros de conteúdo: use a detecção de aterramento junto com filtros de conteúdo e instruções de metaprompt para uma abordagem de defesa em camadas.

Diagrama do processo de RAG, desde a consulta do usuário até a recuperação e resposta validada.