Pontos de intervenção

A IA Agente expande tanto a capacidade como a superfície de ataque. Quando um agente pode chamar ferramentas externas, escrever em bases de dados ou acionar processos posteriores, avarias ou ataques maliciosos podem desviá-lo do rumo, vazar dados sensíveis ou executar ações prejudiciais.

Os guarda-corpos aplicados apenas ao nível do modelo podem deixar estes vetores expostos. Para colmatar esta lacuna, o Microsoft Foundry permite-lhe aplicar guardrails diretamente aos agentes e configurar controlos individuais em quatro pontos de intervenção diferentes.

Pontos de intervenção

Ponto de Intervenção Descrição Exemplo de Controlo neste Ponto de Intervenção
Entrada do utilizador Uma consulta enviada de um utilizador para um modelo ou agente. Por vezes referido como "prompt". Alguns controlos neste ponto de intervenção exigem que o utilizador inclua a incorporação de documentos para que tenham efeito. Risco: Ataques de entrada do utilizador
Ação: Anotar e bloquear

Quando este controlo é especificado no guardrail de um agente ou modelo, a entrada do utilizador é analisada por um modelo de classificação que deteta ataques de jailbreak. Se for detetado um ataque, a entrada do utilizador é bloqueada para ser enviada ao modelo, interrompendo a interação.
Chamada de ferramenta (Pré-visualização) A próxima ação que o agente propõe tomar, gerada pelo seu modelo subjacente. A chamada à ferramenta consiste em qual ferramenta é chamada e os argumentos com que é chamada, incluindo os dados enviados para a ferramenta. Risco: Ódio (Alto)
Ação: Anotar e bloquear

Quando este controlo é especificado, sempre que o agente está prestes a executar uma chamada de ferramenta, o conteúdo proposto enviado para a ferramenta é analisado à procura de conteúdo odioso. Se alguma for detetada, a chamada à ferramenta não será executada e o agente deixa de funcionar até que haja outra entrada do utilizador.
Resposta da ferramenta (Pré-visualização) O conteúdo enviado de volta por uma ferramenta, que é interna à orquestração do agente, e antes de o conteúdo ser adicionado à memória do agente ou retornado ao utilizador final. Risco: Ataque indireto
Ação: Anotar e bloquear

Quando este controlo é definido, toda a carga útil enviada de volta de cada ferramenta para este agente é analisada para tentativas de ataques indiretos de injeção de comandos. Se detetado, o agente deixa de operar imediatamente e impede que o conteúdo malicioso seja guardado pelo agente e que o desvie maliciosamente do caminho.
Produção O conteúdo final é enviado de volta ao utilizador final em resposta à sua questão. Risco: Material Protegido para Texto
Ação: Apenas anotar

Quando este controlo é especificado, o conteúdo final destinado a ser exibido ao utilizador é digitalizado para certos tipos de texto protegido por direitos de autor. Se detectado, existe um indicador na resposta de anotação da API usada para chamar este modelo ou agente.

Nota

Considerações de desempenho
O processamento das barricadas de segurança em cada ponto de intervenção adiciona aproximadamente 50-100ms de latência. A latência real varia consoante o comprimento do conteúdo e o número de controlos ativos no seu guardrail.

Configurar os controlos nos pontos de intervenção

Ao criar uma barreira de proteção, seleciona quais os controlos a ativar e em que pontos de intervenção os aplicar. Por exemplo, para proteger contra ataques indiretos nas respostas de ferramentas:

  1. Crie um corrimão de proteção no portal da Foundry.
  2. Adicione um controlo para o risco de "Ataque indireto".
  3. Selecione "Resposta à ferramenta" como ponto de intervenção.
  4. Escolhe "Anotar e bloquear" como ação.

Para passos detalhados, veja Criar um guardrail.

Ferramentas suportadas

Os pontos de chamada e intervenção de resposta à ferramenta requerem apoio moderado por parte da própria ferramenta. Atualmente, as seguintes ferramentas suportam moderação: Pesquisa de IA do Azure, Funções do Azure, OpenAPI, Sharepoint Grounding, Fabric Data Agent, Bing Grounding, Bing Custom Search e Browser Automation. Se configurar controlos nos pontos de chamada de ferramenta ou nos pontos de intervenção de resposta a ferramentas, mas o seu agente usar ferramentas que não estão nesta lista, esses controlos não terão efeito sobre essas ferramentas específicas.