Visão geral de guardrails e controles no Microsoft Foundry

Microsoft Foundry fornece diretrizes de segurança e proteção que você pode aplicar aos principais modelos e agentes. Os guardrails do agente estão em versão prévia. Os guardrails consistem em um conjunto de controles. Os controles definem um risco a ser detectado, os pontos de intervenção para examinar o risco e a ação de resposta a ser tomada no modelo ou agente quando o risco é detectado.

Um guardrail é uma coleção nomeada de controles. Variações nas configurações de API e no design do aplicativo podem afetar as conclusões de processos e, portanto, o comportamento de filtragem.

Os riscos são sinalizados por modelos de classificação projetados para detectar conteúdo prejudicial. Há suporte para quatro pontos de intervenção:

Entrada do usuário – o prompt enviado a um modelo ou agente.
Chamada de ferramenta (versão prévia) — A ação e os dados que o agente propõe enviar para uma ferramenta. Somente agentes.
Resposta da ferramenta (versão prévia) – o conteúdo retornado de uma ferramenta para o agente. Somente agentes.
Saída – a conclusão final devolvida ao usuário.

Para obter mais informações sobre pontos de intervenção, consulte pontos de intervenção e controles.

Nota

Os guardrails utilizam modelos de classificação de Segurança de Conteúdo de IA do Azure para detectar conteúdo prejudicial entre categorias de risco suportadas.

Importante

O sistema de proteção se aplica a todos os Modelos vendidos diretamente pela Azure, exceto para prompts e conclusões processadas por modelos de áudio como o Whisper. Para obter mais informações, consulte Modelos de áudio. Atualmente, o sistema de proteção aplica-se apenas aos agentes desenvolvidos no Serviço de Agente da Fábrica, não a outros agentes registrados no Foundry Control Plane.

Pré-requisitos

Uma assinatura Azure. Crie um gratuitamente.
Um projeto Microsoft Foundry.
Pelo menos uma implantação de modelo em seu projeto.
Função de Proprietário de Conta de IA do Azure.
- Acesso a uma função que permite criar um recurso do Foundry, como Proprietário de IA da Conta Azure ou Proprietário de IA do Azure na assinatura ou no grupo de recursos. Para obter mais informações sobre permissões, consulte o controle de acesso baseado em Role para Microsoft Foundry.

Verificadores de integridade para agentes versus modelos

Um verificador de integridade da Fábrica individual pode ser aplicado a um ou muitos modelos e a um ou muitos agentes em um projeto. Alguns controles em um verificador de integridade podem não ser relevantes para modelos porque os riscos, os pontos de intervenção ou as ações são específicos para o comportamento agente ou chamadas de ferramenta. Esses controles não são executados em modelos usando esse guardrail.

Alguns riscos na Versão Prévia ainda não têm suporte para agentes. Quando os controles envolvendo esses riscos são adicionados a um guardrail e o guardrail é aplicado a um agente, esses controles não têm efeito para esse agente. Eles ainda se aplicam a modelos que usam o mesmo guardrail.

Aplicabilidade de risco

A tabela a seguir resume quais riscos são aplicáveis a modelos e agentes:

Risco	Aplicável a modelos	Aplicável a agentes (versão prévia)
Odeio	✅	✅
Sexual	✅	✅
Automutilação	✅	✅
Violência	✅	✅
Ataques por interface de comando do usuário	✅	✅
Ataques indiretos	✅	✅
Spotlighting (Pré-visualização)	✅	❌
Material para proteção de código	✅	✅
Material protegido para texto	✅	✅
Aterramento (versão preliminar)	✅	❌
Informações de identificação pessoal (versão prévia)	✅	✅
Adesão à tarefa	✅	✅

Níveis de severidade

Para riscos de conteúdo (Ódio, Sexual, Automutilação, Violência), cada controle usa um limite de nível de severidade que determina qual conteúdo é sinalizado:

Nível de gravidade	Comportamento
Desativado	A detecção está desativada para este risco. Disponível somente para clientes aprovados, consulte filtros de conteúdo
Baixo	Sinaliza conteúdo com gravidade baixa e superior. Mais restritivo.
Médio	Sinaliza o conteúdo com gravidade média e superior.
Alta	Sinaliza apenas o conteúdo mais grave. Menos restritivo.

Para obter um detalhamento do que cada nível de severidade detecta, consulte categorias de filtragem de conteúdo.

Aplicabilidade do ponto de intervenção

A tabela a seguir resume quais pontos de intervenção são aplicáveis a modelos e agentes:

Ponto de intervenção	Aplicável a modelos	Aplicável a agentes (versão prévia)
Entrada do usuário	✅	✅
Chamada de ferramenta	❌	✅ (Versão prévia)
Resposta da ferramenta	❌	✅ (Versão prévia)
Saída	✅	✅

Importante

Os riscos são detectados em um agente com base na salvaguarda que lhe foi atribuída, e não na salvaguarda do seu modelo subjacente. O verificador de integridade por meio de agente substitui totalmente o verificador de integridade do modelo.

Exemplo: Comportamento de substituição do verificador de integridade

Considere este cenário:

Uma implantação de modelo tem um controle com a detecção de violência configurada para Alta para entradas e saídas de usuários
Um agente que usa esse modelo tem um controle com a detecção de violência definida como Baixa para entrada e saída do usuário. O agente não possui nenhum controle para detecção de violência em chamadas e respostas de ferramentas

Aplicabilidade da ação

Quando um controle detecta um risco, ele pode executar uma das duas ações. A tabela a seguir resume quais ações são aplicáveis a modelos e agentes:

Ação	Aplicável a modelos	Aplicável a agentes (versão prévia)
Anotação	✅	❌
Anotar e bloquear	✅	✅

Herança e substituição do Guardrail

Importante

Cenário de exemplo:

Uma implantação de modelo tem um controle com a detecção de violência configurada para Alta para entradas e saídas de usuários
Um agente que usa esse modelo tem um controle com a detecção de violência definida como Baixa para entrada e saída do usuário. O agente não possui nenhum controle para detecção de violência em chamadas e respostas de ferramentas.

Comportamento esperado para detecção de violência nesse agente:

Considerando a configuração acima, veja como a detecção de violência funciona em cada estágio:

As consultas do usuário ao agente são analisadas em busca de violência em um nível Baixo.
As chamadas de ferramenta geradas internamente para o agente por seu modelo subjacente, incluindo o conteúdo enviado para essa ferramenta durante a execução dessa chamada, não serão verificadas quanto à violência
A resposta da ferramenta não será verificada para identificar violência
A saída final retornada ao usuário em resposta à consulta original é examinada para detectar violência em um nível baixo

Guardrails padrão

Por padrão, os modelos recebem o Microsoft. DefaultV2 guardrail. Para obter mais informações sobre quais controles estão incluídos, consulte Filtragem de conteúdo.

A atribuição de guardrail padrão para agentes segue estas regras:

Se você atribuir um guardrail personalizado a um agente, esse guardrail será usado.
Se nenhum guardrail personalizado for atribuído, o agente herdará o guardrail de sua implantação de modelo subjacente.
Um agente só usa a proteção Microsoft.DefaultV2 se a sua implantação de modelo usar essa proteção ou se você a atribuir explicitamente.

Nota

Por exemplo, se nenhuma proteção personalizada for especificada para um agente e esse agente usar uma implantação mini GPT-4o com uma proteção chamada "MyCustomGuardrails", o agente também usará "MyCustomGuardrails" até que você atribua uma proteção diferente.

Solucionando problemas

Guardrail não se aplica ao agente

Sintoma: O comportamento do agente não corresponde à configuração de guardrail atribuída.

Causas:

O verificador de integridade contém controles com riscos de versão preliminar que ainda não são compatíveis com agentes (destaques, contextualização)
Agente usando o verificador de integridade do modelo em vez do verificador de integridade atribuído

Solução:

Verificar o guardrail atribuído usando Fábrica de IA do Azure portal ou SDK
Verifique se os controles de verificador de integridade não dependem de riscos incompatíveis com o agente
Atribua explicitamente o verificador de integridade ao agente para substituir os padrões do modelo

Conteúdo sinalizado inesperadamente

Sintoma: Conteúdo legítimo bloqueado por guardrail.

Causas:

Nível de severidade definido muito restritivamente (bloqueio alto)
Modelo de classificação detectou padrão de caso limite

Solução:

Examinar as configurações de nível de gravidade para a categoria de risco afetada
Teste com níveis de severidade diferentes para encontrar o limite apropriado
Para falsos positivos persistentes, entre em contato com o Suporte da Azure para revisar a classificação.

Chamadas de ferramenta não estão sendo escaneadas

Sintoma: O conteúdo nocivo passa por chamadas/respostas de ferramentas.

Causas:

Pontos de intervenção de chamada e de resposta da ferramenta não configurados no verificador de integridade
Usando recursos de visualização que podem não estar totalmente habilitados

Solução:

Verifique se o verificador de integridade inclui controles para pontos de intervenção de chamada e de resposta da ferramenta
Verifique se os recursos de visualização do Serviço do Foundry Agent estão habilitados para seu projeto

Próximas etapas

Configurar guardrails e controles
Saiba mais sobre os pontos e controles de intervenção
Entenda a filtragem de conteúdo no Azure OpenAI
Configure filtros de conteúdo para Azure OpenAI

Comentários

Esta página foi útil?

Last updated on 2026-05-05

Visão geral de guardrails e controles no Microsoft Foundry

Pré-requisitos

Verificadores de integridade para agentes versus modelos

Aplicabilidade de risco

Níveis de severidade

Aplicabilidade do ponto de intervenção

Exemplo: Comportamento de substituição do verificador de integridade

Aplicabilidade da ação

Herança e substituição do Guardrail

Guardrails padrão

Solucionando problemas

Guardrail não se aplica ao agente

Conteúdo sinalizado inesperadamente

Chamadas de ferramenta não estão sendo escaneadas

Próximas etapas

Comentários

Recursos adicionais