Visão geral sobre limites de segurança e controlos no Microsoft Foundry

A Microsoft Foundry fornece as balizas de segurança e proteção que pode aplicar aos modelos e agentes principais. Os parâmetros de segurança dos agentes estão em fase de pré-visualização. Os guarda-corpos consistem num conjunto de controlos. Os controlos definem um risco a detetar, pontos de intervenção a analisar para o risco, e a ação de resposta a tomar no modelo ou agente quando o risco é detetado.

Um guardrail é um conjunto nomeado de controlos. Variações nas configurações da API e no design da aplicação podem afetar as completações e, consequentemente, o comportamento de filtragem.

Os riscos são assinalados por modelos de classificação concebidos para detetar conteúdos nocivos. São suportados quatro pontos de intervenção:

Entrada do utilizador — O prompt enviado a um modelo ou agente.
Chamada de ferramenta (Pré-visualização) — A ação e os dados que o agente propõe enviar a uma ferramenta. Só agentes.
Resposta da ferramenta (Pré-visualização) — O conteúdo devolvido de uma ferramenta ao agente. Só agentes.
Saída — A conclusão final fornecida ao utilizador.

Para mais informações sobre pontos de intervenção, consulte Pontos e controlos de intervenção.

Nota

Os Guardrails utilizam modelos de classificação de Segurança de conteúdo de IA do Azure para detetar conteúdos prejudiciais em todas as categorias de risco suportadas.

Importante

O sistema de guardrail aplica-se a todos os modelos Vendidos diretamente por Azure, exceto para prompts e completamentos processados por modelos áudio como o Whisper. Para mais informações, consulte Modelos de Áudio. O sistema de proteção aplica-se atualmente apenas a agentes desenvolvidos no Serviço de Agentes de Fundição, e não a outros agentes registados no Plano de Controlo de Fundição.

Pré-requisitos

Uma subscrição do Azure. Crie um gratuitamente.
Um projeto Microsoft Foundry.
Pelo menos uma implementação de modelo no teu projeto.
Papel de Proprietário da Conta Azure AI.
- Acesso a uma função que permita criar um recurso Foundry, como Azure Account AI Owner ou Azure AI Owner na subscrição ou grupo de recursos. Para mais informações sobre permissões, consulte Controlo de acesso baseado em funções para Microsoft Foundry.

Barreiras de proteção para agentes vs modelos

Uma guardrail individual da Foundry pode ser aplicada a um ou vários modelos e a um ou vários agentes num projeto. Alguns controlos dentro de um guardrail podem não ser relevantes para os modelos, porque o risco, ponto de intervenção ou ação é específico do comportamento agêntico ou de chamadas de ferramentas. Esses controlos não são executados em modelos que usam esse guardrail.

Alguns riscos na versão de pré-visualização ainda não têm suporte para agentes. Quando os controlos envolvendo esses riscos são adicionados a um corrimão de proteção e este é aplicado a um agente, esses controlos não têm efeito para esse agente. Ainda se aplicam a modelos que usam a mesma guardrail.

Aplicabilidade ao risco

A tabela seguinte resume quais os riscos aplicáveis a modelos e agentes:

Risco	Aplicável a Modelos	Aplicável a agentes (Prévia)
Ódio	✅	✅
Sexual	✅	✅
Automutilação	✅	✅
Violência	✅	✅
Ataques por prompt do utilizador	✅	✅
Ataques indiretos	✅	✅
Destaque (Pré-visualização)	✅	❌
Material protegido para o código	✅	✅
Texto protegido	✅	✅
Groundedness (Pré-visualização)	✅	❌
Informação pessoalmente identificável (Pré-visualização)	✅	✅
Adesão à Tarefa	✅	✅

Níveis de gravidade

Para riscos de conteúdo (Ódio, Sexual, Autoagressão, Violência), cada controlo utiliza um limiar de gravidade que determina que conteúdo é sinalizado:

Nível de gravidade	Comportamento
Desliga	A deteção está desativada para este risco. Disponível apenas para clientes aprovados, consulte os filtros de conteúdo
Baixo	Assinala conteúdo de baixa gravidade ou superior. Muito restritivo.
Média	Sinaliza conteúdos de gravidade média ou superior.
Alto	Sinaliza apenas o conteúdo mais severo. Menos restritivo.

Para uma análise detalhada do que cada nível de gravidade deteta, consulte categorias de filtragem de conteúdo.

Aplicabilidade do ponto de intervenção

A tabela seguinte resume quais os pontos de intervenção aplicáveis a modelos e agentes:

Ponto de Intervenção	Aplicável a Modelos	Aplicável a agentes (Prévia)
Entrada do utilizador	✅	✅
Chamada de ferramenta	❌	✅ (Pré-visualização)
Resposta da ferramenta	❌	✅ (Pré-visualização)
Produção	✅	✅

Importante

Os riscos são detetados num agente com base na barreira de proteção que lhe é atribuída, não na barreira do seu modelo subjacente. O guardrail agentico sobrepõe-se totalmente ao corrimão de proteção do modelo.

Exemplo: Comportamento de sobreposição de guarda-rail

Considere este cenário:

A implementação de um modelo tem um controlo com deteção de violência definido em Alto para entrada e saída do utilizador
Um agente que usa esse modelo tem um controlo com deteção de violência definido para Baixo para entrada e saída do utilizador. O agente não tem qualquer controlo para a deteção de violência em invocações de ferramentas e respetivas respostas.

Aplicabilidade da ação

Quando um controlo deteta um risco, pode tomar uma de duas ações. A tabela seguinte resume quais as ações aplicáveis a modelos e agentes:

Ação	Aplicável a Modelos	Aplicável a agentes (Prévia)
Anotar	✅	❌
Anotar e bloquear	✅	✅

Herança de proteção e sobreposição

Importante

Exemplo de cenário:

A implementação de um modelo tem um controlo com deteção de violência definido em Alto para entrada e saída do utilizador
Um agente que usa esse modelo tem um controlo com deteção de violência definido para Baixo para entrada e saída do utilizador. O agente não possui qualquer controlo para deteção de violência em chamadas e respostas das ferramentas.

Comportamento esperado para a deteção de violência nesse agente:

Dada a configuração acima, aqui está como funciona a deteção de violência em cada fase:

As consultas de utilizadores ao agente são analisadas para violência a um nível baixo
Chamadas de ferramentas geradas internamente ao agente pelo seu modelo subjacente, incluindo o conteúdo enviado para essa ferramenta durante a execução da chamada à ferramenta, não serão analisadas para identificar violência.
A resposta da ferramenta não será analisada para verificar a presença de violência
O resultado final devolvido ao utilizador em resposta à sua consulta original é analisado para Violência a um nível Baixo

Barreiras de proteção padrão

Por defeito, os modelos recebem o Microsoft. DefaultV2 guardrail. Para mais informações sobre os controlos incluídos, consulte Filtragem de Conteúdo.

A atribuição padrão de guardrail para agentes segue estas regras:

Caso atribuas um guardrail personalizado a um agente, esse guardrail será utilizado.
Se não for atribuído um limite de segurança personalizado, o agente herda o limite de segurança da sua implementação do modelo subjacente.
Um agente usa apenas o Microsoft.DefaultV2 guardrail se a implementação do modelo usar esse guardrail, ou se o atribuir explicitamente.

Nota

Por exemplo, se não forem especificados guardrails personalizados para um agente e esse agente usar uma mini implantação GPT-4o com um guardrail chamado "MyCustomGuardrails", o agente também usará "MyCustomGuardrails" até que lhe seja atribuído um guardrail diferente.

Resolução de problemas

Guardrail não se aplica ao agente

Sintoma: O comportamento do agente não corresponde à configuração do guardrail atribuída.

Causas:

Guardrail contém controlos com riscos de pré-visualização ainda não suportados para agentes (Destaque, Fundamentação)
Agente a usar o parapeito do modelo em vez do parapeito atribuído

Solução:

Verifique o guardrail atribuído usando o portal ou SDK do Azure AI Foundry
Verifique se os controlos de guardrail não dependem de riscos não suportados pelo agente
Atribuir explicitamente uma proteção ao agente para sobrepor as configurações padrão do modelo

O conteúdo foi sinalizado inesperadamente

Sintoma: Conteúdo legítimo bloqueado por proteção.

Causas:

Nível de severidade definido de forma demasiado restritiva (Bloqueio alto)
Modelo de classificação detetou padrões de casos extremos

Solução:

Rever as definições de nível de gravidade para a categoria de risco afetada
Testar com diferentes níveis de gravidade para encontrar o limiar adequado
Para falsos positivos persistentes, contacte o Suporte do Azure para rever a classificação

Chamadas para ferramentas não estão a ser digitalizadas

Sintoma: Conteúdos prejudiciais passam por chamadas ou respostas de ferramentas.

Causas:

Chamadas de ferramentas e pontos de intervenção de resposta à ferramenta não configurados no guardrail
Utilização de funcionalidades de pré-visualização que podem não estar totalmente ativadas

Solução:

O guardrail de verificação inclui controlos para chamadas de ferramentas e pontos de intervenção de resposta
Assegure que as funcionalidades de pré-visualização do Foundry Agent Service estão ativadas para o seu projeto

Próximos passos

Comentários

Esta página foi útil?

Last updated on 2026-04-30

Visão geral sobre limites de segurança e controlos no Microsoft Foundry

Pré-requisitos

Barreiras de proteção para agentes vs modelos

Aplicabilidade ao risco

Níveis de gravidade

Aplicabilidade do ponto de intervenção

Exemplo: Comportamento de sobreposição de guarda-rail

Aplicabilidade da ação

Herança de proteção e sobreposição

Barreiras de proteção padrão

Resolução de problemas

Guardrail não se aplica ao agente

O conteúdo foi sinalizado inesperadamente

Chamadas para ferramentas não estão a ser digitalizadas

Próximos passos

Comentários

Recursos adicionais