Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
A Microsoft Foundry fornece as balizas de segurança e proteção que pode aplicar aos modelos e agentes principais. Os parâmetros de segurança dos agentes estão em fase de pré-visualização. Os guarda-corpos consistem num conjunto de controlos. Os controlos definem um risco a detetar, pontos de intervenção a analisar para o risco, e a ação de resposta a tomar no modelo ou agente quando o risco é detetado.
Um guardrail é um conjunto nomeado de controlos. Variações nas configurações da API e no design da aplicação podem afetar as completações e, consequentemente, o comportamento de filtragem.
Os riscos são assinalados por modelos de classificação concebidos para detetar conteúdos nocivos. São suportados quatro pontos de intervenção:
- Entrada do utilizador — O prompt enviado a um modelo ou agente.
- Chamada de ferramenta (Pré-visualização) — A ação e os dados que o agente propõe enviar a uma ferramenta. Só agentes.
- Resposta da ferramenta (Pré-visualização) — O conteúdo devolvido de uma ferramenta ao agente. Só agentes.
- Saída — A conclusão final fornecida ao utilizador.
Para mais informações sobre pontos de intervenção, consulte Pontos e controlos de intervenção.
Nota
Os Guardrails utilizam modelos de classificação de Segurança de conteúdo de IA do Azure para detetar conteúdos prejudiciais em todas as categorias de risco suportadas.
Importante
O sistema de guardrail aplica-se a todos os modelos Vendidos diretamente por Azure, exceto para prompts e completamentos processados por modelos áudio como o Whisper. Para mais informações, consulte Modelos de Áudio. O sistema de proteção aplica-se atualmente apenas a agentes desenvolvidos no Serviço de Agentes de Fundição, e não a outros agentes registados no Plano de Controlo de Fundição.
Pré-requisitos
- Uma subscrição do Azure. Crie um gratuitamente.
- Um projeto Microsoft Foundry.
- Pelo menos uma implementação de modelo no teu projeto.
- Papel de Proprietário da Conta Azure AI.
- Acesso a uma função que permita criar um recurso Foundry, como Azure Account AI Owner ou Azure AI Owner na subscrição ou grupo de recursos. Para mais informações sobre permissões, consulte Controlo de acesso baseado em funções para Microsoft Foundry.
Barreiras de proteção para agentes vs modelos
Uma guardrail individual da Foundry pode ser aplicada a um ou vários modelos e a um ou vários agentes num projeto. Alguns controlos dentro de um guardrail podem não ser relevantes para os modelos, porque o risco, ponto de intervenção ou ação é específico do comportamento agêntico ou de chamadas de ferramentas. Esses controlos não são executados em modelos que usam esse guardrail.
Alguns riscos na versão de pré-visualização ainda não têm suporte para agentes. Quando os controlos envolvendo esses riscos são adicionados a um corrimão de proteção e este é aplicado a um agente, esses controlos não têm efeito para esse agente. Ainda se aplicam a modelos que usam a mesma guardrail.
Aplicabilidade ao risco
A tabela seguinte resume quais os riscos aplicáveis a modelos e agentes:
| Risco | Aplicável a Modelos | Aplicável a agentes (Prévia) |
|---|---|---|
| Ódio | ✅ | ✅ |
| Sexual | ✅ | ✅ |
| Automutilação | ✅ | ✅ |
| Violência | ✅ | ✅ |
| Ataques por prompt do utilizador | ✅ | ✅ |
| Ataques indiretos | ✅ | ✅ |
| Destaque (Pré-visualização) | ✅ | ❌ |
| Material protegido para o código | ✅ | ✅ |
| Texto protegido | ✅ | ✅ |
| Groundedness (Pré-visualização) | ✅ | ❌ |
| Informação pessoalmente identificável (Pré-visualização) | ✅ | ✅ |
| Adesão à Tarefa | ✅ | ✅ |
Níveis de gravidade
Para riscos de conteúdo (Ódio, Sexual, Autoagressão, Violência), cada controlo utiliza um limiar de gravidade que determina que conteúdo é sinalizado:
| Nível de gravidade | Comportamento |
|---|---|
| Desliga | A deteção está desativada para este risco. Disponível apenas para clientes aprovados, consulte os filtros de conteúdo |
| Baixo | Assinala conteúdo de baixa gravidade ou superior. Muito restritivo. |
| Média | Sinaliza conteúdos de gravidade média ou superior. |
| Alto | Sinaliza apenas o conteúdo mais severo. Menos restritivo. |
Para uma análise detalhada do que cada nível de gravidade deteta, consulte categorias de filtragem de conteúdo.
Aplicabilidade do ponto de intervenção
A tabela seguinte resume quais os pontos de intervenção aplicáveis a modelos e agentes:
| Ponto de Intervenção | Aplicável a Modelos | Aplicável a agentes (Prévia) |
|---|---|---|
| Entrada do utilizador | ✅ | ✅ |
| Chamada de ferramenta | ❌ | ✅ (Pré-visualização) |
| Resposta da ferramenta | ❌ | ✅ (Pré-visualização) |
| Produção | ✅ | ✅ |
Importante
Os riscos são detetados num agente com base na barreira de proteção que lhe é atribuída, não na barreira do seu modelo subjacente. O guardrail agentico sobrepõe-se totalmente ao corrimão de proteção do modelo.
Exemplo: Comportamento de sobreposição de guarda-rail
Considere este cenário:
- A implementação de um modelo tem um controlo com deteção de violência definido em Alto para entrada e saída do utilizador
- Um agente que usa esse modelo tem um controlo com deteção de violência definido para Baixo para entrada e saída do utilizador. O agente não tem qualquer controlo para a deteção de violência em invocações de ferramentas e respetivas respostas.
Aplicabilidade da ação
Quando um controlo deteta um risco, pode tomar uma de duas ações. A tabela seguinte resume quais as ações aplicáveis a modelos e agentes:
| Ação | Aplicável a Modelos | Aplicável a agentes (Prévia) |
|---|---|---|
| Anotar | ✅ | ❌ |
| Anotar e bloquear | ✅ | ✅ |
Herança de proteção e sobreposição
Importante
Os riscos são detetados num agente com base na barreira de proteção que lhe é atribuída, não na barreira do seu modelo subjacente. O guardrail agentico sobrepõe-se totalmente ao corrimão de proteção do modelo.
Exemplo de cenário:
- A implementação de um modelo tem um controlo com deteção de violência definido em Alto para entrada e saída do utilizador
- Um agente que usa esse modelo tem um controlo com deteção de violência definido para Baixo para entrada e saída do utilizador. O agente não possui qualquer controlo para deteção de violência em chamadas e respostas das ferramentas.
Comportamento esperado para a deteção de violência nesse agente:
Dada a configuração acima, aqui está como funciona a deteção de violência em cada fase:
- As consultas de utilizadores ao agente são analisadas para violência a um nível baixo
- Chamadas de ferramentas geradas internamente ao agente pelo seu modelo subjacente, incluindo o conteúdo enviado para essa ferramenta durante a execução da chamada à ferramenta, não serão analisadas para identificar violência.
- A resposta da ferramenta não será analisada para verificar a presença de violência
- O resultado final devolvido ao utilizador em resposta à sua consulta original é analisado para Violência a um nível Baixo
Barreiras de proteção padrão
Por defeito, os modelos recebem o Microsoft. DefaultV2 guardrail. Para mais informações sobre os controlos incluídos, consulte Filtragem de Conteúdo.
A atribuição padrão de guardrail para agentes segue estas regras:
- Caso atribuas um guardrail personalizado a um agente, esse guardrail será utilizado.
- Se não for atribuído um limite de segurança personalizado, o agente herda o limite de segurança da sua implementação do modelo subjacente.
- Um agente usa apenas o Microsoft.DefaultV2 guardrail se a implementação do modelo usar esse guardrail, ou se o atribuir explicitamente.
Nota
Por exemplo, se não forem especificados guardrails personalizados para um agente e esse agente usar uma mini implantação GPT-4o com um guardrail chamado "MyCustomGuardrails", o agente também usará "MyCustomGuardrails" até que lhe seja atribuído um guardrail diferente.
Resolução de problemas
Guardrail não se aplica ao agente
Sintoma: O comportamento do agente não corresponde à configuração do guardrail atribuída.
Causas:
- Guardrail contém controlos com riscos de pré-visualização ainda não suportados para agentes (Destaque, Fundamentação)
- Agente a usar o parapeito do modelo em vez do parapeito atribuído
Solução:
- Verifique o guardrail atribuído usando o portal ou SDK do Azure AI Foundry
- Verifique se os controlos de guardrail não dependem de riscos não suportados pelo agente
- Atribuir explicitamente uma proteção ao agente para sobrepor as configurações padrão do modelo
O conteúdo foi sinalizado inesperadamente
Sintoma: Conteúdo legítimo bloqueado por proteção.
Causas:
- Nível de severidade definido de forma demasiado restritiva (Bloqueio alto)
- Modelo de classificação detetou padrões de casos extremos
Solução:
- Rever as definições de nível de gravidade para a categoria de risco afetada
- Testar com diferentes níveis de gravidade para encontrar o limiar adequado
- Para falsos positivos persistentes, contacte o Suporte do Azure para rever a classificação
Chamadas para ferramentas não estão a ser digitalizadas
Sintoma: Conteúdos prejudiciais passam por chamadas ou respostas de ferramentas.
Causas:
- Chamadas de ferramentas e pontos de intervenção de resposta à ferramenta não configurados no guardrail
- Utilização de funcionalidades de pré-visualização que podem não estar totalmente ativadas
Solução:
- O guardrail de verificação inclui controlos para chamadas de ferramentas e pontos de intervenção de resposta
- Assegure que as funcionalidades de pré-visualização do Foundry Agent Service estão ativadas para o seu projeto