Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Microsoft Foundry fornece diretrizes de segurança e proteção que você pode aplicar aos principais modelos e agentes. Os guardrails do agente estão em versão prévia. Os guardrails consistem em um conjunto de controles. Os controles definem um risco a ser detectado, os pontos de intervenção para examinar o risco e a ação de resposta a ser tomada no modelo ou agente quando o risco é detectado.
Um guardrail é uma coleção nomeada de controles. Variações nas configurações de API e no design do aplicativo podem afetar as conclusões de processos e, portanto, o comportamento de filtragem.
Os riscos são sinalizados por modelos de classificação projetados para detectar conteúdo prejudicial. Há suporte para quatro pontos de intervenção:
- Entrada do usuário – o prompt enviado a um modelo ou agente.
- Chamada de ferramenta (versão prévia) — A ação e os dados que o agente propõe enviar para uma ferramenta. Somente agentes.
- Resposta da ferramenta (versão prévia) – o conteúdo retornado de uma ferramenta para o agente. Somente agentes.
- Saída – a conclusão final devolvida ao usuário.
Para obter mais informações sobre pontos de intervenção, consulte pontos de intervenção e controles.
Nota
Os guardrails utilizam modelos de classificação de Segurança de Conteúdo de IA do Azure para detectar conteúdo prejudicial entre categorias de risco suportadas.
Importante
O sistema de proteção se aplica a todos os Modelos vendidos diretamente pela Azure, exceto para prompts e conclusões processadas por modelos de áudio como o Whisper. Para obter mais informações, consulte Modelos de áudio. Atualmente, o sistema de proteção aplica-se apenas aos agentes desenvolvidos no Serviço de Agente da Fábrica, não a outros agentes registrados no Foundry Control Plane.
Pré-requisitos
- Uma assinatura Azure. Crie um gratuitamente.
- Um projeto Microsoft Foundry.
- Pelo menos uma implantação de modelo em seu projeto.
- Função de Proprietário de Conta de IA do Azure.
- Acesso a uma função que permite criar um recurso do Foundry, como Proprietário de IA da Conta Azure ou Proprietário de IA do Azure na assinatura ou no grupo de recursos. Para obter mais informações sobre permissões, consulte o controle de acesso baseado em Role para Microsoft Foundry.
Verificadores de integridade para agentes versus modelos
Um verificador de integridade da Fábrica individual pode ser aplicado a um ou muitos modelos e a um ou muitos agentes em um projeto. Alguns controles em um verificador de integridade podem não ser relevantes para modelos porque os riscos, os pontos de intervenção ou as ações são específicos para o comportamento agente ou chamadas de ferramenta. Esses controles não são executados em modelos usando esse guardrail.
Alguns riscos na Versão Prévia ainda não têm suporte para agentes. Quando os controles envolvendo esses riscos são adicionados a um guardrail e o guardrail é aplicado a um agente, esses controles não têm efeito para esse agente. Eles ainda se aplicam a modelos que usam o mesmo guardrail.
Aplicabilidade de risco
A tabela a seguir resume quais riscos são aplicáveis a modelos e agentes:
| Risco | Aplicável a modelos | Aplicável a agentes (versão prévia) |
|---|---|---|
| Odeio | ✅ | ✅ |
| Sexual | ✅ | ✅ |
| Automutilação | ✅ | ✅ |
| Violência | ✅ | ✅ |
| Ataques por interface de comando do usuário | ✅ | ✅ |
| Ataques indiretos | ✅ | ✅ |
| Spotlighting (Pré-visualização) | ✅ | ❌ |
| Material para proteção de código | ✅ | ✅ |
| Material protegido para texto | ✅ | ✅ |
| Aterramento (versão preliminar) | ✅ | ❌ |
| Informações de identificação pessoal (versão prévia) | ✅ | ✅ |
| Adesão à tarefa | ✅ | ✅ |
Níveis de severidade
Para riscos de conteúdo (Ódio, Sexual, Automutilação, Violência), cada controle usa um limite de nível de severidade que determina qual conteúdo é sinalizado:
| Nível de gravidade | Comportamento |
|---|---|
| Desativado | A detecção está desativada para este risco. Disponível somente para clientes aprovados, consulte filtros de conteúdo |
| Baixo | Sinaliza conteúdo com gravidade baixa e superior. Mais restritivo. |
| Médio | Sinaliza o conteúdo com gravidade média e superior. |
| Alta | Sinaliza apenas o conteúdo mais grave. Menos restritivo. |
Para obter um detalhamento do que cada nível de severidade detecta, consulte categorias de filtragem de conteúdo.
Aplicabilidade do ponto de intervenção
A tabela a seguir resume quais pontos de intervenção são aplicáveis a modelos e agentes:
| Ponto de intervenção | Aplicável a modelos | Aplicável a agentes (versão prévia) |
|---|---|---|
| Entrada do usuário | ✅ | ✅ |
| Chamada de ferramenta | ❌ | ✅ (Versão prévia) |
| Resposta da ferramenta | ❌ | ✅ (Versão prévia) |
| Saída | ✅ | ✅ |
Importante
Os riscos são detectados em um agente com base na salvaguarda que lhe foi atribuída, e não na salvaguarda do seu modelo subjacente. O verificador de integridade por meio de agente substitui totalmente o verificador de integridade do modelo.
Exemplo: Comportamento de substituição do verificador de integridade
Considere este cenário:
- Uma implantação de modelo tem um controle com a detecção de violência configurada para Alta para entradas e saídas de usuários
- Um agente que usa esse modelo tem um controle com a detecção de violência definida como Baixa para entrada e saída do usuário. O agente não possui nenhum controle para detecção de violência em chamadas e respostas de ferramentas
Aplicabilidade da ação
Quando um controle detecta um risco, ele pode executar uma das duas ações. A tabela a seguir resume quais ações são aplicáveis a modelos e agentes:
| Ação | Aplicável a modelos | Aplicável a agentes (versão prévia) |
|---|---|---|
| Anotação | ✅ | ❌ |
| Anotar e bloquear | ✅ | ✅ |
Herança e substituição do Guardrail
Importante
Os riscos são detectados em um agente com base na salvaguarda que lhe foi atribuída, e não na salvaguarda do seu modelo subjacente. O verificador de integridade por meio de agente substitui totalmente o verificador de integridade do modelo.
Cenário de exemplo:
- Uma implantação de modelo tem um controle com a detecção de violência configurada para Alta para entradas e saídas de usuários
- Um agente que usa esse modelo tem um controle com a detecção de violência definida como Baixa para entrada e saída do usuário. O agente não possui nenhum controle para detecção de violência em chamadas e respostas de ferramentas.
Comportamento esperado para detecção de violência nesse agente:
Considerando a configuração acima, veja como a detecção de violência funciona em cada estágio:
- As consultas do usuário ao agente são analisadas em busca de violência em um nível Baixo.
- As chamadas de ferramenta geradas internamente para o agente por seu modelo subjacente, incluindo o conteúdo enviado para essa ferramenta durante a execução dessa chamada, não serão verificadas quanto à violência
- A resposta da ferramenta não será verificada para identificar violência
- A saída final retornada ao usuário em resposta à consulta original é examinada para detectar violência em um nível baixo
Guardrails padrão
Por padrão, os modelos recebem o Microsoft. DefaultV2 guardrail. Para obter mais informações sobre quais controles estão incluídos, consulte Filtragem de conteúdo.
A atribuição de guardrail padrão para agentes segue estas regras:
- Se você atribuir um guardrail personalizado a um agente, esse guardrail será usado.
- Se nenhum guardrail personalizado for atribuído, o agente herdará o guardrail de sua implantação de modelo subjacente.
- Um agente só usa a proteção Microsoft.DefaultV2 se a sua implantação de modelo usar essa proteção ou se você a atribuir explicitamente.
Nota
Por exemplo, se nenhuma proteção personalizada for especificada para um agente e esse agente usar uma implantação mini GPT-4o com uma proteção chamada "MyCustomGuardrails", o agente também usará "MyCustomGuardrails" até que você atribua uma proteção diferente.
Solucionando problemas
Guardrail não se aplica ao agente
Sintoma: O comportamento do agente não corresponde à configuração de guardrail atribuída.
Causas:
- O verificador de integridade contém controles com riscos de versão preliminar que ainda não são compatíveis com agentes (destaques, contextualização)
- Agente usando o verificador de integridade do modelo em vez do verificador de integridade atribuído
Solução:
- Verificar o guardrail atribuído usando Fábrica de IA do Azure portal ou SDK
- Verifique se os controles de verificador de integridade não dependem de riscos incompatíveis com o agente
- Atribua explicitamente o verificador de integridade ao agente para substituir os padrões do modelo
Conteúdo sinalizado inesperadamente
Sintoma: Conteúdo legítimo bloqueado por guardrail.
Causas:
- Nível de severidade definido muito restritivamente (bloqueio alto)
- Modelo de classificação detectou padrão de caso limite
Solução:
- Examinar as configurações de nível de gravidade para a categoria de risco afetada
- Teste com níveis de severidade diferentes para encontrar o limite apropriado
- Para falsos positivos persistentes, entre em contato com o Suporte da Azure para revisar a classificação.
Chamadas de ferramenta não estão sendo escaneadas
Sintoma: O conteúdo nocivo passa por chamadas/respostas de ferramentas.
Causas:
- Pontos de intervenção de chamada e de resposta da ferramenta não configurados no verificador de integridade
- Usando recursos de visualização que podem não estar totalmente habilitados
Solução:
- Verifique se o verificador de integridade inclui controles para pontos de intervenção de chamada e de resposta da ferramenta
- Verifique se os recursos de visualização do Serviço do Foundry Agent estão habilitados para seu projeto
Próximas etapas
- Configurar guardrails e controles
- Saiba mais sobre os pontos e controles de intervenção
- Entenda a filtragem de conteúdo no Azure OpenAI
- Configure filtros de conteúdo para Azure OpenAI