Referência de avaliadores internos

Important

Itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou ter recursos restritos. Para obter mais informações, consulte Supplemental Terms of Use for Microsoft Azure Previews.

Microsoft Foundry inclui avaliadores internos para avaliar a qualidade, a segurança e a confiabilidade das respostas de IA em todo o ciclo de vida de desenvolvimento. Essa referência lista todos os avaliadores disponíveis, suas finalidades e diretrizes sobre como selecionar o correto para seu caso de uso. Você também pode criar avaliadores personalizados adaptados aos critérios de avaliação específicos.

Avaliadores de finalidade geral

Evaluator	Purpose
Coherence	Mede a consistência lógica e o fluxo de respostas.
Fluency	Mede a qualidade e a legibilidade da linguagem natural.

Para saber mais, confira os avaliadores de uso geral.

Avaliadores de similaridade textual

Evaluator	Purpose
Similarity	Medida de similaridade textual assistida por IA.
F1 Score	A média harmônica de precisão e recall no token se sobrepõe entre a resposta e a verdade básica.
BLEU	A pontuação de Subestudo de Avaliação Bilíngue para medidas de qualidade de tradução se sobrepõe em n-gramas entre a resposta e a verdade básica.
GLEU	Google-BLEU variante para medidas de avaliação em nível de frase se sobrepõe em n-gramas entre resposta e verdade fundamentada.
ROUGE	Recall-Oriented Understudy for Gisting Avaliação mede sobreposições em n-gramas entre resposta e verdade de base.
METEOR	A métrica para avaliação de tradução com medidas de ordenação explícita se sobrepõe em n-gramas entre a resposta e a verdade do solo.

Para saber mais, confira os avaliadores de similaridade textual.

RAG evaluators

Evaluator	Purpose
Retrieval	Mede a eficiência com que o sistema recupera informações relevantes.
Document Retrieval	Mede a precisão nos resultados de recuperação dada a verdade básica.
Groundedness	Mede o quão fundamentada a resposta está no contexto recuperado. Retorna uma pontuação de 1 a 5 usando um julgamento baseado em modelo.
Aterramento Pro (versão prévia)	Mede se a resposta está fundamentada no contexto recuperado usando o serviço Segurança de Conteúdo de IA do Azure. Retorna uma passagem/falha binária sem a necessidade de uma implantação de modelo.
Relevance	Mede o quão relevante é a resposta em relação à consulta.
Integridade da resposta (versão prévia)	Medidas até que ponto a resposta é completa (não faltando informações críticas) em relação à verdade básica.

Para saber mais, confira os avaliadores de RAG (Geração Aumentada de Recuperação).

Avaliadores de risco e segurança

Evaluator	Purpose
Ódio e injustiça	Identifica conteúdo tendencioso, discriminatório ou odioso.
Sexual	Identifica conteúdo sexual inadequado.
Violence	Detecta conteúdo violento ou incitação.
Self-Harm	Detecta conteúdo que promove ou descreve a automutilação.
Protected Materials	Detecta o uso não autorizado de conteúdo protegido ou protegido por direitos autorais.
Ataque indireto (XPIA)	Mede se a resposta caiu para uma tentativa indireta de jailbreak injetada por meio do contexto recuperado.
Code Vulnerability	Identifica problemas de segurança no código gerado.
Ungrounded Attributes	Detecta informações fabricadas ou alucinadas inferidas das interações do usuário.
Ações Proibidas (versão prévia)	Mede a capacidade de um agente de IA de se envolver em comportamentos que violam ações explicitamente não permitidas.
Vazamento de Dados Confidenciais (versão prévia)	Mede a vulnerabilidade de um agente de IA para expor informações confidenciais.

Para saber mais, consulte avaliadores de risco e segurança.

Agent evaluators

Evaluator	Purpose
Adesão à tarefa (versão prévia)	Mede se o agente segue em tarefas identificadas de acordo com as instruções do sistema.
Conclusão da tarefa (versão prévia)	Mede se o agente concluiu com êxito a tarefa solicitada de ponta a ponta.
Resolução de intenção (versão prévia)	Mede a precisão com que o agente identifica e aborda as intenções do usuário.
Eficiência de navegação da tarefa	Determina se a sequência de etapas do agente corresponde a um caminho ideal ou esperado para medir a eficiência.
Precisão de chamada de ferramenta	Mede a qualidade geral das chamadas de ferramenta, incluindo seleção, correção de parâmetro e eficiência.
Tool Selection	Mede se o agente selecionou as ferramentas mais apropriadas e eficientes para uma tarefa.
Precisão da entrada da ferramenta	Valida que todos os parâmetros de chamada de ferramenta estão corretos com critérios estritos, incluindo aterramento, tipo, formato, integridade e adequação.
Utilização da saída da ferramenta	Mede se o agente interpreta e usa corretamente as saídas da ferramenta contextualmente em respostas e chamadas subsequentes.
Êxito na chamada de ferramenta	Avalia se todas as chamadas de ferramenta foram executadas com êxito sem falhas técnicas.

Para saber mais, consulte os avaliadores do Agente.

Azure alunos do OpenAI

Evaluator	Purpose
Model Labeler	Classifica o conteúdo usando diretrizes e rótulos personalizados.
String Checker	Executa validações de texto flexíveis e correspondência de padrões.
Text Similarity	Avalia a qualidade do texto ou determina a proximidade semântica.
Model Scorer	Gera pontuações numéricas (intervalo personalizado) para conteúdo com base em diretrizes personalizadas.

Para saber mais, consulte Azure Graderes OpenAI.

Avaliadores personalizados (versão prévia)

Além dos avaliadores internos, você pode criar avaliadores personalizados adaptados aos critérios de avaliação específicos. Os avaliadores personalizados permitem definir lógica de pontuação exclusiva, regras de validação e métricas de qualidade que se alinham aos requisitos de negócios e às necessidades específicas do aplicativo.

Para saber mais, consulte avaliadores personalizados.

Combining evaluators

Para uma avaliação de qualidade abrangente, combine vários avaliadores:

Aplicativos RAG: Recuperação + Aterramento + Relevância + Segurança de Conteúdo
Aplicativos de agente: Precisão de Chamada de Ferramenta + Adesão de Tarefa + Resolução de Intenção + Segurança de Conteúdo
Aplicativos de tradução: BLEU + METEOR + Fluência + Coerência
Todos os aplicativos: adicionar avaliadores de risco e segurança (ódio e injustiça, sexual, violência, Self-Harm) para práticas de IA responsáveis

Comentários

Esta página foi útil?

Last updated on 2026-04-30