Referência de avaliadores internos (clássico)

Exibição no momento:Versão do portal Foundry (clássico) - Alternar para a versão do novo portal Foundry

Importante

Itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou ter recursos restritos. Para obter mais informações, consulte Supplemental Terms of Use for Microsoft Azure Previews.

Microsoft Foundry fornece um conjunto abrangente de avaliadores internos para avaliar a qualidade, a segurança e a confiabilidade das respostas de IA em todo o ciclo de vida de desenvolvimento. Essa referência detalha todos os avaliadores disponíveis, suas finalidades, entradas necessárias e orientações sobre como selecionar o avaliador correto para seu caso de uso. Você também pode criar avaliadores personalizados adaptados aos critérios de avaliação específicos.

Nota

O SDK do Microsoft Foundry para avaliação e o portal do Foundry estão em versão prévia pública, mas as APIs geralmente estão disponíveis para avaliação de modelo e conjunto de dados (a avaliação do agente permanece em versão prévia pública). O SDK de Avaliação de IA do Azure e os avaliadores marcados (versão prévia) neste artigo estão atualmente em versão prévia pública em todos os lugares.

Avaliadores de finalidade geral

Avaliador	Propósito
Coerência	Mede a consistência lógica e o fluxo de respostas.
Fluência	Mede a qualidade e a legibilidade da linguagem natural.

Para saber mais, confira os avaliadores de uso geral.

Avaliadores de similaridade textual

Avaliador	Propósito
Semelhança	Medida de similaridade textual assistida por IA.
Pontuação F1	A média harmônica de precisão e recall no token se sobrepõe entre a resposta e a verdade básica.
BLEU	A pontuação de Subestudo de Avaliação Bilíngue para medidas de qualidade de tradução se sobrepõe em n-gramas entre a resposta e a verdade básica.
GLEU	Variante Google-BLEU para medidas de avaliação no nível da sentença que medem a sobreposição de n-gramas entre a resposta e a verdade de referência.
ROUGE	Recall-Oriented subesta para medidas de Avaliação de Gisting se sobrepõe em n-gramas entre a resposta e a verdade básica.
METEORO	A métrica para avaliação de tradução com ordenação explícita mede sobreposições em n-gramas entre a resposta e a verdade de referência.

Para saber mais, confira os avaliadores de similaridade textual.

Avaliadores de RAG

Avaliador	Propósito
Recuperação	Mede a eficiência com que o sistema recupera informações relevantes.
Recuperação de documento	Mede a precisão nos resultados de recuperação dada a verdade básica.
Estabilidade	Mede o quão consistente é a resposta em relação ao contexto recuperado.
Groundedness Pro (versão prévia)	Mede se a resposta é consistente com relação ao contexto recuperado.
Relevância	Mede o quão relevante é a resposta em relação à consulta.
Integridade da resposta	Mede até que ponto a resposta é completa (não faltando informações críticas) em relação à verdade de base.

Para saber mais, confira os avaliadores de RAG (Geração Aumentada de Recuperação).

Avaliadores de risco e segurança

Avaliador	Propósito
Ódio e injustiça	Identifica conteúdo tendencioso, discriminatório ou odioso.
Sexual	Identifica conteúdo sexual inadequado.
Violência	Detecta conteúdo violento ou incitação.
Automutilação	Detecta conteúdo que promove ou descreve a automutilação.
Segurança de conteúdo	Avaliação abrangente de várias questões de segurança.
Materiais protegidos	Detecta o uso não autorizado de conteúdo protegido ou protegido por direitos autorais.
Vulnerabilidade de código	Identifica problemas de segurança no código gerado.
Atributos não fundamentados	Detecta informações fabricadas ou alucinadas inferidas das interações do usuário.

Para saber mais, consulte avaliadores de risco e segurança.

Avaliadores de agentes

Avaliador	Propósito
Resolução de intenção (versão prévia)	Mede a precisão com que o agente identifica e aborda as intenções do usuário.
Conformidade com a Tarefa (versão prévia)	Mede o quão bem o agente conclui as tarefas identificadas.
Precisão de chamada de ferramenta (versão prévia)	Mede o quão bem o agente seleciona e chama as ferramentas corretas.

Para saber mais, consulte Avaliadores de Agentes.

Azure alunos do OpenAI

Avaliador	Propósito
Rotulador de Modelo	Classifica o conteúdo usando diretrizes e rótulos personalizados.
Verificador de cadeia de caracteres	Executa validações de texto flexíveis e correspondência de padrões.
Similaridade de texto	Avalia a qualidade do texto ou determina a proximidade semântica.
Avaliador de Modelos	Gera pontuações numéricas (intervalo personalizado) para conteúdo com base em diretrizes personalizadas.

Para saber mais, consulte Azure OpenAI Avaliadores.

Avaliadores personalizados

Além dos avaliadores internos, você pode criar avaliadores personalizados adaptados aos critérios de avaliação específicos. Os avaliadores personalizados permitem definir lógica de pontuação exclusiva, regras de validação e métricas de qualidade que se alinham aos requisitos de negócios e às necessidades específicas do aplicativo.

Para saber mais, consulte avaliadores personalizados.

Combinando avaliadores

Para uma avaliação de qualidade abrangente, combine vários avaliadores:

Aplicativos RAG: Recuperação + Aterramento + Relevância + Segurança de Conteúdo
Aplicativos de agente: Precisão da Chamada de Ferramenta + Cumprimento de Tarefa + Resolução de Intenção + Segurança de Conteúdo
Aplicativos de tradução: BLEU + METEOR + Fluência + Coerência
Todos os aplicativos: adicionar avaliadores de risco e segurança (ódio e injustiça, sexual, violência, Self-Harm) para práticas de IA responsáveis

Comentários

Esta página foi útil?

Last updated on 2026-05-01