Referência de avaliadores internos (clássico)

Exibição no momento:Versão do portal Foundry (clássico) - Alternar para a versão do novo portal Foundry

Importante

Itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou ter recursos restritos. Para obter mais informações, consulte Supplemental Terms of Use for Microsoft Azure Previews.

Microsoft Foundry fornece um conjunto abrangente de avaliadores internos para avaliar a qualidade, a segurança e a confiabilidade das respostas de IA em todo o ciclo de vida de desenvolvimento. Essa referência detalha todos os avaliadores disponíveis, suas finalidades, entradas necessárias e orientações sobre como selecionar o avaliador correto para seu caso de uso. Você também pode criar avaliadores personalizados adaptados aos critérios de avaliação específicos.

Nota

O SDK do Microsoft Foundry para avaliação e o portal do Foundry estão em versão prévia pública, mas as APIs geralmente estão disponíveis para avaliação de modelo e conjunto de dados (a avaliação do agente permanece em versão prévia pública). O SDK de Avaliação de IA do Azure e os avaliadores marcados (versão prévia) neste artigo estão atualmente em versão prévia pública em todos os lugares.

Avaliadores de finalidade geral

Avaliador Propósito
Coerência Mede a consistência lógica e o fluxo de respostas.
Fluência Mede a qualidade e a legibilidade da linguagem natural.

Para saber mais, confira os avaliadores de uso geral.

Avaliadores de similaridade textual

Avaliador Propósito
Semelhança Medida de similaridade textual assistida por IA.
Pontuação F1 A média harmônica de precisão e recall no token se sobrepõe entre a resposta e a verdade básica.
BLEU A pontuação de Subestudo de Avaliação Bilíngue para medidas de qualidade de tradução se sobrepõe em n-gramas entre a resposta e a verdade básica.
GLEU Variante Google-BLEU para medidas de avaliação no nível da sentença que medem a sobreposição de n-gramas entre a resposta e a verdade de referência.
ROUGE Recall-Oriented subesta para medidas de Avaliação de Gisting se sobrepõe em n-gramas entre a resposta e a verdade básica.
METEORO A métrica para avaliação de tradução com ordenação explícita mede sobreposições em n-gramas entre a resposta e a verdade de referência.

Para saber mais, confira os avaliadores de similaridade textual.

Avaliadores de RAG

Avaliador Propósito
Recuperação Mede a eficiência com que o sistema recupera informações relevantes.
Recuperação de documento Mede a precisão nos resultados de recuperação dada a verdade básica.
Estabilidade Mede o quão consistente é a resposta em relação ao contexto recuperado.
Groundedness Pro (versão prévia) Mede se a resposta é consistente com relação ao contexto recuperado.
Relevância Mede o quão relevante é a resposta em relação à consulta.
Integridade da resposta Mede até que ponto a resposta é completa (não faltando informações críticas) em relação à verdade de base.

Para saber mais, confira os avaliadores de RAG (Geração Aumentada de Recuperação).

Avaliadores de risco e segurança

Avaliador Propósito
Ódio e injustiça Identifica conteúdo tendencioso, discriminatório ou odioso.
Sexual Identifica conteúdo sexual inadequado.
Violência Detecta conteúdo violento ou incitação.
Automutilação Detecta conteúdo que promove ou descreve a automutilação.
Segurança de conteúdo Avaliação abrangente de várias questões de segurança.
Materiais protegidos Detecta o uso não autorizado de conteúdo protegido ou protegido por direitos autorais.
Vulnerabilidade de código Identifica problemas de segurança no código gerado.
Atributos não fundamentados Detecta informações fabricadas ou alucinadas inferidas das interações do usuário.

Para saber mais, consulte avaliadores de risco e segurança.

Avaliadores de agentes

Avaliador Propósito
Resolução de intenção (versão prévia) Mede a precisão com que o agente identifica e aborda as intenções do usuário.
Conformidade com a Tarefa (versão prévia) Mede o quão bem o agente conclui as tarefas identificadas.
Precisão de chamada de ferramenta (versão prévia) Mede o quão bem o agente seleciona e chama as ferramentas corretas.

Para saber mais, consulte Avaliadores de Agentes.

Azure alunos do OpenAI

Avaliador Propósito
Rotulador de Modelo Classifica o conteúdo usando diretrizes e rótulos personalizados.
Verificador de cadeia de caracteres Executa validações de texto flexíveis e correspondência de padrões.
Similaridade de texto Avalia a qualidade do texto ou determina a proximidade semântica.
Avaliador de Modelos Gera pontuações numéricas (intervalo personalizado) para conteúdo com base em diretrizes personalizadas.

Para saber mais, consulte Azure OpenAI Avaliadores.

Avaliadores personalizados

Além dos avaliadores internos, você pode criar avaliadores personalizados adaptados aos critérios de avaliação específicos. Os avaliadores personalizados permitem definir lógica de pontuação exclusiva, regras de validação e métricas de qualidade que se alinham aos requisitos de negócios e às necessidades específicas do aplicativo.

Para saber mais, consulte avaliadores personalizados.

Combinando avaliadores

Para uma avaliação de qualidade abrangente, combine vários avaliadores:

  • Aplicativos RAG: Recuperação + Aterramento + Relevância + Segurança de Conteúdo
  • Aplicativos de agente: Precisão da Chamada de Ferramenta + Cumprimento de Tarefa + Resolução de Intenção + Segurança de Conteúdo
  • Aplicativos de tradução: BLEU + METEOR + Fluência + Coerência
  • Todos os aplicativos: adicionar avaliadores de risco e segurança (ódio e injustiça, sexual, violência, Self-Harm) para práticas de IA responsáveis