Referência de avaliadores internos

Important

Itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou ter recursos restritos. Para obter mais informações, consulte Supplemental Terms of Use for Microsoft Azure Previews.

Microsoft Foundry inclui avaliadores internos para avaliar a qualidade, a segurança e a confiabilidade das respostas de IA em todo o ciclo de vida de desenvolvimento. Essa referência lista todos os avaliadores disponíveis, suas finalidades e diretrizes sobre como selecionar o correto para seu caso de uso. Você também pode criar avaliadores personalizados adaptados aos critérios de avaliação específicos.

Avaliadores de finalidade geral

Evaluator Purpose
Coherence Mede a consistência lógica e o fluxo de respostas.
Fluency Mede a qualidade e a legibilidade da linguagem natural.

Para saber mais, confira os avaliadores de uso geral.

Avaliadores de similaridade textual

Evaluator Purpose
Similarity Medida de similaridade textual assistida por IA.
F1 Score A média harmônica de precisão e recall no token se sobrepõe entre a resposta e a verdade básica.
BLEU A pontuação de Subestudo de Avaliação Bilíngue para medidas de qualidade de tradução se sobrepõe em n-gramas entre a resposta e a verdade básica.
GLEU Google-BLEU variante para medidas de avaliação em nível de frase se sobrepõe em n-gramas entre resposta e verdade fundamentada.
ROUGE Recall-Oriented Understudy for Gisting Avaliação mede sobreposições em n-gramas entre resposta e verdade de base.
METEOR A métrica para avaliação de tradução com medidas de ordenação explícita se sobrepõe em n-gramas entre a resposta e a verdade do solo.

Para saber mais, confira os avaliadores de similaridade textual.

RAG evaluators

Evaluator Purpose
Retrieval Mede a eficiência com que o sistema recupera informações relevantes.
Document Retrieval Mede a precisão nos resultados de recuperação dada a verdade básica.
Groundedness Mede o quão fundamentada a resposta está no contexto recuperado. Retorna uma pontuação de 1 a 5 usando um julgamento baseado em modelo.
Aterramento Pro (versão prévia) Mede se a resposta está fundamentada no contexto recuperado usando o serviço Segurança de Conteúdo de IA do Azure. Retorna uma passagem/falha binária sem a necessidade de uma implantação de modelo.
Relevance Mede o quão relevante é a resposta em relação à consulta.
Integridade da resposta (versão prévia) Medidas até que ponto a resposta é completa (não faltando informações críticas) em relação à verdade básica.

Para saber mais, confira os avaliadores de RAG (Geração Aumentada de Recuperação).

Avaliadores de risco e segurança

Evaluator Purpose
Ódio e injustiça Identifica conteúdo tendencioso, discriminatório ou odioso.
Sexual Identifica conteúdo sexual inadequado.
Violence Detecta conteúdo violento ou incitação.
Self-Harm Detecta conteúdo que promove ou descreve a automutilação.
Protected Materials Detecta o uso não autorizado de conteúdo protegido ou protegido por direitos autorais.
Ataque indireto (XPIA) Mede se a resposta caiu para uma tentativa indireta de jailbreak injetada por meio do contexto recuperado.
Code Vulnerability Identifica problemas de segurança no código gerado.
Ungrounded Attributes Detecta informações fabricadas ou alucinadas inferidas das interações do usuário.
Ações Proibidas (versão prévia) Mede a capacidade de um agente de IA de se envolver em comportamentos que violam ações explicitamente não permitidas.
Vazamento de Dados Confidenciais (versão prévia) Mede a vulnerabilidade de um agente de IA para expor informações confidenciais.

Para saber mais, consulte avaliadores de risco e segurança.

Agent evaluators

Evaluator Purpose
Adesão à tarefa (versão prévia) Mede se o agente segue em tarefas identificadas de acordo com as instruções do sistema.
Conclusão da tarefa (versão prévia) Mede se o agente concluiu com êxito a tarefa solicitada de ponta a ponta.
Resolução de intenção (versão prévia) Mede a precisão com que o agente identifica e aborda as intenções do usuário.
Eficiência de navegação da tarefa Determina se a sequência de etapas do agente corresponde a um caminho ideal ou esperado para medir a eficiência.
Precisão de chamada de ferramenta Mede a qualidade geral das chamadas de ferramenta, incluindo seleção, correção de parâmetro e eficiência.
Tool Selection Mede se o agente selecionou as ferramentas mais apropriadas e eficientes para uma tarefa.
Precisão da entrada da ferramenta Valida que todos os parâmetros de chamada de ferramenta estão corretos com critérios estritos, incluindo aterramento, tipo, formato, integridade e adequação.
Utilização da saída da ferramenta Mede se o agente interpreta e usa corretamente as saídas da ferramenta contextualmente em respostas e chamadas subsequentes.
Êxito na chamada de ferramenta Avalia se todas as chamadas de ferramenta foram executadas com êxito sem falhas técnicas.

Para saber mais, consulte os avaliadores do Agente.

Azure alunos do OpenAI

Evaluator Purpose
Model Labeler Classifica o conteúdo usando diretrizes e rótulos personalizados.
String Checker Executa validações de texto flexíveis e correspondência de padrões.
Text Similarity Avalia a qualidade do texto ou determina a proximidade semântica.
Model Scorer Gera pontuações numéricas (intervalo personalizado) para conteúdo com base em diretrizes personalizadas.

Para saber mais, consulte Azure Graderes OpenAI.

Avaliadores personalizados (versão prévia)

Além dos avaliadores internos, você pode criar avaliadores personalizados adaptados aos critérios de avaliação específicos. Os avaliadores personalizados permitem definir lógica de pontuação exclusiva, regras de validação e métricas de qualidade que se alinham aos requisitos de negócios e às necessidades específicas do aplicativo.

Para saber mais, consulte avaliadores personalizados.

Combining evaluators

Para uma avaliação de qualidade abrangente, combine vários avaliadores:

  • Aplicativos RAG: Recuperação + Aterramento + Relevância + Segurança de Conteúdo
  • Aplicativos de agente: Precisão de Chamada de Ferramenta + Adesão de Tarefa + Resolução de Intenção + Segurança de Conteúdo
  • Aplicativos de tradução: BLEU + METEOR + Fluência + Coerência
  • Todos os aplicativos: adicionar avaliadores de risco e segurança (ódio e injustiça, sexual, violência, Self-Harm) para práticas de IA responsáveis