Referência de avaliadores incorporados

Important

Os itens marcados (pré-visualização) neste artigo encontram-se atualmente em pré-visualização pública. Esta pré-visualização é fornecida sem um acordo de nível de serviço, e não a recomendamos para cargas de trabalho em produção. Certas funcionalidades podem não ser suportadas ou podem ter capacidades limitadas. Para mais informações, consulte Termos de Utilização Suplementares para Microsoft Azure Pré-visualizações.

O Microsoft Foundry inclui avaliadores integrados para avaliar a qualidade, segurança e fiabilidade das respostas da IA ao longo do ciclo de vida do desenvolvimento. Esta referência lista todos os avaliadores disponíveis, os seus propósitos e orientações sobre como selecionar o certo para o seu caso de uso. Também pode criar avaliadores personalizados adaptados aos seus critérios específicos de avaliação.

Avaliadores de propósito geral

Evaluator Purpose
Coherence Mede a consistência lógica e o fluxo das respostas.
Fluency Mede a qualidade e a legibilidade da linguagem natural.

Para saber mais, consulte Avaliadores de Propósito Geral.

Avaliadores de similaridade textual

Evaluator Purpose
Similarity Medição de similaridade textual assistida por IA.
F1 Score A média harmónica de precisão e recordação em token sobrepõe-se entre resposta e verdade fundamental.
BLEU Avaliação Bilingue A pontuação dos alunos para a qualidade da tradução mede sobreposições em n-gramas entre a resposta e a verdade fundamental.
GLEU Google-BLEU variante para medidas de avaliação ao nível da frase sobrepõe-se, em n-gramas, entre resposta e verdade fundamental.
ROUGE Recall-Oriented Understudy for Gisting Avaliação mede sobreposições em n-gramas entre resposta e verdade fundamental.
METEOR Métrica para Avaliação da Tradução com Ordenação Explícita mede sobrepõe-se em n-gramas entre resposta e verdade fundamental.

Para saber mais, consulte Avaliadores de similaridade textual.

RAG evaluators

Evaluator Purpose
Retrieval Mede a eficácia com que o sistema recupera informação relevante.
Document Retrieval Mede a precisão nos resultados de recuperação com base na verdade do terreno.
Groundedness Mede quão fundamentada é a resposta no contexto recuperado. Devolve uma pontuação de 1 a 5 usando um julgamento baseado em modelo.
Groundedness Pro (pré-visualização) Mede se a resposta está fundamentada no contexto recuperado utilizando o serviço Segurança de conteúdo de IA do Azure. Devolve um critério binário de aprovação/reprovação sem exigir uma implementação do modelo.
Relevance Mede a relevância da resposta relativamente à consulta.
Completude da Resposta (pré-visualização) Mede até que ponto a resposta é completa (sem perder informação crítica) relativamente à verdade de base.

Para saber mais, consulte avaliadores de Geração Aumentada por Recuperação (RAG).

Avaliadores de risco e segurança

Evaluator Purpose
Ódio e Injustiça Identifica conteúdos tendenciosos, discriminatórios ou de ódio.
Sexual Identifica conteúdo sexual inadequado.
Violence Deteta conteúdo violento ou incitação.
Self-Harm Deteta conteúdos que promovem ou descrevem automutilação.
Protected Materials Deteta o uso não autorizado de conteúdos protegidos ou protegidos.
Ataque Indireto (XPIA) Mede se a resposta caiu numa tentativa indireta de fuga injetada através do contexto recuperado.
Code Vulnerability Identifica problemas de segurança no código gerado.
Ungrounded Attributes Deteta informação fabricada ou alucinada inferida a partir das interações com o utilizador.
Ações Proibidas (pré-visualização) Mede a capacidade de um agente de IA de se envolver em comportamentos que violem ações explicitamente proibidas.
Fuga de Dados Sensíveis (pré-visualização) Mede a vulnerabilidade de um agente de IA à exposição de informações sensíveis.

Para saber mais, consulte Avaliadores de Risco e Segurança.

Agent evaluators

Evaluator Purpose
Adesão à Tarefa (pré-visualização) Mede se o agente cumpre tarefas identificadas de acordo com instruções do sistema.
Conclusão de Tarefa (pré-visualização) Mede se o agente completou com sucesso a tarefa solicitada de ponta a ponta.
Resolução de Intenções (pré-visualização) Mede a precisão com que o agente identifica e responde às intenções do utilizador.
Eficiência da Navegação de Tarefas Determina se a sequência de passos do agente corresponde a um caminho ótimo ou esperado para medir a eficiência.
Precisão nas chamadas de ferramenta Mede a qualidade global das chamadas de ferramenta, incluindo seleção, correção dos parâmetros e eficiência.
Tool Selection Mede se o agente selecionou as ferramentas mais adequadas e eficientes para uma tarefa.
Precisão da Introdução de Ferramentas Valida que todos os parâmetros das chamadas de ferramenta estão corretos, com critérios rigorosos que incluem aterramento, tipo, formato, completude e adequação.
Utilização da Saída da Ferramenta Mede se o agente interpreta e utiliza corretamente as saídas da ferramenta de forma contextual nas respostas e chamadas subsequentes.
Sucesso na Chamada de Ferramenta Avalia se todas as chamadas de ferramenta foram executadas com sucesso sem falhas técnicas.

Para saber mais, consulte Avaliadores de Agentes.

Avaliadores do Azure OpenAI

Evaluator Purpose
Model Labeler Classifica conteúdos usando diretrizes e rótulos personalizados.
String Checker Realiza validações flexíveis de texto e correspondência de padrões.
Text Similarity Avalia a qualidade do texto ou determina a proximidade semântica.
Model Scorer Gera pontuações numéricas (intervalo personalizado) para conteúdos com base em diretrizes personalizadas.

Para saber mais, consulte Azure OpenAI Graders.

Avaliadores personalizados (pré-visualização)

Para além dos avaliadores integrados, pode criar avaliadores personalizados adaptados aos seus critérios específicos de avaliação. Avaliadores personalizados permitem-lhe definir uma lógica de pontuação única, regras de validação e métricas de qualidade que estejam alinhadas com os requisitos do seu negócio e necessidades específicas da aplicação.

Para saber mais, consulte Avaliadores Personalizados.

Combining evaluators

Para uma avaliação abrangente da qualidade, combine múltiplos avaliadores:

  • Aplicações RAG: Recuperação + Aterramento + Relevância + Segurança de Conteúdo
  • Aplicações de agentes: Precisão das Chamadas de Ferramenta + Adesão à Tarefa + Resolução de Intenções + Segurança de Conteúdo
  • Aplicações de tradução: BLEU + METEOR + Fluência + Coerência
  • Todas as aplicações: Adicione avaliadores de risco e segurança (Ódio e Injustiça, Sexual, Violência, Self-Harm) para práticas responsáveis de IA