Referência de avaliadores incorporados

Important

Os itens marcados (pré-visualização) neste artigo encontram-se atualmente em pré-visualização pública. Esta pré-visualização é fornecida sem um acordo de nível de serviço, e não a recomendamos para cargas de trabalho em produção. Certas funcionalidades podem não ser suportadas ou podem ter capacidades limitadas. Para mais informações, consulte Termos de Utilização Suplementares para Microsoft Azure Pré-visualizações.

O Microsoft Foundry inclui avaliadores integrados para avaliar a qualidade, segurança e fiabilidade das respostas da IA ao longo do ciclo de vida do desenvolvimento. Esta referência lista todos os avaliadores disponíveis, os seus propósitos e orientações sobre como selecionar o certo para o seu caso de uso. Também pode criar avaliadores personalizados adaptados aos seus critérios específicos de avaliação.

Avaliadores de propósito geral

Evaluator	Purpose
Coherence	Mede a consistência lógica e o fluxo das respostas.
Fluency	Mede a qualidade e a legibilidade da linguagem natural.

Para saber mais, consulte Avaliadores de Propósito Geral.

Avaliadores de similaridade textual

Evaluator	Purpose
Similarity	Medição de similaridade textual assistida por IA.
F1 Score	A média harmónica de precisão e recordação em token sobrepõe-se entre resposta e verdade fundamental.
BLEU	Avaliação Bilingue A pontuação dos alunos para a qualidade da tradução mede sobreposições em n-gramas entre a resposta e a verdade fundamental.
GLEU	Google-BLEU variante para medidas de avaliação ao nível da frase sobrepõe-se, em n-gramas, entre resposta e verdade fundamental.
ROUGE	Recall-Oriented Understudy for Gisting Avaliação mede sobreposições em n-gramas entre resposta e verdade fundamental.
METEOR	Métrica para Avaliação da Tradução com Ordenação Explícita mede sobrepõe-se em n-gramas entre resposta e verdade fundamental.

Para saber mais, consulte Avaliadores de similaridade textual.

RAG evaluators

Evaluator	Purpose
Retrieval	Mede a eficácia com que o sistema recupera informação relevante.
Document Retrieval	Mede a precisão nos resultados de recuperação com base na verdade do terreno.
Groundedness	Mede quão fundamentada é a resposta no contexto recuperado. Devolve uma pontuação de 1 a 5 usando um julgamento baseado em modelo.
Groundedness Pro (pré-visualização)	Mede se a resposta está fundamentada no contexto recuperado utilizando o serviço Segurança de conteúdo de IA do Azure. Devolve um critério binário de aprovação/reprovação sem exigir uma implementação do modelo.
Relevance	Mede a relevância da resposta relativamente à consulta.
Completude da Resposta (pré-visualização)	Mede até que ponto a resposta é completa (sem perder informação crítica) relativamente à verdade de base.

Para saber mais, consulte avaliadores de Geração Aumentada por Recuperação (RAG).

Avaliadores de risco e segurança

Evaluator	Purpose
Ódio e Injustiça	Identifica conteúdos tendenciosos, discriminatórios ou de ódio.
Sexual	Identifica conteúdo sexual inadequado.
Violence	Deteta conteúdo violento ou incitação.
Self-Harm	Deteta conteúdos que promovem ou descrevem automutilação.
Protected Materials	Deteta o uso não autorizado de conteúdos protegidos ou protegidos.
Ataque Indireto (XPIA)	Mede se a resposta caiu numa tentativa indireta de fuga injetada através do contexto recuperado.
Code Vulnerability	Identifica problemas de segurança no código gerado.
Ungrounded Attributes	Deteta informação fabricada ou alucinada inferida a partir das interações com o utilizador.
Ações Proibidas (pré-visualização)	Mede a capacidade de um agente de IA de se envolver em comportamentos que violem ações explicitamente proibidas.
Fuga de Dados Sensíveis (pré-visualização)	Mede a vulnerabilidade de um agente de IA à exposição de informações sensíveis.

Para saber mais, consulte Avaliadores de Risco e Segurança.

Agent evaluators

Evaluator	Purpose
Adesão à Tarefa (pré-visualização)	Mede se o agente cumpre tarefas identificadas de acordo com instruções do sistema.
Conclusão de Tarefa (pré-visualização)	Mede se o agente completou com sucesso a tarefa solicitada de ponta a ponta.
Resolução de Intenções (pré-visualização)	Mede a precisão com que o agente identifica e responde às intenções do utilizador.
Eficiência da Navegação de Tarefas	Determina se a sequência de passos do agente corresponde a um caminho ótimo ou esperado para medir a eficiência.
Precisão nas chamadas de ferramenta	Mede a qualidade global das chamadas de ferramenta, incluindo seleção, correção dos parâmetros e eficiência.
Tool Selection	Mede se o agente selecionou as ferramentas mais adequadas e eficientes para uma tarefa.
Precisão da Introdução de Ferramentas	Valida que todos os parâmetros das chamadas de ferramenta estão corretos, com critérios rigorosos que incluem aterramento, tipo, formato, completude e adequação.
Utilização da Saída da Ferramenta	Mede se o agente interpreta e utiliza corretamente as saídas da ferramenta de forma contextual nas respostas e chamadas subsequentes.
Sucesso na Chamada de Ferramenta	Avalia se todas as chamadas de ferramenta foram executadas com sucesso sem falhas técnicas.

Para saber mais, consulte Avaliadores de Agentes.

Avaliadores do Azure OpenAI

Evaluator	Purpose
Model Labeler	Classifica conteúdos usando diretrizes e rótulos personalizados.
String Checker	Realiza validações flexíveis de texto e correspondência de padrões.
Text Similarity	Avalia a qualidade do texto ou determina a proximidade semântica.
Model Scorer	Gera pontuações numéricas (intervalo personalizado) para conteúdos com base em diretrizes personalizadas.

Para saber mais, consulte Azure OpenAI Graders.

Avaliadores personalizados (pré-visualização)

Para além dos avaliadores integrados, pode criar avaliadores personalizados adaptados aos seus critérios específicos de avaliação. Avaliadores personalizados permitem-lhe definir uma lógica de pontuação única, regras de validação e métricas de qualidade que estejam alinhadas com os requisitos do seu negócio e necessidades específicas da aplicação.

Para saber mais, consulte Avaliadores Personalizados.

Combining evaluators

Para uma avaliação abrangente da qualidade, combine múltiplos avaliadores:

Aplicações RAG: Recuperação + Aterramento + Relevância + Segurança de Conteúdo
Aplicações de agentes: Precisão das Chamadas de Ferramenta + Adesão à Tarefa + Resolução de Intenções + Segurança de Conteúdo
Aplicações de tradução: BLEU + METEOR + Fluência + Coerência
Todas as aplicações: Adicione avaliadores de risco e segurança (Ódio e Injustiça, Sexual, Violência, Self-Harm) para práticas responsáveis de IA

Comentários

Esta página foi útil?

Last updated on 2026-04-30