Referência de avaliadores incorporada (clássico)

Atualmente a ver:versão do portal Foundry (clássica) - Trocar para a versão do novo portal Foundry

Importante

Os itens marcados (pré-visualização) neste artigo encontram-se atualmente em pré-visualização pública. Esta pré-visualização é fornecida sem um acordo de nível de serviço, e não a recomendamos para cargas de trabalho em produção. Certas funcionalidades podem não ser suportadas ou podem ter capacidades limitadas. Para mais informações, consulte Termos de Utilização Suplementares para Microsoft Azure Pré-visualizações.

A Microsoft Foundry disponibiliza um conjunto abrangente de avaliadores integrados para avaliar a qualidade, segurança e fiabilidade das respostas da IA ao longo do ciclo de vida do desenvolvimento. Esta referência detalha todos os avaliadores disponíveis, os seus propósitos, entradas necessárias e orientações sobre como selecionar o avaliador certo para o seu caso de uso. Também pode criar avaliadores personalizados adaptados aos seus critérios específicos de avaliação.

Nota

O SDK Microsoft Foundry para avaliação e o portal Foundry estão em pré-visualização pública, mas as APIs estão geralmente disponíveis para avaliação de modelos e conjuntos de dados (a avaliação do agente permanece em pré-visualização pública). O SDK de Avaliação de IA do Azure e os avaliadores indicados como (pré-visualização) neste artigo estão atualmente em visualização pública em todo o mundo.

Avaliadores de propósito geral

Avaliador	Finalidade
Coerência	Mede a consistência lógica e o fluxo das respostas.
Fluência	Mede a qualidade e a legibilidade da linguagem natural.

Para saber mais, consulte Avaliadores de Propósito Geral.

Avaliadores de similaridade textual

Avaliador	Finalidade
Semelhança	Medição de similaridade textual assistida por IA.
Pontuação F1	A média harmónica de precisão e recordação em token sobrepõe-se entre resposta e verdade fundamental.
BLEU	Avaliação Bilingue A pontuação dos alunos para a qualidade da tradução mede sobreposições em n-gramas entre a resposta e a verdade fundamental.
GLEU	Google-BLEU, variante para avaliação ao nível da frase, mede sobreposições em n-gramas entre a resposta e a verdade base.
ROUGE	Recall-Oriented Understudy for Gisting Evaluation mede sobreposições em n-gramas entre a resposta e os dados de referência.
METEORO	Métrica para Avaliação da Tradução com Ordenação Explícita mede sobreposições de n-gramas entre resposta e referência.

Para saber mais, consulte Avaliadores de similaridade textual.

Avaliadores RAG

Avaliador	Finalidade
Recuperação	Mede a eficácia com que o sistema recupera informação relevante.
Recuperação de Documentos	Mede a precisão nos resultados obtidos em comparação com a verdade de base.
Enraizamento	Mede quão consistente é a resposta em relação ao contexto recuperado.
Groundedness Pro (pré-visualização)	Mede se a resposta é consistente em relação ao contexto recuperado.
Relevância	Mede a relevância da resposta relativamente à consulta.
Completude da Resposta	Mede até que ponto a resposta é completa (sem perder informação crítica) relativamente à verdade de base.

Para saber mais, consulte avaliadores de Geração Aumentada por Recuperação (RAG).

Avaliadores de risco e segurança

Avaliador	Finalidade
Ódio e Injustiça	Identifica conteúdos tendenciosos, discriminatórios ou de ódio.
Sexual	Identifica conteúdo sexual inadequado.
Violência	Deteta conteúdo violento ou incitação.
Auto-lesão	Deteta conteúdos que promovem ou descrevem automutilação.
Segurança de Conteúdos	Avaliação abrangente de várias preocupações de segurança.
Materiais Protegidos	Deteta o uso não autorizado de conteúdos com direitos de autor ou protegidos.
Vulnerabilidade no Código	Identifica problemas de segurança no código gerado.
Atributos Sem Fundamento	Deteta informação fabricada ou alucinada inferida a partir das interações com o utilizador.

Para saber mais, consulte Avaliadores de Risco e Segurança.

Avaliadores de agentes

Avaliador	Finalidade
Resolução de Intenções (prévia)	Mede a precisão com que o agente identifica e responde às intenções do utilizador.
Adesão à Tarefa (pré-visualização)	Mede quão bem o agente cumpre as tarefas identificadas.
Precisão das Chamadas de Ferramenta (pré-visualização)	Mede o quão bem o agente seleciona e utiliza as ferramentas corretas.

Para saber mais, consulte Avaliadores de Agentes.

Avaliadores do Azure OpenAI

Avaliador	Finalidade
Etiquetadora de Modelos	Classifica conteúdos usando diretrizes e rótulos personalizados.
Verificador de cordas	Realiza validações flexíveis de texto e correspondência de padrões.
Similaridade de Texto	Avalia a qualidade do texto ou determina a proximidade semântica.
Avaliador de Modelos	Gera pontuações numéricas (intervalo personalizado) para conteúdos com base em diretrizes personalizadas.

Para saber mais, consulte Azure OpenAI Graders.

Avaliadores personalizados

Para além dos avaliadores integrados, pode criar avaliadores personalizados adaptados aos seus critérios específicos de avaliação. Avaliadores personalizados permitem-lhe definir uma lógica de pontuação única, regras de validação e métricas de qualidade que estejam alinhadas com os requisitos do seu negócio e necessidades específicas da aplicação.

Para saber mais, consulte Avaliadores Personalizados.

Combinação de avaliadores

Para uma avaliação abrangente da qualidade, combine múltiplos avaliadores:

Aplicações RAG: Recuperação + Aterramento + Relevância + Segurança de Conteúdo
Aplicações de agentes: Precisão das Chamadas de Ferramenta + Adesão à Tarefa + Resolução de Intenções + Segurança de Conteúdo
Aplicações de tradução: BLEU + METEOR + Fluência + Coerência
Todas as aplicações: Adicione avaliadores de risco e segurança (Ódio e Injustiça, Sexual, Violência, Self-Harm) para práticas responsáveis de IA

Comentários

Esta página foi útil?

Last updated on 2026-05-01