Referência de avaliadores incorporada (clássico)

Atualmente a ver:versão do portal Foundry (clássica) - Trocar para a versão do novo portal Foundry

Importante

Os itens marcados (pré-visualização) neste artigo encontram-se atualmente em pré-visualização pública. Esta pré-visualização é fornecida sem um acordo de nível de serviço, e não a recomendamos para cargas de trabalho em produção. Certas funcionalidades podem não ser suportadas ou podem ter capacidades limitadas. Para mais informações, consulte Termos de Utilização Suplementares para Microsoft Azure Pré-visualizações.

A Microsoft Foundry disponibiliza um conjunto abrangente de avaliadores integrados para avaliar a qualidade, segurança e fiabilidade das respostas da IA ao longo do ciclo de vida do desenvolvimento. Esta referência detalha todos os avaliadores disponíveis, os seus propósitos, entradas necessárias e orientações sobre como selecionar o avaliador certo para o seu caso de uso. Também pode criar avaliadores personalizados adaptados aos seus critérios específicos de avaliação.

Nota

O SDK Microsoft Foundry para avaliação e o portal Foundry estão em pré-visualização pública, mas as APIs estão geralmente disponíveis para avaliação de modelos e conjuntos de dados (a avaliação do agente permanece em pré-visualização pública). O SDK de Avaliação de IA do Azure e os avaliadores indicados como (pré-visualização) neste artigo estão atualmente em visualização pública em todo o mundo.

Avaliadores de propósito geral

Avaliador Finalidade
Coerência Mede a consistência lógica e o fluxo das respostas.
Fluência Mede a qualidade e a legibilidade da linguagem natural.

Para saber mais, consulte Avaliadores de Propósito Geral.

Avaliadores de similaridade textual

Avaliador Finalidade
Semelhança Medição de similaridade textual assistida por IA.
Pontuação F1 A média harmónica de precisão e recordação em token sobrepõe-se entre resposta e verdade fundamental.
BLEU Avaliação Bilingue A pontuação dos alunos para a qualidade da tradução mede sobreposições em n-gramas entre a resposta e a verdade fundamental.
GLEU Google-BLEU, variante para avaliação ao nível da frase, mede sobreposições em n-gramas entre a resposta e a verdade base.
ROUGE Recall-Oriented Understudy for Gisting Evaluation mede sobreposições em n-gramas entre a resposta e os dados de referência.
METEORO Métrica para Avaliação da Tradução com Ordenação Explícita mede sobreposições de n-gramas entre resposta e referência.

Para saber mais, consulte Avaliadores de similaridade textual.

Avaliadores RAG

Avaliador Finalidade
Recuperação Mede a eficácia com que o sistema recupera informação relevante.
Recuperação de Documentos Mede a precisão nos resultados obtidos em comparação com a verdade de base.
Enraizamento Mede quão consistente é a resposta em relação ao contexto recuperado.
Groundedness Pro (pré-visualização) Mede se a resposta é consistente em relação ao contexto recuperado.
Relevância Mede a relevância da resposta relativamente à consulta.
Completude da Resposta Mede até que ponto a resposta é completa (sem perder informação crítica) relativamente à verdade de base.

Para saber mais, consulte avaliadores de Geração Aumentada por Recuperação (RAG).

Avaliadores de risco e segurança

Avaliador Finalidade
Ódio e Injustiça Identifica conteúdos tendenciosos, discriminatórios ou de ódio.
Sexual Identifica conteúdo sexual inadequado.
Violência Deteta conteúdo violento ou incitação.
Auto-lesão Deteta conteúdos que promovem ou descrevem automutilação.
Segurança de Conteúdos Avaliação abrangente de várias preocupações de segurança.
Materiais Protegidos Deteta o uso não autorizado de conteúdos com direitos de autor ou protegidos.
Vulnerabilidade no Código Identifica problemas de segurança no código gerado.
Atributos Sem Fundamento Deteta informação fabricada ou alucinada inferida a partir das interações com o utilizador.

Para saber mais, consulte Avaliadores de Risco e Segurança.

Avaliadores de agentes

Avaliador Finalidade
Resolução de Intenções (prévia) Mede a precisão com que o agente identifica e responde às intenções do utilizador.
Adesão à Tarefa (pré-visualização) Mede quão bem o agente cumpre as tarefas identificadas.
Precisão das Chamadas de Ferramenta (pré-visualização) Mede o quão bem o agente seleciona e utiliza as ferramentas corretas.

Para saber mais, consulte Avaliadores de Agentes.

Avaliadores do Azure OpenAI

Avaliador Finalidade
Etiquetadora de Modelos Classifica conteúdos usando diretrizes e rótulos personalizados.
Verificador de cordas Realiza validações flexíveis de texto e correspondência de padrões.
Similaridade de Texto Avalia a qualidade do texto ou determina a proximidade semântica.
Avaliador de Modelos Gera pontuações numéricas (intervalo personalizado) para conteúdos com base em diretrizes personalizadas.

Para saber mais, consulte Azure OpenAI Graders.

Avaliadores personalizados

Para além dos avaliadores integrados, pode criar avaliadores personalizados adaptados aos seus critérios específicos de avaliação. Avaliadores personalizados permitem-lhe definir uma lógica de pontuação única, regras de validação e métricas de qualidade que estejam alinhadas com os requisitos do seu negócio e necessidades específicas da aplicação.

Para saber mais, consulte Avaliadores Personalizados.

Combinação de avaliadores

Para uma avaliação abrangente da qualidade, combine múltiplos avaliadores:

  • Aplicações RAG: Recuperação + Aterramento + Relevância + Segurança de Conteúdo
  • Aplicações de agentes: Precisão das Chamadas de Ferramenta + Adesão à Tarefa + Resolução de Intenções + Segurança de Conteúdo
  • Aplicações de tradução: BLEU + METEOR + Fluência + Coerência
  • Todas as aplicações: Adicione avaliadores de risco e segurança (Ódio e Injustiça, Sexual, Violência, Self-Harm) para práticas responsáveis de IA