Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Exibição no momento:Versão do portal Foundry (clássico) - Alternar para a versão do novo portal Foundry
Importante
Itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou ter recursos restritos. Para obter mais informações, consulte Supplemental Terms of Use for Microsoft Azure Previews.
Microsoft Foundry fornece um conjunto abrangente de avaliadores internos para avaliar a qualidade, a segurança e a confiabilidade das respostas de IA em todo o ciclo de vida de desenvolvimento. Essa referência detalha todos os avaliadores disponíveis, suas finalidades, entradas necessárias e orientações sobre como selecionar o avaliador correto para seu caso de uso. Você também pode criar avaliadores personalizados adaptados aos critérios de avaliação específicos.
Nota
O SDK do Microsoft Foundry para avaliação e o portal do Foundry estão em versão prévia pública, mas as APIs geralmente estão disponíveis para avaliação de modelo e conjunto de dados (a avaliação do agente permanece em versão prévia pública). O SDK de Avaliação de IA do Azure e os avaliadores marcados (versão prévia) neste artigo estão atualmente em versão prévia pública em todos os lugares.
Avaliadores de finalidade geral
| Avaliador | Propósito |
|---|---|
| Coerência | Mede a consistência lógica e o fluxo de respostas. |
| Fluência | Mede a qualidade e a legibilidade da linguagem natural. |
Para saber mais, confira os avaliadores de uso geral.
Avaliadores de similaridade textual
| Avaliador | Propósito |
|---|---|
| Semelhança | Medida de similaridade textual assistida por IA. |
| Pontuação F1 | A média harmônica de precisão e recall no token se sobrepõe entre a resposta e a verdade básica. |
| BLEU | A pontuação de Subestudo de Avaliação Bilíngue para medidas de qualidade de tradução se sobrepõe em n-gramas entre a resposta e a verdade básica. |
| GLEU | Variante Google-BLEU para medidas de avaliação no nível da sentença que medem a sobreposição de n-gramas entre a resposta e a verdade de referência. |
| ROUGE | Recall-Oriented subesta para medidas de Avaliação de Gisting se sobrepõe em n-gramas entre a resposta e a verdade básica. |
| METEORO | A métrica para avaliação de tradução com ordenação explícita mede sobreposições em n-gramas entre a resposta e a verdade de referência. |
Para saber mais, confira os avaliadores de similaridade textual.
Avaliadores de RAG
| Avaliador | Propósito |
|---|---|
| Recuperação | Mede a eficiência com que o sistema recupera informações relevantes. |
| Recuperação de documento | Mede a precisão nos resultados de recuperação dada a verdade básica. |
| Estabilidade | Mede o quão consistente é a resposta em relação ao contexto recuperado. |
| Groundedness Pro (versão prévia) | Mede se a resposta é consistente com relação ao contexto recuperado. |
| Relevância | Mede o quão relevante é a resposta em relação à consulta. |
| Integridade da resposta | Mede até que ponto a resposta é completa (não faltando informações críticas) em relação à verdade de base. |
Para saber mais, confira os avaliadores de RAG (Geração Aumentada de Recuperação).
Avaliadores de risco e segurança
| Avaliador | Propósito |
|---|---|
| Ódio e injustiça | Identifica conteúdo tendencioso, discriminatório ou odioso. |
| Sexual | Identifica conteúdo sexual inadequado. |
| Violência | Detecta conteúdo violento ou incitação. |
| Automutilação | Detecta conteúdo que promove ou descreve a automutilação. |
| Segurança de conteúdo | Avaliação abrangente de várias questões de segurança. |
| Materiais protegidos | Detecta o uso não autorizado de conteúdo protegido ou protegido por direitos autorais. |
| Vulnerabilidade de código | Identifica problemas de segurança no código gerado. |
| Atributos não fundamentados | Detecta informações fabricadas ou alucinadas inferidas das interações do usuário. |
Para saber mais, consulte avaliadores de risco e segurança.
Avaliadores de agentes
| Avaliador | Propósito |
|---|---|
| Resolução de intenção (versão prévia) | Mede a precisão com que o agente identifica e aborda as intenções do usuário. |
| Conformidade com a Tarefa (versão prévia) | Mede o quão bem o agente conclui as tarefas identificadas. |
| Precisão de chamada de ferramenta (versão prévia) | Mede o quão bem o agente seleciona e chama as ferramentas corretas. |
Para saber mais, consulte Avaliadores de Agentes.
Azure alunos do OpenAI
| Avaliador | Propósito |
|---|---|
| Rotulador de Modelo | Classifica o conteúdo usando diretrizes e rótulos personalizados. |
| Verificador de cadeia de caracteres | Executa validações de texto flexíveis e correspondência de padrões. |
| Similaridade de texto | Avalia a qualidade do texto ou determina a proximidade semântica. |
| Avaliador de Modelos | Gera pontuações numéricas (intervalo personalizado) para conteúdo com base em diretrizes personalizadas. |
Para saber mais, consulte Azure OpenAI Avaliadores.
Avaliadores personalizados
Além dos avaliadores internos, você pode criar avaliadores personalizados adaptados aos critérios de avaliação específicos. Os avaliadores personalizados permitem definir lógica de pontuação exclusiva, regras de validação e métricas de qualidade que se alinham aos requisitos de negócios e às necessidades específicas do aplicativo.
Para saber mais, consulte avaliadores personalizados.
Combinando avaliadores
Para uma avaliação de qualidade abrangente, combine vários avaliadores:
- Aplicativos RAG: Recuperação + Aterramento + Relevância + Segurança de Conteúdo
- Aplicativos de agente: Precisão da Chamada de Ferramenta + Cumprimento de Tarefa + Resolução de Intenção + Segurança de Conteúdo
- Aplicativos de tradução: BLEU + METEOR + Fluência + Coerência
- Todos os aplicativos: adicionar avaliadores de risco e segurança (ódio e injustiça, sexual, violência, Self-Harm) para práticas de IA responsáveis
Conteúdo relacionado
- Observabilidade na IA generativa
- Avaliadores de finalidade geral
- Avaliadores de similaridade textual
- Avaliadores de Geração Aumentada de Recuperação (RAG)
- Avaliadores de risco e segurança
- Avaliadores de agentes
- Avaliadores Azure OpenAI
- Avaliadores personalizados
- Avaliar com o SDK do Foundry
- Avaliar aplicativos de IA generativos no Foundry