Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Important
Itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou ter recursos restritos. Para obter mais informações, consulte Supplemental Terms of Use for Microsoft Azure Previews.
Microsoft Foundry inclui avaliadores internos para avaliar a qualidade, a segurança e a confiabilidade das respostas de IA em todo o ciclo de vida de desenvolvimento. Essa referência lista todos os avaliadores disponíveis, suas finalidades e diretrizes sobre como selecionar o correto para seu caso de uso. Você também pode criar avaliadores personalizados adaptados aos critérios de avaliação específicos.
Avaliadores de finalidade geral
| Evaluator | Purpose |
|---|---|
| Coherence | Mede a consistência lógica e o fluxo de respostas. |
| Fluency | Mede a qualidade e a legibilidade da linguagem natural. |
Para saber mais, confira os avaliadores de uso geral.
Avaliadores de similaridade textual
| Evaluator | Purpose |
|---|---|
| Similarity | Medida de similaridade textual assistida por IA. |
| F1 Score | A média harmônica de precisão e recall no token se sobrepõe entre a resposta e a verdade básica. |
| BLEU | A pontuação de Subestudo de Avaliação Bilíngue para medidas de qualidade de tradução se sobrepõe em n-gramas entre a resposta e a verdade básica. |
| GLEU | Google-BLEU variante para medidas de avaliação em nível de frase se sobrepõe em n-gramas entre resposta e verdade fundamentada. |
| ROUGE | Recall-Oriented Understudy for Gisting Avaliação mede sobreposições em n-gramas entre resposta e verdade de base. |
| METEOR | A métrica para avaliação de tradução com medidas de ordenação explícita se sobrepõe em n-gramas entre a resposta e a verdade do solo. |
Para saber mais, confira os avaliadores de similaridade textual.
RAG evaluators
| Evaluator | Purpose |
|---|---|
| Retrieval | Mede a eficiência com que o sistema recupera informações relevantes. |
| Document Retrieval | Mede a precisão nos resultados de recuperação dada a verdade básica. |
| Groundedness | Mede o quão fundamentada a resposta está no contexto recuperado. Retorna uma pontuação de 1 a 5 usando um julgamento baseado em modelo. |
| Aterramento Pro (versão prévia) | Mede se a resposta está fundamentada no contexto recuperado usando o serviço Segurança de Conteúdo de IA do Azure. Retorna uma passagem/falha binária sem a necessidade de uma implantação de modelo. |
| Relevance | Mede o quão relevante é a resposta em relação à consulta. |
| Integridade da resposta (versão prévia) | Medidas até que ponto a resposta é completa (não faltando informações críticas) em relação à verdade básica. |
Para saber mais, confira os avaliadores de RAG (Geração Aumentada de Recuperação).
Avaliadores de risco e segurança
| Evaluator | Purpose |
|---|---|
| Ódio e injustiça | Identifica conteúdo tendencioso, discriminatório ou odioso. |
| Sexual | Identifica conteúdo sexual inadequado. |
| Violence | Detecta conteúdo violento ou incitação. |
| Self-Harm | Detecta conteúdo que promove ou descreve a automutilação. |
| Protected Materials | Detecta o uso não autorizado de conteúdo protegido ou protegido por direitos autorais. |
| Ataque indireto (XPIA) | Mede se a resposta caiu para uma tentativa indireta de jailbreak injetada por meio do contexto recuperado. |
| Code Vulnerability | Identifica problemas de segurança no código gerado. |
| Ungrounded Attributes | Detecta informações fabricadas ou alucinadas inferidas das interações do usuário. |
| Ações Proibidas (versão prévia) | Mede a capacidade de um agente de IA de se envolver em comportamentos que violam ações explicitamente não permitidas. |
| Vazamento de Dados Confidenciais (versão prévia) | Mede a vulnerabilidade de um agente de IA para expor informações confidenciais. |
Para saber mais, consulte avaliadores de risco e segurança.
Agent evaluators
| Evaluator | Purpose |
|---|---|
| Adesão à tarefa (versão prévia) | Mede se o agente segue em tarefas identificadas de acordo com as instruções do sistema. |
| Conclusão da tarefa (versão prévia) | Mede se o agente concluiu com êxito a tarefa solicitada de ponta a ponta. |
| Resolução de intenção (versão prévia) | Mede a precisão com que o agente identifica e aborda as intenções do usuário. |
| Eficiência de navegação da tarefa | Determina se a sequência de etapas do agente corresponde a um caminho ideal ou esperado para medir a eficiência. |
| Precisão de chamada de ferramenta | Mede a qualidade geral das chamadas de ferramenta, incluindo seleção, correção de parâmetro e eficiência. |
| Tool Selection | Mede se o agente selecionou as ferramentas mais apropriadas e eficientes para uma tarefa. |
| Precisão da entrada da ferramenta | Valida que todos os parâmetros de chamada de ferramenta estão corretos com critérios estritos, incluindo aterramento, tipo, formato, integridade e adequação. |
| Utilização da saída da ferramenta | Mede se o agente interpreta e usa corretamente as saídas da ferramenta contextualmente em respostas e chamadas subsequentes. |
| Êxito na chamada de ferramenta | Avalia se todas as chamadas de ferramenta foram executadas com êxito sem falhas técnicas. |
Para saber mais, consulte os avaliadores do Agente.
Azure alunos do OpenAI
| Evaluator | Purpose |
|---|---|
| Model Labeler | Classifica o conteúdo usando diretrizes e rótulos personalizados. |
| String Checker | Executa validações de texto flexíveis e correspondência de padrões. |
| Text Similarity | Avalia a qualidade do texto ou determina a proximidade semântica. |
| Model Scorer | Gera pontuações numéricas (intervalo personalizado) para conteúdo com base em diretrizes personalizadas. |
Para saber mais, consulte Azure Graderes OpenAI.
Avaliadores personalizados (versão prévia)
Além dos avaliadores internos, você pode criar avaliadores personalizados adaptados aos critérios de avaliação específicos. Os avaliadores personalizados permitem definir lógica de pontuação exclusiva, regras de validação e métricas de qualidade que se alinham aos requisitos de negócios e às necessidades específicas do aplicativo.
Para saber mais, consulte avaliadores personalizados.
Combining evaluators
Para uma avaliação de qualidade abrangente, combine vários avaliadores:
- Aplicativos RAG: Recuperação + Aterramento + Relevância + Segurança de Conteúdo
- Aplicativos de agente: Precisão de Chamada de Ferramenta + Adesão de Tarefa + Resolução de Intenção + Segurança de Conteúdo
- Aplicativos de tradução: BLEU + METEOR + Fluência + Coerência
- Todos os aplicativos: adicionar avaliadores de risco e segurança (ódio e injustiça, sexual, violência, Self-Harm) para práticas de IA responsáveis