Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Atualmente a ver:versão do portal Foundry (clássica) - Trocar para a versão do novo portal Foundry
Importante
Os itens marcados (pré-visualização) neste artigo encontram-se atualmente em pré-visualização pública. Esta pré-visualização é fornecida sem um acordo de nível de serviço, e não a recomendamos para cargas de trabalho em produção. Certas funcionalidades podem não ser suportadas ou podem ter capacidades limitadas. Para mais informações, consulte Termos de Utilização Suplementares para Microsoft Azure Pré-visualizações.
A Microsoft Foundry disponibiliza um conjunto abrangente de avaliadores integrados para avaliar a qualidade, segurança e fiabilidade das respostas da IA ao longo do ciclo de vida do desenvolvimento. Esta referência detalha todos os avaliadores disponíveis, os seus propósitos, entradas necessárias e orientações sobre como selecionar o avaliador certo para o seu caso de uso. Também pode criar avaliadores personalizados adaptados aos seus critérios específicos de avaliação.
Nota
O SDK Microsoft Foundry para avaliação e o portal Foundry estão em pré-visualização pública, mas as APIs estão geralmente disponíveis para avaliação de modelos e conjuntos de dados (a avaliação do agente permanece em pré-visualização pública). O SDK de Avaliação de IA do Azure e os avaliadores indicados como (pré-visualização) neste artigo estão atualmente em visualização pública em todo o mundo.
Avaliadores de propósito geral
| Avaliador | Finalidade |
|---|---|
| Coerência | Mede a consistência lógica e o fluxo das respostas. |
| Fluência | Mede a qualidade e a legibilidade da linguagem natural. |
Para saber mais, consulte Avaliadores de Propósito Geral.
Avaliadores de similaridade textual
| Avaliador | Finalidade |
|---|---|
| Semelhança | Medição de similaridade textual assistida por IA. |
| Pontuação F1 | A média harmónica de precisão e recordação em token sobrepõe-se entre resposta e verdade fundamental. |
| BLEU | Avaliação Bilingue A pontuação dos alunos para a qualidade da tradução mede sobreposições em n-gramas entre a resposta e a verdade fundamental. |
| GLEU | Google-BLEU, variante para avaliação ao nível da frase, mede sobreposições em n-gramas entre a resposta e a verdade base. |
| ROUGE | Recall-Oriented Understudy for Gisting Evaluation mede sobreposições em n-gramas entre a resposta e os dados de referência. |
| METEORO | Métrica para Avaliação da Tradução com Ordenação Explícita mede sobreposições de n-gramas entre resposta e referência. |
Para saber mais, consulte Avaliadores de similaridade textual.
Avaliadores RAG
| Avaliador | Finalidade |
|---|---|
| Recuperação | Mede a eficácia com que o sistema recupera informação relevante. |
| Recuperação de Documentos | Mede a precisão nos resultados obtidos em comparação com a verdade de base. |
| Enraizamento | Mede quão consistente é a resposta em relação ao contexto recuperado. |
| Groundedness Pro (pré-visualização) | Mede se a resposta é consistente em relação ao contexto recuperado. |
| Relevância | Mede a relevância da resposta relativamente à consulta. |
| Completude da Resposta | Mede até que ponto a resposta é completa (sem perder informação crítica) relativamente à verdade de base. |
Para saber mais, consulte avaliadores de Geração Aumentada por Recuperação (RAG).
Avaliadores de risco e segurança
| Avaliador | Finalidade |
|---|---|
| Ódio e Injustiça | Identifica conteúdos tendenciosos, discriminatórios ou de ódio. |
| Sexual | Identifica conteúdo sexual inadequado. |
| Violência | Deteta conteúdo violento ou incitação. |
| Auto-lesão | Deteta conteúdos que promovem ou descrevem automutilação. |
| Segurança de Conteúdos | Avaliação abrangente de várias preocupações de segurança. |
| Materiais Protegidos | Deteta o uso não autorizado de conteúdos com direitos de autor ou protegidos. |
| Vulnerabilidade no Código | Identifica problemas de segurança no código gerado. |
| Atributos Sem Fundamento | Deteta informação fabricada ou alucinada inferida a partir das interações com o utilizador. |
Para saber mais, consulte Avaliadores de Risco e Segurança.
Avaliadores de agentes
| Avaliador | Finalidade |
|---|---|
| Resolução de Intenções (prévia) | Mede a precisão com que o agente identifica e responde às intenções do utilizador. |
| Adesão à Tarefa (pré-visualização) | Mede quão bem o agente cumpre as tarefas identificadas. |
| Precisão das Chamadas de Ferramenta (pré-visualização) | Mede o quão bem o agente seleciona e utiliza as ferramentas corretas. |
Para saber mais, consulte Avaliadores de Agentes.
Avaliadores do Azure OpenAI
| Avaliador | Finalidade |
|---|---|
| Etiquetadora de Modelos | Classifica conteúdos usando diretrizes e rótulos personalizados. |
| Verificador de cordas | Realiza validações flexíveis de texto e correspondência de padrões. |
| Similaridade de Texto | Avalia a qualidade do texto ou determina a proximidade semântica. |
| Avaliador de Modelos | Gera pontuações numéricas (intervalo personalizado) para conteúdos com base em diretrizes personalizadas. |
Para saber mais, consulte Azure OpenAI Graders.
Avaliadores personalizados
Para além dos avaliadores integrados, pode criar avaliadores personalizados adaptados aos seus critérios específicos de avaliação. Avaliadores personalizados permitem-lhe definir uma lógica de pontuação única, regras de validação e métricas de qualidade que estejam alinhadas com os requisitos do seu negócio e necessidades específicas da aplicação.
Para saber mais, consulte Avaliadores Personalizados.
Combinação de avaliadores
Para uma avaliação abrangente da qualidade, combine múltiplos avaliadores:
- Aplicações RAG: Recuperação + Aterramento + Relevância + Segurança de Conteúdo
- Aplicações de agentes: Precisão das Chamadas de Ferramenta + Adesão à Tarefa + Resolução de Intenções + Segurança de Conteúdo
- Aplicações de tradução: BLEU + METEOR + Fluência + Coerência
- Todas as aplicações: Adicione avaliadores de risco e segurança (Ódio e Injustiça, Sexual, Violência, Self-Harm) para práticas responsáveis de IA
Conteúdo relacionado
- Observabilidade em IA generativa
- Avaliadores de propósito geral
- Avaliadores de similaridade textual
- Avaliadores de Geração Aumentada por Recuperação (RAG)
- Avaliadores de risco e segurança
- Avaliadores de agentes
- Avaliadores Azure OpenAI
- Avaliadores personalizados
- Avalie com o SDK da Foundry
- Avaliar aplicações de IA generativa na Foundry