Exibir resultados de avaliação no portal do Microsoft Foundry

Neste artigo, você aprenderá a:

Localize e abra as execuções de avaliação.
Exibir métricas de agregação e de nível de exemplo.
Comparar resultados entre execuções de testes.
Interpretar categorias de métrica e cálculos.
Solucionar problemas de métricas ausentes ou parciais.

Pré-requisitos

Função de Usuário do Azure AI no projeto Foundry. Para obter mais informações, consulte o controle de acesso baseado em funções para o Microsoft Foundry.
Uma execução de avaliação concluída.
- Para executar avaliações no portal, consulte Avaliar modelos e aplicativos de IA generativos.
- Para executar avaliações do SDK, consulte Executar avaliações do SDK ou avaliar seus agentes de IA.

Veja os resultados da avaliação

No portal do Foundry, acesse seu projeto e selecione Avaliação no painel esquerdo.

Selecione uma execução de avaliação na lista para abrir sua página de detalhes. Se a execução ainda estiver em andamento, o status mostrará Em execução e será atualizado automaticamente quando concluído.

A página de detalhes mostra:

Campo	Descrição
Nome	O nome da execução de teste.
Objetivo	O modelo ou agente que foi avaliado.
Conjunto de dados	O conjunto de dados de teste usado. Selecione o ícone de download para exportá-lo como um arquivo CSV.
Status	Status atual da execução (Em execução, concluída ou com falha).
Tokens de avaliação	Tokens consumidos pelos avaliadores durante a execução.
Tokens de destino	Tokens consumidos pelo modelo ou pelo agente que está sendo avaliado.
Pontuações	Pontuação agregada para cada avaliador utilizado.

Passe o mouse sobre uma célula de pontuação para ver os detalhes de uso do token e o contexto adicional.
Selecione Saiba mais sobre métricas para ver definições de métrica e fórmulas de pontuação.

Detalhes da execução de avaliação

Selecione o nome da execução para exibir os resultados em nível de linha para cada consulta individual. Para cada linha, você pode ver a consulta, a resposta, o dado real, a pontuação do avaliador e a explicação da pontuação.

Comparar os resultados da avaliação

Para comparar duas ou mais execuções, selecione as execuções que você deseja comparar e inicie o processo.

Selecione duas ou mais execuções na página de detalhes da avaliação.
Selecione Comparar.

Você verá uma exibição de comparação lado a lado para todas as execuções selecionadas.

A comparação usa testes t estatísticos, o que fornece resultados mais confidenciais e confiáveis para ajudá-lo a tomar decisões. Você pode usar diferentes funcionalidades deste recurso:

Comparação de linha de base: Ao definir uma execução como linha de base, você pode identificar um ponto de referência para comparar as outras execuções. Você pode ver como cada execução se desvia do padrão escolhido.
Avaliação estatística de teste t: cada célula fornece os resultados de stat-sig com códigos de cores diferentes. Você também pode passar o mouse sobre a célula para obter o tamanho de amostra e o valor p.

Legenda	Definição
ImprovedStrong	Com alta significância estatística (p<=0,001) e moveu-se na direção desejada
ImprovedWeak	Stat-sig (0,001<p<=0,05) e movido na direção desejada
Forte Degradado	Altamente estatisticamente significativo (p<=0,001) e movido na direção incorreta
DegradadoFraco	Stat-sig (0,001<p<=0,05) e foi movido na direção errada
ChangedStrong	Altamente estatisticamente significativo (p<=0,001) e a direção desejada é neutra
ChangedWeak	Stat-sig (0,001<p<=0,05) e a direção desejada é neutra
Inconclusivo	Poucos exemplos ou p>=0,05

Nota

A visualização de comparação não é salva. Se você sair da página, poderá resselecionar as execuções e selecionar Comparar para regenerar a exibição.

Entender as métricas de avaliação internas

Entender as métricas internas é essencial para avaliar o desempenho e a eficácia do aplicativo de IA. Ao aprender sobre essas principais ferramentas de medida, você pode interpretar os resultados, tomar decisões informadas e ajustar seu aplicativo para obter resultados ideais.

Para saber mais, consulte avaliadores internos.

Solucionando problemas

Sintoma	Causa possível	Ação
A execução permanece pendente	Alta carga de serviço ou trabalhos na fila	Atualizar, verificar cota e reenviar se prolongado
Métricas faltando	Não selecionado na criação	Executar novamente e selecionar as métricas necessárias
Todas as métricas de segurança estão zeradas.	Categoria desabilitada ou modelo sem suporte	Confirmar o suporte ao modelo e ao avaliador em avaliadores de risco e segurança
Aterramento inesperadamente baixo	Recuperação/contexto incompleto	Verificar construção de contexto / latência de recuperação

Comentários

Esta página foi útil?

Last updated on 2026-05-01