Exibir resultados de avaliação no portal do Microsoft Foundry

Neste artigo, você aprenderá a:

  • Localize e abra as execuções de avaliação.
  • Exibir métricas de agregação e de nível de exemplo.
  • Comparar resultados entre execuções de testes.
  • Interpretar categorias de métrica e cálculos.
  • Solucionar problemas de métricas ausentes ou parciais.

Pré-requisitos

Veja os resultados da avaliação

  1. No portal do Foundry, acesse seu projeto e selecione Avaliação no painel esquerdo.

  2. Selecione uma execução de avaliação na lista para abrir sua página de detalhes. Se a execução ainda estiver em andamento, o status mostrará Em execução e será atualizado automaticamente quando concluído.

    A página de detalhes mostra:

    Campo Descrição
    Nome O nome da execução de teste.
    Objetivo O modelo ou agente que foi avaliado.
    Conjunto de dados O conjunto de dados de teste usado. Selecione o ícone de download para exportá-lo como um arquivo CSV.
    Status Status atual da execução (Em execução, concluída ou com falha).
    Tokens de avaliação Tokens consumidos pelos avaliadores durante a execução.
    Tokens de destino Tokens consumidos pelo modelo ou pelo agente que está sendo avaliado.
    Pontuações Pontuação agregada para cada avaliador utilizado.

    Captura de tela da página de Avaliação mostrando uma lista de execuções com as colunas Nome, Status, Destino, Tokens de avaliação, Tokens de destino e Pontuações.

  3. Passe o mouse sobre uma célula de pontuação para ver os detalhes de uso do token e o contexto adicional.

    Captura de tela da página de Avaliação com uma célula de pontuação destacada, mostrando um tooltip com a divisão do uso do token.

  4. Selecione Saiba mais sobre métricas para ver definições de métrica e fórmulas de pontuação.

Detalhes da execução de avaliação

Selecione o nome da execução para exibir os resultados em nível de linha para cada consulta individual. Para cada linha, você pode ver a consulta, a resposta, o dado real, a pontuação do avaliador e a explicação da pontuação.

Comparar os resultados da avaliação

Para comparar duas ou mais execuções, selecione as execuções que você deseja comparar e inicie o processo.

  1. Selecione duas ou mais execuções na página de detalhes da avaliação.
  2. Selecione Comparar.

Você verá uma exibição de comparação lado a lado para todas as execuções selecionadas.

A comparação usa testes t estatísticos, o que fornece resultados mais confidenciais e confiáveis para ajudá-lo a tomar decisões. Você pode usar diferentes funcionalidades deste recurso:

  • Comparação de linha de base: Ao definir uma execução como linha de base, você pode identificar um ponto de referência para comparar as outras execuções. Você pode ver como cada execução se desvia do padrão escolhido.
  • Avaliação estatística de teste t: cada célula fornece os resultados de stat-sig com códigos de cores diferentes. Você também pode passar o mouse sobre a célula para obter o tamanho de amostra e o valor p.
Legenda Definição
ImprovedStrong Com alta significância estatística (p<=0,001) e moveu-se na direção desejada
ImprovedWeak Stat-sig (0,001<p<=0,05) e movido na direção desejada
Forte Degradado Altamente estatisticamente significativo (p<=0,001) e movido na direção incorreta
DegradadoFraco Stat-sig (0,001<p<=0,05) e foi movido na direção errada
ChangedStrong Altamente estatisticamente significativo (p<=0,001) e a direção desejada é neutra
ChangedWeak Stat-sig (0,001<p<=0,05) e a direção desejada é neutra
Inconclusivo Poucos exemplos ou p>=0,05

Nota

A visualização de comparação não é salva. Se você sair da página, poderá resselecionar as execuções e selecionar Comparar para regenerar a exibição.

Entender as métricas de avaliação internas

Entender as métricas internas é essencial para avaliar o desempenho e a eficácia do aplicativo de IA. Ao aprender sobre essas principais ferramentas de medida, você pode interpretar os resultados, tomar decisões informadas e ajustar seu aplicativo para obter resultados ideais.

Para saber mais, consulte avaliadores internos.

Solucionando problemas

Sintoma Causa possível Ação
A execução permanece pendente Alta carga de serviço ou trabalhos na fila Atualizar, verificar cota e reenviar se prolongado
Métricas faltando Não selecionado na criação Executar novamente e selecionar as métricas necessárias
Todas as métricas de segurança estão zeradas. Categoria desabilitada ou modelo sem suporte Confirmar o suporte ao modelo e ao avaliador em avaliadores de risco e segurança
Aterramento inesperadamente baixo Recuperação/contexto incompleto Verificar construção de contexto / latência de recuperação