Analisar os resultados da avaliação com análise de cluster (versão prévia)

Importante

Itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou ter recursos restritos. Para obter mais informações, consulte Supplemental Terms of Use for Microsoft Azure Previews.

Depois de executar uma ou mais rodadas de avaliação, é possível gerar uma análise de agrupamento da avaliação para entender os resultados. Essa análise fornece uma maneira intuitiva de identificar os principais padrões e erros em suas execuções de avaliação, juntamente com as próximas etapas recomendadas para melhorar as pontuações do avaliador.

Este artigo explica como gerar e interagir com uma análise de cluster de avaliação.

Pré-requisitos

Gerar uma análise de cluster de avaliação

  1. Na página de detalhes da avaliação, selecione uma ou mais sessões de avaliação concluídas.
  2. Selecione a análise de cluster. Uma janela de instalação é aberta mostrando o tempo estimado e o uso do token com base no número de exemplos nas execuções selecionadas.
  3. Selecione um modelo na lista suspensa a ser usado para gerar a análise.
  4. Selecione Gerar. A análise é gerada e o mapa do cluster é aberto automaticamente.

Captura de tela da janela de configuração de análise de cluster mostrando a lista suspensa de seleção de modelo e o uso estimado do token.

Importante

O resultado da análise não é armazenado. Se você sair da página, o resultado será perdido. Para salvar uma cópia, baixe o relatório antes de navegar.

Exibir análise de cluster

A análise de cluster fornece uma visualização intuitiva do desempenho agrupando exemplos de resultados de avaliação com problemas ou padrões de resposta semelhantes. Ele ajuda você a identificar rapidamente tipos de falha recorrentes, entender a distribuição entre categorias de erro e priorizar áreas de melhoria.

Captura de tela da página de análise do cluster.

Na parte superior da exibição, as estatísticas de resumo da execução de avaliação são exibidas:

  • Total de exemplos – número total de respostas avaliadas (por exemplo, 48).
  • Clusters – número de clusters identificados automaticamente (por exemplo, 2).
  • Sucesso/falha – detalhamento de amostras bem-sucedidas versus problemáticas.
  • Pontuação Média – A pontuação média de qualidade geral para a execução.

Nota

Passe o mouse sobre um rótulo de ponto ou cluster para revelar informações detalhadas, incluindo respostas de exemplo e comentários do avaliador. Selecione para abrir o painel de detalhes.

Visualização

Cada ponto representa um exemplo do conjunto de dados de avaliação. Os pontos são agrupados por similaridade semântica, usando agrupamento baseado em incorporação de saídas de modelo e sinais de feedback.

  • Cor: indica a atribuição do cluster (por exemplo, resposta final inadequada ou resposta incorreta).
  • Posição: os exemplos mais próximos compartilham características ou problemas semelhantes.

Painel de detalhes

Aglomerado

Selecionar um cluster abre um painel lateral que inclui:

  • Cluster selecionado – Nome do grupo de problemas de nível superior.
  • Contagem de entradas – número total de exemplos dentro desse cluster.
  • Subclusters – Divisão de subcategorias relacionadas.
  • Descrição – resumo de diagnóstico gerado automaticamente explicando a causa provável ou o padrão de característica
  • Recomendações: as próximas etapas sugeridas para mitigação ou aprimoramento do agente.

Captura de tela de um cluster selecionado com o painel lateral aberto.

Subcluster

Selecionar um subcluster abre um painel lateral que inclui:

  • Cluster – Indica o cluster pai ao qual este subcluster pertence (por exemplo, resposta_final_inadequada).
  • Subconjunto selecionado – o subconjunto específico que está sendo examinado (por exemplo: invalid_or_missing_api_key).
  • Contagem de entradas – número de amostras individuais agrupadas sob esse subcluster.
  • Guias
    • Análise – Fornece estatísticas resumidas, médias de pontuação e insights qualitativos (quando disponíveis).
    • Entradas – Lista cada exemplo (ID de entrada) no subcluster com suas pontuações individuais, como fluência, fundamentação ou precisão.

Captura de tela de um subcluster selecionado com o painel lateral aberto.

ID de entrada

Selecionar o identificador de ponto/entrada abre um painel lateral que inclui:

  • Hierarquia de cluster
    • Exibe o caminho completo de onde essa entrada pertence: Cluster → Subcluster → ID de Entrada. Por exemplo, inadequate_final_answer → invalid_or_missing_api_key → ID de Entrada: 17-fluência.
  • Guias
  • Conversa – Mostra a interação de texto completo para o exemplo selecionado:
    • Resumo de Contexto (se aplicável) – qualquer contexto anterior ou em segundo plano usado na avaliação.
    • Consulta – O prompt de modelo ou a pergunta do usuário (por exemplo, "Como enviar uma declaração de reembolso do FSA?").
    • Resposta – A saída gerada do modelo para essa consulta.
  • Metadados – Contém informações de avaliação adicionais, como pontuações, avaliadores, carimbos de data/hora, IDs do agente e IDs de rastreamento.

Captura de tela da seleção da ID de entrada com o painel lateral aberto.

Painel de filtro

O painel de filtro no lado direito da visualização de análise de cluster permite personalizar como os clusters são exibidos para inspeção direcionada.

  • Organizar por cor
    • Permite ajustar como os exemplos são codificados por cores na visualização.
    • As opções normalmente incluem:
      • Cluster – Amostras de cores agrupadas por categoria principal de problema.
      • Subcluster – Agrupa amostras de cores em subcategorias mais detalhadas dentro de cada cluster.
      • Ou resultado da avaliação, tipo de avaliação, pontuação e ID do agente.

Captura de tela do painel de filtros da análise de clusters.

  • Filtragem avançada
    • Fornece ferramentas para concentrar a visualização em subconjuntos específicos de dados.
    • Você pode definir filtros com base em metadados ou atributos de avaliação.
      • Selecione Parâmetro – Escolha em qual campo filtrar (por exemplo, pontuação, tipo de avaliador, carimbo de data/hora).
      • Igual/Contém/Não é igual – defina a condição para filtragem.
      • Selecionar Valor – Escolha ou insira o valor específico para corresponder.
      • Adicionar Filtro – Aplique a condição para atualizar a exibição dinamicamente.

Captura de tela da filtragem avançada da análise de cluster.

Baixar a análise

Para exibir a análise offline, selecione baixar para obter uma cópia da análise no formato CSV e exibi-la em outros aplicativos.

Nota

O resultado da análise não é armazenado. Se você sair da página, o resultado da análise será perdido.

Próximas etapas

Use os insights da análise de cluster para:

  • Refinar prompts – atualize as instruções do agente para resolver padrões de falha recorrentes identificados nos clusters.
  • Retreinar ou ajustar – use categorias de falha identificadas como sinal para ajuste fino de curadoria de dados.
  • Reavaliar – Depois de fazer alterações, execute uma nova avaliação e gere uma nova análise de cluster para comparar os resultados. Consulte Executar avaliações a partir do SDK.

Solucionando problemas

Sintoma Causa provável Corrigir
O botão de análise de cluster não está disponível Nenhuma execução concluída de avaliação foi selecionada Selecione pelo menos uma execução de avaliação concluída na página de detalhes da avaliação antes de selecionar a análise de cluster.
Nenhum modelo é exibido na janela de geração Nenhum modelo é implantado no projeto Implante um modelo em seu projeto. Consulte Criar implantações de modelo.
Falha na geração de análise ou tempo limite excedido Volume de dados muito grande ou restrição de serviço Reduza o número de execuções de avaliação selecionadas ou tente novamente mais tarde.
A análise desaparece após sair da página Os resultados não são persistidos Execute a análise do cluster novamente e baixe os resultados antes de navegar para longe.