Analisar os resultados da avaliação com análise de cluster (versão prévia)

Importante

Itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou ter recursos restritos. Para obter mais informações, consulte Supplemental Terms of Use for Microsoft Azure Previews.

Depois de executar uma ou mais rodadas de avaliação, é possível gerar uma análise de agrupamento da avaliação para entender os resultados. Essa análise fornece uma maneira intuitiva de identificar os principais padrões e erros em suas execuções de avaliação, juntamente com as próximas etapas recomendadas para melhorar as pontuações do avaliador.

Este artigo explica como gerar e interagir com uma análise de cluster de avaliação.

Pré-requisitos

Um projeto do Foundry.
Uma ou mais rodadas de avaliação concluídas.
Um modelo implantado em seu projeto a ser usado para a geração de análise de cluster. Para saber mais, confira Criar implantações de modelo.

Gerar uma análise de cluster de avaliação

Na página de detalhes da avaliação, selecione uma ou mais sessões de avaliação concluídas.
Selecione a análise de cluster. Uma janela de instalação é aberta mostrando o tempo estimado e o uso do token com base no número de exemplos nas execuções selecionadas.
Selecione um modelo na lista suspensa a ser usado para gerar a análise.
Selecione Gerar. A análise é gerada e o mapa do cluster é aberto automaticamente.

Importante

O resultado da análise não é armazenado. Se você sair da página, o resultado será perdido. Para salvar uma cópia, baixe o relatório antes de navegar.

Exibir análise de cluster

A análise de cluster fornece uma visualização intuitiva do desempenho agrupando exemplos de resultados de avaliação com problemas ou padrões de resposta semelhantes. Ele ajuda você a identificar rapidamente tipos de falha recorrentes, entender a distribuição entre categorias de erro e priorizar áreas de melhoria.

Na parte superior da exibição, as estatísticas de resumo da execução de avaliação são exibidas:

Total de exemplos – número total de respostas avaliadas (por exemplo, 48).
Clusters – número de clusters identificados automaticamente (por exemplo, 2).
Sucesso/falha – detalhamento de amostras bem-sucedidas versus problemáticas.
Pontuação Média – A pontuação média de qualidade geral para a execução.

Nota

Passe o mouse sobre um rótulo de ponto ou cluster para revelar informações detalhadas, incluindo respostas de exemplo e comentários do avaliador. Selecione para abrir o painel de detalhes.

Visualização

Cada ponto representa um exemplo do conjunto de dados de avaliação. Os pontos são agrupados por similaridade semântica, usando agrupamento baseado em incorporação de saídas de modelo e sinais de feedback.

Cor: indica a atribuição do cluster (por exemplo, resposta final inadequada ou resposta incorreta).
Posição: os exemplos mais próximos compartilham características ou problemas semelhantes.

Painel de detalhes

Aglomerado

Selecionar um cluster abre um painel lateral que inclui:

Cluster selecionado – Nome do grupo de problemas de nível superior.
Contagem de entradas – número total de exemplos dentro desse cluster.
Subclusters – Divisão de subcategorias relacionadas.
Descrição – resumo de diagnóstico gerado automaticamente explicando a causa provável ou o padrão de característica
Recomendações: as próximas etapas sugeridas para mitigação ou aprimoramento do agente.

Subcluster

Selecionar um subcluster abre um painel lateral que inclui:

Cluster – Indica o cluster pai ao qual este subcluster pertence (por exemplo, resposta_final_inadequada).
Subconjunto selecionado – o subconjunto específico que está sendo examinado (por exemplo: invalid_or_missing_api_key).
Contagem de entradas – número de amostras individuais agrupadas sob esse subcluster.
Guias
- Análise – Fornece estatísticas resumidas, médias de pontuação e insights qualitativos (quando disponíveis).
- Entradas – Lista cada exemplo (ID de entrada) no subcluster com suas pontuações individuais, como fluência, fundamentação ou precisão.

ID de entrada

Selecionar o identificador de ponto/entrada abre um painel lateral que inclui:

Hierarquia de cluster
- Exibe o caminho completo de onde essa entrada pertence: Cluster → Subcluster → ID de Entrada. Por exemplo, inadequate_final_answer → invalid_or_missing_api_key → ID de Entrada: 17-fluência.
Guias
Conversa – Mostra a interação de texto completo para o exemplo selecionado:
- Resumo de Contexto (se aplicável) – qualquer contexto anterior ou em segundo plano usado na avaliação.
- Consulta – O prompt de modelo ou a pergunta do usuário (por exemplo, "Como enviar uma declaração de reembolso do FSA?").
- Resposta – A saída gerada do modelo para essa consulta.
Metadados – Contém informações de avaliação adicionais, como pontuações, avaliadores, carimbos de data/hora, IDs do agente e IDs de rastreamento.

O painel de filtro no lado direito da visualização de análise de cluster permite personalizar como os clusters são exibidos para inspeção direcionada.

Organizar por cor
- Permite ajustar como os exemplos são codificados por cores na visualização.
- As opções normalmente incluem:
  - Cluster – Amostras de cores agrupadas por categoria principal de problema.
  - Subcluster – Agrupa amostras de cores em subcategorias mais detalhadas dentro de cada cluster.
  - Ou resultado da avaliação, tipo de avaliação, pontuação e ID do agente.

Filtragem avançada
- Fornece ferramentas para concentrar a visualização em subconjuntos específicos de dados.
- Você pode definir filtros com base em metadados ou atributos de avaliação.
  - Selecione Parâmetro – Escolha em qual campo filtrar (por exemplo, pontuação, tipo de avaliador, carimbo de data/hora).
  - Igual/Contém/Não é igual – defina a condição para filtragem.
  - Selecionar Valor – Escolha ou insira o valor específico para corresponder.
  - Adicionar Filtro – Aplique a condição para atualizar a exibição dinamicamente.

Baixar a análise

Para exibir a análise offline, selecione baixar para obter uma cópia da análise no formato CSV e exibi-la em outros aplicativos.

Nota

O resultado da análise não é armazenado. Se você sair da página, o resultado da análise será perdido.

Próximas etapas

Use os insights da análise de cluster para:

Refinar prompts – atualize as instruções do agente para resolver padrões de falha recorrentes identificados nos clusters.
Retreinar ou ajustar – use categorias de falha identificadas como sinal para ajuste fino de curadoria de dados.
Reavaliar – Depois de fazer alterações, execute uma nova avaliação e gere uma nova análise de cluster para comparar os resultados. Consulte Executar avaliações a partir do SDK.

Solucionando problemas

Sintoma	Causa provável	Corrigir
O botão de análise de cluster não está disponível	Nenhuma execução concluída de avaliação foi selecionada	Selecione pelo menos uma execução de avaliação concluída na página de detalhes da avaliação antes de selecionar a análise de cluster.
Nenhum modelo é exibido na janela de geração	Nenhum modelo é implantado no projeto	Implante um modelo em seu projeto. Consulte Criar implantações de modelo.
Falha na geração de análise ou tempo limite excedido	Volume de dados muito grande ou restrição de serviço	Reduza o número de execuções de avaliação selecionadas ou tente novamente mais tarde.
A análise desaparece após sair da página	Os resultados não são persistidos	Execute a análise do cluster novamente e baixe os resultados antes de navegar para longe.

Comentários

Esta página foi útil?

Last updated on 2026-04-29