Analisar os resultados do teste usando o Copilot Studio Kit

O Copilot Studio Kit fornece uma interface abrangente para analisar os resultados do teste.

Detalhes da execução de teste

A Interface de Execução de Teste do Agente mostra o status dos testes.

Situação Description
Status da Execução Processo principal que executa cada teste de agente individual na configuração do agente usando a Direct Line API e cria um registro de Resultado de Teste do Agente correspondente.
Status de Enriquecimento do App Insights Só será executado se o Enrich With Aplicativo Azure Insights estiver habilitado no registro de Configuração do Agente relacionado.
Análise de respostas geradas Só será executado se Analisar Respostas Geradas estiver habilitado no registro de Configuração do Agente relacionado.
Status de Enriquecimento do Dataverse Só será executado se Enriquecer com Transcrições de Conversa estiver habilitado no registro de Configuração do Agente relacionado.

Saiba mais sobre as configurações de configuração do agente em Configurar agentes no Copilot Studio Kit.

A imagem a seguir mostra a interface Execuções de Teste, na qual você pode exibir detalhes da execução do teste.

Captura de tela da interface Test Runs no Copilot Studio Kit, mostrando detalhes como Status de Execução, Taxa de Sucesso, Latência Média e muito mais.

Resultados agregados

Depois que um fluxo de nuvem é executado, o sistema calcula os resultados agregados.

Resultado agregado Description
# Testes Número de resultados do teste.
Taxa de êxito (%) Percentual de registros de resultados de teste com um resultado de êxito em comparação com o número total de resultados do teste.
Latência Média (ms) Tempo médio, em milissegundos, para que o agente envie a mensagem depois de receber o enunciado de teste.
# Sucesso Número de registros de resultados de teste com um resultado de êxito.
# Falhas Número de registros de resultados de teste com falha.
# Pendente Número de registros de resultados de teste com resultado pendente.
# Desconhecido Número de registros de resultados de teste com um resultado desconhecido.
Erro # Número de registros de resultados de teste com um resultado de erro.

Resultados detalhados

Analise os resultados depois de concluir cada etapa, pois alguns resultados só estarão disponíveis após a conclusão das etapas. Por exemplo, os testes de correspondência de tópicos precisam de enriquecimento do Dataverse para serem totalmente executados, já que somente esta etapa fornece informações sobre o nome do tópico que foi acionado.

Você pode editar o modo de exibição de resultados para ajustar os resultados individualmente.

Cada resultado tem uma seção Motivo do Resultado que é preenchida automaticamente com uma explicação para o resultado. Para avaliações geradas por IA, recomenda uma revisão humana: "Avaliação gerada por IA da resposta. Por favor, revise. Os testadores podem usar esse atributo para adicionar seus próprios comentários e anotações a um teste.

Captura de tela de um registro de Execução de Teste do Agente mostrando a coluna motivo do resultado no lado direito da interface.

Para cada um dos seguintes tipos de teste, você pode usar o filtro Resultados para exibir apenas os resultados de um tipo específico:

  • Resultados de respostas generativas
  • Resultados da Compatibilidade de Resposta
  • Resultados de correspondência de tópicos
  • Resultados do anexo

Captura de tela das opções de Exibição do Sistema disponíveis para Resultados.

Detalhes do Resultado do Teste do Agente

O formulário Resultado do Teste do Agente fornece detalhes sobre cada execução de teste individual. O sistema cria automaticamente esses registros.

Nome da Coluna Description
ID da Conversa ID da conversa fornecida pela API de Linha Direta.
Execução de teste do agente Execução de teste à qual o registro está relacionado.
Teste do agente Teste ao qual o registro está relacionado. Você pode ver os detalhes do teste em um modo de visualização rápida.
Resultado Resultado: Success, Failed, , Unknown, Error, Pending.
Explicação Explicação gerada automaticamente do resultado.
Latência (ms) Tempo, em milissegundos, que o agente leva para retornar a mensagem após o recebimento da mensagem de teste.
Mensagem enviada Marca de tempo da mensagem que o usuário envia.
Resposta recebida Carimbo de data/hora da mensagem enviada pelo agente.
Resposta Mensagem de texto enviada pelo agente.
Resultado do App Insights Resultados de respostas generativas do Aplicativo Azure Insights (quando o Enrich With Aplicativo Azure Insights está habilitado).
ID do Tópico Acionado Identificador exclusivo do registro de subcomponente do Chatbot para o tópico acionado no Dataverse (quando Enrich with Conversation Transcripts está habilitado).
Tópico/evento acionado Nome do tópico disparado (quando Enriquecer com transcrições de conversa está habilitado).
Se vários tópicos corresponderem, IntentCandidates. Para Impulsionamento de Conversação e Fallback, UnknownIntent.
Pontuação de Intenção Reconhecida Se ocorrer o reconhecimento de intenção, a pontuação da intenção superior.
Transcrição de conversa Anexo de arquivo JSON da transcrição completa da conversa (quando Enrich with Conversation Transcripts está habilitado e Copiar Transcrição Completa está configurado como sim).
Ações Sugeridas Quando disponível, JSON das ações sugeridas que o agente retorna e associa à resposta.
Anexos Quando disponível, o JSON do array dos anexos que o agente retorna e associa à resposta.
Citações Para respostas geradas, a matriz de JSON das citações que o agente usa para gerar a resposta (quando Enriquecer com Transcrições de Conversa está habilitado).

Inspecionar a transcrição

Se você habilitar o Enrich With Conversation Transcripts e definir Copiar Transcrição Completa como sim, o resultado do teste incluirá a transcrição completa. Ao analisar um resultado de teste, vá para a guia Transcrição para obter uma exibição de transcrição detalhada no formato JSON com uma visualização que acompanha.

Captura de tela da Interface de Análise de Transcrição de um Resultado de Teste do Agente.

Analisar os resultados do teste de múltiplos ciclos

A exibição de resultados mostra testes de múltiplas etapas junto com outros tipos de teste. Você verá o resultado geral (Êxito ou Falha) na coluna Resultado. Selecione o valor da ID da Conversa para exibir detalhes do teste de várias rodadas e uma lista de testes filho que compõem o teste.

Captura de tela da exibição de detalhes de Resultados de Teste de Várias Rodas de um Resultado de Teste do Agente.

Na visão detalhada dos Resultados do Teste de Várias Rodadas, você pode ver os resultados de testes individuais e fazer busca detalhada de seus detalhes. O resultado de um teste de várias rodadas depende dos resultados de seus testes filho marcados como críticos. Testes filho não críticos podem falhar e o caso de teste de vários turnos continua para o próximo caso de teste. Se algum dos testes filho críticos falhar, a execução do teste para essas interações múltiplas será interrompida e o teste será marcado como Falhou. Se todos os testes filho críticos forem aprovados, o resultado do teste de várias voltas será êxito.

Os casos de teste de vários turnos podem incluir testes não críticos porque fornecem informações ao orquestrador gerador. A resposta exata ao caso de teste não importa, apenas os testes críticos que vêm depois.

O teste de várias voltas (e o Resultado do Teste Multiturn) pode incluir qualquer um dos tipos de teste regulares: correspondência de resposta, anexos, correspondência de tópicos e respostas generativas.

Onde obter ajuda

Se você tiver problemas, examine as diretrizes de solução de problemas ou crie uma solicitação de suporte no GitHub.