Avaliar conversações multi-turn

Os utilizadores reais não interagem com agentes através de trocas isoladas de perguntas individuais. Em vez disso, interagem em conversações que incluem perguntas de seguimento, partilha de informações incrementais e conclusão de tarefas com vários passos.

A avaliação multiturno ajuda a garantir que o agente consegue manter o contexto, concluir tarefas em vários passos e responder adequadamente ao longo de um fluxo de conversação realista.

Quando utilizar a avaliação multi-turn

Utilize a avaliação de várias curvas ao testar cenários que requerem retenção de contexto ou vários passos para concluir uma tarefa.

Cenário Por que motivo são necessárias várias curvas
Preenchimento de ranhuras O agente tem de recolher várias informações.
Fluxos de esclarecimento O agente tem de resolve entrada de utilizador ambígua.
Tarefas com vários passos A tarefa requer várias trocas para ser concluída.
Seguimentos dependentes do contexto As perguntas posteriores dependem de respostas anteriores.
Divulgação progressiva As informações são fornecidas de forma incremental.

Avaliação de curva única vs. de várias curvas

Comece com avaliações de viragem única para cobertura e, em seguida, adicione avaliações multi-turn para testar interações realistas.

Aspeto Curva única Várias curvas
Testes Pares individuais de resposta a perguntas Concluir conversações
Contexto Cada pedido é independente Ativa a compilação entre si
Complexidade Mais fácil conceber e avaliar Mais realista, mas complexo
Diagnóstico de falha Mais fácil isolar problemas Requer uma análise turn-by-turn
Caso de uso Testar respostas específicas Testar o fluxo de conversação

Principais métricas para avaliação de várias curvas

A avaliação de várias curvas requer métricas adicionais para além da precisão de viragem única. Estas métricas avaliam o desempenho do agente em toda uma conversação.

Conclusão da conversação

A conclusão da conversação mede se o agente alcança o objetivo do utilizador até ao final da interação.

Exemplo de êxito

Virar 1

  • Utilizador: "Preciso de encomendar um portátil"
  • Agente: "Posso ajudar com isso. De que tipo de portátil precisa?"

Curva 2

  • Utilizador: "MacBook Pro"
  • Agente: "Que tamanho de ecrã— 14 polegadas ou 16 polegadas?"

Virar 3

  • Utilizador: "16 polegadas"
  • Agente: "Enviei a sua encomenda para um MacBook Pro de 16 polegadas. ID da Encomenda: ORD-456. Entrega esperada: 5 a 7 dias úteis."

✅ O objetivo do utilizador (encomendar um portátil) é alcançado.

Exemplo de falha

Virar 1

  • Utilizador: "Preciso de encomendar um portátil"
  • Agente: "Posso ajudar com isso. De que tipo de portátil precisa?"

Curva 2

  • Utilizador: "MacBook Pro"
  • Agente: "O MacBook Pro é uma ótima opção! Há mais alguma coisa?

❌ A encomenda não foi submetida e o objetivo do utilizador não é alcançado.

Retenção de conhecimento

A retenção de conhecimento mede se o agente memoriza e utiliza informações fornecidas em turnos anteriores.

Exemplo de êxito

Virar 1

  • Utilizador: "O meu ID de colaborador é EMP-12345"
  • Agente: "Obrigado! Como posso ajudá-lo hoje?"

Curva 2

  • Utilizador: "Quero marcar o meu saldo de PTO"
  • Agente: "O saldo atual da PTO é de 12 dias restantes."

✅ O agente utilizou o ID de funcionário fornecido anteriormente sem pedir novamente.

Exemplo de falha

Virar 1

  • Utilizador: "O meu ID de colaborador é EMP-12345"
  • Agente: "Obrigado! Como posso ajudá-lo hoje?"

Curva 2

  • Utilizador: "Quero marcar o meu saldo de PTO"
  • Agente: "Terei todo o gosto em ajudar. Qual é o seu ID de funcionário?"

❌ O agente esqueceu-se do ID do funcionário da vez anterior.

Adesão da função

O cumprimento da função mede se o agente mantém o âmbito e as responsabilidades definidos ao longo da conversação.

Exemplo de êxito

Virar 1

  • Utilizador: "Qual é a política PTO?"
  • Agente: fornece as informações de política PTO corretas

Curva 2

  • Utilizador: "Pode escrever um poema sobre férias?"
  • Agente: "Estou aqui para ajudar com os RH e perguntas de inclusão. Há mais alguma coisa sobre a PTO com que possa ajudar?"

✅ O agente manteve-se dentro da função e redirecionou-o adequadamente.

Exemplo de falha

Virar 1

  • Utilizador: "Qual é a política PTO?"
  • Agente: fornece as informações de política PTO corretas

Curva 2

  • Utilizador: "Pode escrever um poema sobre férias?"
  • Agente: "Claro! Aqui está um poema sobre praias ensolaradas..."

❌O agente desfasou-se da sua função como assistente de RH.

Relevância da conversação

A relevância da conversação mede se cada resposta é diretamente relevante para o pedido do utilizador no contexto de conversação atual.

Exemplo de falha

Virar 1

  • Utilizador: "Que planos de estado de funcionamento estão disponíveis?"
  • Agente: Lista as opções de HMO e PPO

Curva 2

  • Utilizador: "Qual é a diferença no custo?"
  • Agente: "O PPO oferece mais flexibilidade na escolha de médicos."

❌ A resposta não aborda a pergunta do utilizador sobre o custo.

Consistência de contexto

A consistência de contexto mede se o agente mantém factos e informações consistentes em todas as voltas na conversação.

Exemplo de falha

Virar 1

  • Utilizador: "Quantos dias de férias tenho?"
  • Agente: "Como novo colaborador, recebe 15 dias de PTO anualmente."

Curva 2

  • Utilizador: "E quantos dias de doença?"
  • Agente: "Você tem 10 dias de doença, mais os seus 10 dias de férias."

❌ O agente contradiz informações anteriores alterando o número de dias de férias.

Conceber casos de teste de várias curvas

A conceção de avaliações multiturno eficazes requer a definição do fluxo de conversação e dos comportamentos esperados. Normalmente, um caso de teste de várias curvas inclui:

  • ID e descrição do caso de teste
  • Dados de base
  • Sequência de conversação
  • Comportamentos esperados
  • Asserções

Exemplo: Encomenda de equipamento

  • ID do caso de teste: CONV-001
  • Descrição: Fluxo de ordenação de equipamentos

Dados de base

  • Funcionário: Katrin Pold
  • ID do Funcionário: EMP-54321
  • Departamento: Design do Produto
  • Orçamento: $3.500

Conversa

Virar 1

  • Utilizador: "Preciso de configurar o meu portátil."
  • Comportamento esperado: pergunte sobre as preferências.

Curva 2

  • Utilizador: "MacBook Pro"
  • Comportamento esperado: peça especificações.

Virar 3

  • Utilizador: "16 polegadas com 32 GB de RAM"
  • Comportamento esperado: Confirme e submeta a encomenda.

Virar 4

  • Utilizador: "Na verdade, altere-o para 64 GB."
  • Comportamento esperado: atualize a encomenda.

Asserções ao nível da conversação

  • A conversação é concluída com uma ordem de equipamento confirmada.
  • A ordem final reflete a especificação corrigida (64 GB).
  • O agente nunca pede o ID do funcionário (deve inferir do contexto).
  • O total transforma-se em conclusão é ≤6.

Asserções de nível de viragem

  • Curva 3:
    • O agente invoca a ferramenta OrderEquipment.
    • A chamada de ferramenta inclui o modelo: "MacBook Pro de 16 polegadas".
    • A chamada de ferramenta inclui especificações que contêm "32 GB".
  • Curva 4:
    • O agente invoca UpdateOrder ou modifica a ordem anterior.
    • A confirmação final mostra "64 GB".

Exemplo: Conversação de preenchimento de blocos

Cenário: Inscrição de benefícios (preenchimento de blocos)
Objetivo: Recolher todas as informações necessárias e concluir a inscrição

Entradas necessárias (ranhuras):

  • Planear a seleção (HMO ou PPO)
  • Nível de cobertura (individual ou familiar)
  • Informações dependentes (se aplicável)
  • Data efetiva

Conversa

Virar 1
Utilizador: "Quero inscrever-me no seguro de saúde."
Agente:

  • Confirma o pedido
  • Pede preferência de plano (HMO vs. PPO)

Curva 2
Utilizador: "Qual é a diferença?"
Agente:

  • Explica as principais diferenças entre o HMO e o PPO
  • Pede novamente a seleção do plano

Virar 3
Utilizador: "Vou com o PPO".
Agente:

  • Confirma a seleção
  • Pede o nível de cobertura (individual ou familiar)

Virar 4
Utilizador: "Cobertura familiar. Tenho um cônjuge e dois filhos."
Agente:

  • Confirma o cenário dependente
  • Solicita detalhes dependentes (nomes, idades, etc.)

Virar 5
Utilizador: [Fornece informações dependentes]
Agente:

  • Confirma todas as informações recolhidas
  • Submete a inscrição
  • Fornece um resumo de confirmação

Asserções:

  • Todos os blocos necessários são recolhidos antes da submissão.
  • O agente não ignora as entradas necessárias.
  • O agente explica as opções quando lhe for pedido.
  • A confirmação final inclui todos os detalhes capturados.
  • A tarefa é concluída com êxito sem turnos desnecessários.

Exemplo: Conversação de esclarecimento

Cenário: Pedido ambíguo (esclarecimento)
Objetivo: Resolver a ambiguidade ao reunir contexto suficiente antes de responder

Conversa

Virar 1
Utilizador: "Preciso de tirar umas férias."
Agente:

  • Confirma o pedido
  • Pergunta que tipo de folga (PTO, licença por doença, licença pessoal)

Curva 2
Utilizador: "É para um procedimento médico."
Agente:

  • Identifica a categoria provável
  • Pergunta se o pedido é para o utilizador ou um membro da família

Virar 3
Utilizador: "É para mim. É uma pequena cirurgia."
Agente:

  • Determina que esta é provavelmente uma licença por doença
  • Fornece informações de política relevantes
  • Pergunta sobre a duração esperada

Virar 4
Utilizador: "Cerca de uma semana".
Agente:

  • Confirma a elegibilidade e o processo
  • Fornece os passos seguintes (por exemplo, como pedir licença)
  • Ofertas para iniciar o pedido, se aplicável

Asserções:

  • O agente não assume a intenção do pedido ambíguo inicial.
  • As questões de clarificação são relevantes e restringem progressivamente o âmbito.
  • A resposta final reflete a situação real do utilizador.
  • O agente passa de esclarecimento para resolução eficaz.

Exemplo: Conversação de recuperação de erros

Cenário: Falha e recuperação de encomendas
Objetivo: Lidar com falhas de forma transparente e orientar o utilizador para um resultado bem-sucedido

Conversação:

Virar 1
Utilizador: "Encomende-me um MacBook Pro de 16 polegadas".
Agente:

  • Tentativas de submeter a encomenda

Resposta do sistema/ferramenta:

  • Erro: Item esgotado

Agente:

  • Comunica claramente o problema
  • Não obscurece ou ignora a falha
  • Sugere alternativas (por exemplo, modelo ou tamanho diferente)

Curva 2
Utilizador: "Quando voltará a estar em stock?"
Agente:

  • Verifica a disponibilidade ou fornece uma estimativa de restock, se disponível
  • Se estiver indisponível, comunica-o claramente
  • Ofertas para notificar o utilizador ou sugerir alternativas

Virar 3
Utilizador: "Posso obter a 14 polegadas em vez disso?"
Agente:

  • Confirma a disponibilidade da alternativa
  • Submete a nova encomenda
  • Fornece confirmação (detalhes da encomenda, entrega esperada)

Asserções:

  • O agente comunica claramente as falhas e as respetivas causas.
  • O agente oferece alternativas acionáveis ou passos seguintes.
  • A conversa progride para a recuperação, não para os becos sem saída.
  • O utilizador conclui a tarefa com êxito após a falha.
  • O agente mantém o contexto nos passos de falha e recuperação.

Asserções de várias curvas

A avaliação de várias curvas requer validação ao nível da conversação e ao nível da viragem.

Asserções ao nível da conversação

  • A conversação alcança o objetivo do utilizador.
  • O número de voltas está dentro de um intervalo esperado.
  • O agente mantém informações consistentes.
  • O agente mantém a sua função.
  • O agente não pede informações duplicadas.

Asserções de nível de viragem

  • A resposta reconhece o contexto anterior.
  • A resposta coloca as perguntas de seguimento adequadas.
  • O agente executa as ações esperadas.
  • A resposta confirma as ações executadas.

Asserções condicionais

  • Quando o utilizador corrige as informações, o agente atualiza as respostas subsequentes.
  • Quando uma ação falha, o agente comunica o problema e fornece alternativas.
  • Quando um utilizador faz uma pergunta fora do âmbito, o agente redireciona adequadamente.

Exemplo: Avaliação de várias curvas ponto a ponto

Caso de teste: Nova configuração de contratação

Descrição

Um novo funcionário encomenda equipamento e faz uma pergunta de benefícios durante a mesma conversa.

Dados de base

  • Funcionário: Marcus Johnson
  • ID do Funcionário: EMP-99887
  • Departamento: Engenharia
  • Localização: Seattle
  • Orçamento do equipamento: $4.000

Conversa

Virar 1

  • Utilizador: "Vou começar na próxima semana e preciso de configurar a minha estação de trabalho."
  • Comportamento esperado: bem-vindo e pergunte sobre as necessidades de equipamento.

Curva 2

  • Utilizador: "Preciso de um MacBook Pro de 16 polegadas com 64 GB de RAM e um monitor de 27 polegadas."
  • Comportamento esperado: submeta a encomenda e confirme.

Virar 3

  • Utilizador: "Quando é o prazo para se inscrever no seguro de saúde?"
  • Comportamento esperado: forneça informações de benefícios sem perder o contexto.

Virar 4

  • Utilizador: "Pode confirmar o que encomendei?"
  • Comportamento esperado: relembrar e resumir a encomenda.

Resultados esperados

  • A encomenda do equipamento está concluída.
  • A pergunta de benefícios é respondida com precisão.
  • O contexto é mantido entre curvas.
  • As informações não são pedidas novamente.

Armadilhas comuns

Tenha em atenção estes problemas comuns ao conceber e avaliar conversações multiturno:

  • Avaliar transforma-se em isolamento em vez de no contexto de conversação completo, o que pode ocultar falhas relacionadas com a memória, a continuidade e a conclusão da tarefa.
  • Testar apenas cenários ideais (caminho feliz), que não refletem o comportamento real do utilizador, como ambiguidade, correções e interrupções.
  • Ignorar as diferenças entre conversações curtas e longas, em que os fluxos curtos muitas vezes falham a conclusão e os fluxos longos introduzem um desfasamento de contexto.
  • Não inclui o comportamento adverso ou inesperado do utilizador, como entradas em conflito, mudança de tópicos ou pedidos vagos.
  • Definir objetivos de utilizador não claros ou implícitos, dificultando a determinação de se a conversação foi bem-sucedida.
  • A especificação excessiva das respostas esperadas, o que reduz a flexibilidade e penaliza incorretamente as variações válidas.
  • Falha ao testar o processamento de erros e os caminhos de recuperação, deixando lacunas na forma como o agente responde a falhas ou informações em falta.

Práticas recomendadas

Utilize estas práticas para conceber avaliações multi turn eficazes e dimensionáveis:

  • Comece com um pequeno conjunto de cenários de alto valor que representam os fluxos de conversação mais comuns ou críticos.
  • Defina um objetivo de utilizador claro para cada caso de teste e utilize a conclusão do objetivo como a métrica de sucesso principal.
  • Teste os caminhos diretos (o utilizador fornece todas as entradas antecipadamente) e orientado (o agente recolhe entradas em várias voltas) até à conclusão.
  • Utilize asserções ao nível da conversação primeiro e, em seguida, adicione asserções de nível de viragem para uma validação mais profunda.
  • Cenários de conceção que refletem o comportamento realista do utilizador, incluindo esclarecimentos, correções e mudança de tópicos.
  • Valide explicitamente a retenção de contexto ao garantir que o agente utiliza as informações fornecidas anteriormente sem pedir novamente.
  • Inclua cenários de processamento de erros e recuperação, garantindo que o agente comunica falhas e fornece os passos seguintes.
  • Utilize asserções flexíveis baseadas no comportamento em vez da correspondência de respostas exata.
  • Certifique-se de que os testes são reproduzíveis ao preservar o realismo ao definir comportamentos esperados em vez de expressões exatas.
  • Iterar e refinar continuamente casos de teste com base em falhas observadas e padrões de utilização em evolução.

Próxima etapa