Compartilhar via


Perguntas frequentes sobre análise

Essas perguntas frequentes descrevem o efeito de IA dos recursos de assistência de análise em Copilot Studio.

Como a IA generativa é usada para análises?

Copilot Studio usa IA para medir a qualidade das respostas generativas e para criar agrupamentos. Esses clusters fornecem insights sobre o desempenho do agente.

As respostas generativas usam fontes de conhecimento que você escolhe para gerar uma resposta. O recurso também coleta quaisquer comentários que você forneça. A análise usa LLMs (grandes modelos de linguagem) para classificar as mensagens de chat entre usuários e agentes em níveis que indicam a qualidade das respostas geradas. Copilot Studio compila esses indicadores para fornecer um resumo do desempenho geral de um agente.

O clustering utiliza LLMs para classificar as mensagens dos usuários em grupos, com base em assuntos compartilhados e fornecer a cada grupo um nome descritivo. Copilot Studio usa os nomes desses clusters para fornecer diferentes tipos de insights que você pode usar para melhorar seu agente.

Qualidade das respostas para respostas generativas

Qual é a qualidade do uso pretendido da resposta?

Use a qualidade da análise de resposta para descobrir insights sobre o uso e o desempenho do agente e, em seguida, crie ações para aprimoramento do agente. Atualmente, você pode usar a análise para entender se a qualidade das respostas generativas de um agente atende às suas expectativas.

Além da qualidade geral, a qualidade da análise de resposta identifica áreas em que um agente tem um desempenho ruim ou falha ao executar suas metas pretendidas. Você pode definir áreas em que as respostas generativas têm um desempenho ruim e tomar medidas para melhorar sua qualidade.

Ao identificar um desempenho ruim, siga as práticas recomendadas que podem ajudar a melhorar a qualidade. Por exemplo, depois de identificar fontes de conhecimento com baixo desempenho, você pode editar a fonte de conhecimento ou dividir a fonte de conhecimento em várias fontes mais focadas para aumentar a qualidade.

Quais dados são usados para criar análises de qualidade da resposta?

A qualidade da análise de resposta é calculada usando uma amostra de respostas generativas . Ele requer a consulta do usuário, a resposta do agente e as fontes de conhecimento relevantes que o modelo generativo usa para a resposta generativa.

A qualidade da análise de resposta usa essas informações para avaliar se a qualidade da resposta gerativa é boa e, se não, por que a qualidade é ruim. Por exemplo, a qualidade da resposta pode identificar respostas incompletas, irrelevantes ou não totalmente fundamentadas.

Quais são as limitações da qualidade da análise de resposta e como os usuários podem minimizar o impacto dessas limitações?

  • A análise de qualidade de resposta não utiliza todas as respostas geradas. Em vez disso, a análise mede uma amostra de sessões de usuário-agente. Agentes com menos que o número mínimo de respostas geradas bem-sucedidas não podem receber um resumo analítico da qualidade das respostas.

  • Há casos em que a análise não avalia a resposta individual com precisão. Em um nível agregado, ela deve ser precisa na maioria dos casos.

  • A análise de qualidade das respostas não fornece uma divisão das consultas específicas que levaram ao baixo desempenho de qualidade. Elas também não fornecem um detalhamento das fontes de conhecimento comum ou dos tópicos usados quando ocorrem respostas de baixa qualidade.

  • As análises não são calculadas para respostas que usam conhecimento generativo.

  • A completude das respostas é uma das métricas usadas para avaliar a qualidade da resposta. Essa métrica mede o quão completa a resposta aborda o conteúdo do documento recuperado.

    Se o sistema não recuperar um documento relevante com informações adicionais para a pergunta, ele não avalia a métrica de completude para esse documento.

Quais proteções estão em vigor para a qualidade da análise de resposta em Copilot Studio para IA responsável?

Usuários de agentes não veem resultados analíticos; eles estão disponíveis apenas para criadores de agentes e administradores.

Criadores e administradores só podem usar análises de qualidade de resposta para ver a porcentagem de respostas de qualidade e quaisquer motivos pré-definidos para o baixo desempenho. Os criadores só podem ver a porcentagem de respostas de boa qualidade e motivos pré-definidos.

Testamos análises para a qualidade das respostas de forma detalhada durante o desenvolvimento para garantir um bom desempenho. No entanto, em ocorrências raras, a qualidade das avaliações de resposta pode ser imprecisa.

Análise de sentimento para sessões de conversação

Qual é o uso pretendido da análise de sentimento?

Use a análise de sentimento para entender o nível de satisfação do usuário em sessões de conversa com base em uma análise de IA de mensagens de usuário para o agente. Você pode entender o sentimento geral da sessão (positivo, negativo ou neutro), investigar os motivos e tomar medidas para resolvê-la.

Quais dados são usados para definir sentimento em uma sessão de conversa?

Copilot Studio calcula a análise de sentimento com base em mensagens de usuário para o agente para um conjunto de exemplos de sessões de conversação.

A análise de sentimento usa essas informações para avaliar se a satisfação do usuário durante a sessão é positiva, negativa ou neutra. Por exemplo, um usuário pode usar palavras e um tom de voz que indicam frustração ou insatisfação com base na interação com o agente. Nesse caso, a sessão é classificada como de sentimento negativo.

Quais são as limitações da análise de sentimento e como os usuários podem mitigar essas limitações?

As análises de sentimento não são calculadas usando todas as sessões de conversa. Em vez disso, a análise mede uma amostra de sessões de usuário-agente. Os agentes abaixo de um número mínimo de respostas generativas bem-sucedidas diariamente não podem receber uma pontuação de sentimento.

A análise de sentimento atualmente depende de respostas generativas e exige um número mínimo de respostas bem-sucedidas diariamente para calcular a pontuação de sentimento do agente.

Para calcular o sentimento de uma sessão, deve haver pelo menos duas mensagens de usuário. Além disso, devido às restrições técnicas atuais, a análise de sentimento não é realizada em sessões que excedam um total de 26 mensagens (incluindo mensagens tanto de usuários quanto de agentes)

A análise de sentimento não detalha as mensagens específicas dos usuários que resultaram na pontuação de sentimento.

Quais proteções estão em vigor para análise de sentimento dentro de Copilot Studio para IA responsável?

Usuários de agentes não veem resultados analíticos; eles estão disponíveis apenas para criadores de agentes e administradores.

Você só pode usar a análise de sentimento para ver a divisão do sentimento em todas as sessões.

Testamos a análise de sentimento minuciosamente durante o desenvolvimento para garantir um bom desempenho. No entanto, em ocorrências raras, avaliações de sentimento podem ser imprecisas.

Temas das perguntas de usuário

Qual é o uso desejado dos temas?

Este recurso analisa automaticamente grandes conjuntos de consultas dos usuários e os agrupa em tópicos de alto nível chamados temas. Cada tema representa um único assunto de alto nível sobre o qual os usuários perguntaram. Os temas dão uma visão não supervisionada e controlada por dados do conteúdo do usuário. Essa exibição ajuda as equipes a compreender o que mais importa para os usuários, sem a etapa manual de revisar milhares de consultas.

Quais dados são usados para criar clusters?

O recurso Temas usa consultas de usuário que disparam respostas generativas. O Temas analisa todas as consultas dos últimos sete dias para gerar novos temas sugeridos.

O Temas usa a similaridade semântica para agrupar consultas. Um modelo de linguagem acaba sendo usado para gerar o título e a descrição de cada cluster. O feedback de criadores (como polegares para cima/baixo) também é coletado para aumentar a qualidade do clustering.

Quais são as limitações do clustering para Temas e como os usuários podem mitigar essas limitações?

O sucesso do clustering em temas depende do volume de consultas. Se não houver consultas suficientes ou se as consultas não estiverem muito relacionadas umas às outras, Copilot Studio poderão agrupar consultas em temas excessivamente amplos ou excessivamente estreitos.

Às vezes, temas podem dividir tópicos semelhantes ou mesclar tópicos não relacionados.

A mudança de linguagem em consultas pode afetar a consistência de clusters com o passar do tempo.

Você pode examinar temas regularmente e fornecer comentários para melhorar a qualidade da nomenclatura.

Quais proteções para Temas estão em vigor no Copilot Studio em termos de IA responsável?

Os temas só estão visíveis para criadores e administradores. A moderação de conteúdo é aplicada durante a geração de nomes e descrições para reduzir o risco de resultados prejudiciais ou indevidos.

Análise de métricas personalizadas

Qual é o uso pretendido de métricas personalizadas?

Os criadores usam a análise de métricas personalizadas para entender o quanto seus agentes de conversa afetam os resultados dos negócios. Essas métricas complementam as análises de economia. Exemplos de métricas personalizadas incluem taxa de resolução, classificação de intenção do cliente e outros resultados específicos do domínio.

As métricas personalizadas podem mostrar onde os agentes perdem as metas pretendidas. Os criadores podem definir o que medir, testar métricas em relação a dados reais da sessão e refinar definições com base nos resultados.

Quais dados são usados para calcular métricas personalizadas?

As métricas personalizadas são calculadas usando uma amostra de sessões de agente anteriores. O cálculo usa as mensagens de conversa trocadas durante uma sessão.

O modelo de IA classifica os dados da sessão com base na sua definição de métrica. O agente agrega resultados em toda a amostra para mostrar o desempenho geral da métrica no período selecionado.

Quais são as limitações das métricas personalizadas e como os usuários podem minimizar o impacto das limitações?

As métricas personalizadas não são calculadas usando todas as sessões do agente. Em vez disso, eles medem uma amostra de sessões do período de tempo selecionado. Como os resultados são baseados em uma amostra, eles devem ser tratados como indicadores direcionais em vez de números exatos.

Você deve considerar que o cálculo de métrica é baseado na transcrição de mensagens ao interpretar as métricas. Evite tirar conclusões sobre comportamentos que ocorrem principalmente fora de mensagens, como tópicos e ferramentas.

O modelo de IA pode classificar mal as sessões. Os resultados de agregação geralmente são precisos. As sessões que não correspondem a uma categoria definida são colocadas na categoria fallback (Outros). Se os resultados do teste não corresponderem aos resultados esperados, você poderá atualizar a descrição da métrica e as definições de categoria.

Se as instruções ou a configuração de um agente forem significativamente alteradas depois que uma métrica for definida, a métrica poderá não refletir com precisão o comportamento atualizado do agente. Você deve examinar suas métricas personalizadas depois de fazer alterações substantivas no agente.

Quais proteções estão em vigor para métricas personalizadas em Copilot Studio para IA responsável?

Os resultados das métricas personalizadas estão disponíveis somente para criadores de agentes e administradores. Os usuários do agente não têm acesso aos resultados da análise.

Examine e aprove todas as métricas personalizadas antes de salvar. Durante a definição de métrica, teste as métricas em relação aos dados de sessão de exemplo e examine os resultados individuais e o raciocínio do modelo. Se os resultados não atenderem às expectativas, você poderá atualizar ou descartar a métrica. As métricas não são aplicadas sem sua confirmação explícita.

O prompt gerado por IA usado para classificar sessões é visível para você na interface do usuário, para que você possa entender como o modelo interpreta sua definição de métrica. Você pode editar ou remover métricas personalizadas a qualquer momento.

Em raras ocasiões, as classificações de sessão individuais podem ser imprecisas. Os resultados devem ser interpretados na agregação e não no nível de sessão individual.