Análisis de resultados de pruebas mediante el Kit de Copilot Studio

El Kit de Copilot Studio proporciona una interfaz completa para analizar los resultados de las pruebas.

Detalles de la ejecución de pruebas

La interfaz de ejecución de pruebas del agente muestra el estado de las ejecuciones de pruebas.

Status	Description
Estado de ejecución	Proceso principal que ejecuta cada prueba de agente individual en la configuración del agente mediante Direct Line API y crea un registro de resultado de prueba del agente correspondiente.
Estado de enriquecimiento de App Insights	Solo se ejecuta si Enrich With Aplicación de Azure Insights está habilitado en el registro de configuración del agente relacionado.
Análisis de respuestas generadas	Solo se ejecuta si Analizar respuestas generadas está habilitada en el registro de configuración del agente relacionado.
Estado de enriquecimiento de Dataverse	Solo se ejecuta si Enrich With Conversation Transcripts está habilitado en el registro de configuración del agente relacionado.

Obtenga más información sobre las opciones de configuración del agente en Configurar agentes en Copilot Studio Kit.

En la imagen siguiente se muestra la interfaz Ejecuciones de pruebas, donde puede ver los detalles de la ejecución de pruebas.

Resultados agregados

Una vez que se ejecuta un flujo de nube, el sistema calcula los resultados agregados.

Resultado agregado	Description
# Pruebas	Número de resultados de pruebas.
Tasa de éxito (%)	Porcentaje de registros de resultados de la prueba con un resultado correcto en comparación con el número total de resultados de la prueba.
Latencia media (ms)	Promedio de tiempo, en milisegundos, para que el agente envíe el mensaje después de recibir el enunciado de prueba.
# Éxito	Número de registros de resultados de prueba con un resultado exitoso.
# Error	Número de registros de resultados de prueba con un resultado erróneo.
# Pendiente	Número de registros de resultados de prueba con un resultado pendiente.
# Desconocido	Número de registros de resultados de prueba con un resultado desconocido.
# Error	Número de registros de resultados de prueba con un resultado de error.

Resultados detallados

Analice los resultados después de completar cada paso, ya que algunos resultados solo están disponibles después de que finalicen los pasos. Por ejemplo, las pruebas de coincidencia de temas necesitan enriquecimiento de Dataverse para ejecutarse por completo, ya que solo este paso proporciona información sobre el nombre del tema que se desencadenó.

Puede editar la vista de resultados para ajustar los resultados individualmente.

Cada resultado tiene una sección Motivo del resultado que se rellena automáticamente con una explicación del resultado. En el caso de las evaluaciones generadas por IA, se recomienda una revisión humana: "Evaluación generada por IA de la evaluación. Por favor revise." Los evaluadores pueden usar este atributo para agregar sus propios comentarios y notas en una prueba.

Para cada uno de los siguientes tipos de prueba, puede usar el filtro Resultados para ver solo los resultados de un tipo específico:

Resultados de respuestas generativas
Resultados de coincidencia de respuesta
Resultados de coincidencia de temas
Resultados de adjunto

Captura de pantalla de las opciones de Vista del sistema disponibles para Resultados.

Detalle del Resultado de la Prueba del Agente

El formulario de resultados de prueba del agente proporciona detalles sobre cada ejecución de prueba individual. El sistema crea automáticamente estos registros.

Nombre de la columna	Description
Id. de la conversación	Identificador de la conversación que proporciona Direct Line API.
Ejecución de pruebas del agente	Ejecución de prueba a la que se relaciona el registro.
Prueba de Agente	Pruebe a qué está relacionado el registro. Puede ver los detalles de la prueba en un formulario de vista rápida.
Resultado	Resultado: `Success`, `Failed`, `Unknown`, `Error`, `Pending`.
Explicación	Explicación generada automáticamente del resultado.
Latencia (ms)	Tiempo, en milisegundos, que el agente tarda en devolver el mensaje después de recibir el mensaje de prueba.
Mensaje enviado	Marca de tiempo del mensaje que envía el usuario.
Respuesta recibida	Marca de tiempo del mensaje que envía el agente.
Respuesta	Mensaje de texto que envía el agente.
Resultado de App Insights	Resultados de respuesta generativa de Aplicación de Azure Insights (cuando se habilita Enrich With Aplicación de Azure Insights ).
Identificador de tema desencadenado	Identificador único del registro del subcomponente del chatbot para el tema desencadenado en Dataverse (cuando se habilita Enriquecer con transcripciones de conversación).
Tema o evento desencadenado	Nombre del tema desencadenado (cuando se habilita Enrich With Conversation Transcripts ). Si coinciden varios temas, `IntentCandidates`. Para alternativa y acelerador de conversación, `UnknownIntent`.
Puntuación de intención reconocida	Si se produce el reconocimiento de intenciones, la puntuación de la intención principal.
Transcripción de conversación	Archivo adjunto del archivo JSON de la transcripción completa de la conversación (cuando Enriquecer con transcripciones de conversación está habilitado y Copiar transcripción completa está configurado a 'sí').
Acciones sugeridas	Cuando esté disponible, el JSON de las acciones sugeridas que el agente retorna y asocia con su respuesta.
Attachments	Cuando está disponible, JSON de la matriz de datos adjuntos que el agente devuelve y asocia a su respuesta.
Citas	Para las respuestas generadas, una matriz JSON de las citas que usa el agente para generar la respuesta (cuando se habilita Enriquecer con transcripciones de la conversación).

Inspección de la transcripción

Si habilita Enriquecer con transcripciones de conversación y establece Copiar transcripción completa en sí, el resultado de la prueba incluye la transcripción completa. Al analizar un resultado de prueba, vaya a la pestaña Transcripción para obtener una vista de transcripción detallada en formato JSON con una visualización adjunta.

Análisis de resultados de pruebas de varios turnos

La vista de resultados muestra pruebas de varios turnos junto con otros tipos de pruebas. Verá el resultado general (Éxito o Fallido) en la columna Resultado. Seleccione el valor de ID de Conversación para ver los detalles de la prueba con varios turnos y una lista de subpruebas que forman parte de la prueba.

En la vista detallada de los Resultados de Pruebas Multiturn, puede ver los resultados de subpruebas individuales y examinar detalladamente sus detalles. El resultado de una prueba de varios turnos depende de los resultados de sus pruebas secundarias marcadas como críticas. Las pruebas secundarias no críticas pueden producir errores y el caso de prueba de varios turnos continúa hasta el siguiente caso de prueba. Si alguna de las pruebas infantiles críticas falla, la ejecución de ese turno múltiple se detiene y la prueba se marca como Fallida. Si se superan todas las pruebas secundarias críticas, el resultado de la prueba de múltiples ciclos es Éxito.

Los casos de prueba de múltiples turnos pueden incluir pruebas que no sean críticas, ya que suministran información al orquestador generativo. La respuesta exacta al caso de prueba no es importante, sino las pruebas críticas que le siguen.

La prueba multiturno (y el Resultado de la Prueba Multiturno) puede incluir cualquiera de los tipos prueba normales: coincidencia de respuesta, datos adjuntos, coincidencia de tema y respuestas generativas.

Dónde obtener ayuda

Si experimenta problemas, revise la guía de solución de problemas o genere una solicitud de soporte técnico en GitHub.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2025-11-04