Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
El Kit de Copilot Studio proporciona una interfaz completa para analizar los resultados de las pruebas.
Detalles de la ejecución de pruebas
La interfaz de ejecución de pruebas del agente muestra el estado de las ejecuciones de pruebas.
| Status | Description |
|---|---|
| Estado de ejecución | Proceso principal que ejecuta cada prueba de agente individual en la configuración del agente mediante Direct Line API y crea un registro de resultado de prueba del agente correspondiente. |
| Estado de enriquecimiento de App Insights | Solo se ejecuta si Enrich With Aplicación de Azure Insights está habilitado en el registro de configuración del agente relacionado. |
| Análisis de respuestas generadas | Solo se ejecuta si Analizar respuestas generadas está habilitada en el registro de configuración del agente relacionado. |
| Estado de enriquecimiento de Dataverse | Solo se ejecuta si Enrich With Conversation Transcripts está habilitado en el registro de configuración del agente relacionado. |
Obtenga más información sobre las opciones de configuración del agente en Configurar agentes en Copilot Studio Kit.
En la imagen siguiente se muestra la interfaz Ejecuciones de pruebas, donde puede ver los detalles de la ejecución de pruebas.
Resultados agregados
Una vez que se ejecuta un flujo de nube, el sistema calcula los resultados agregados.
| Resultado agregado | Description |
|---|---|
| # Pruebas | Número de resultados de pruebas. |
| Tasa de éxito (%) | Porcentaje de registros de resultados de la prueba con un resultado correcto en comparación con el número total de resultados de la prueba. |
| Latencia media (ms) | Promedio de tiempo, en milisegundos, para que el agente envíe el mensaje después de recibir el enunciado de prueba. |
| # Éxito | Número de registros de resultados de prueba con un resultado exitoso. |
| # Error | Número de registros de resultados de prueba con un resultado erróneo. |
| # Pendiente | Número de registros de resultados de prueba con un resultado pendiente. |
| # Desconocido | Número de registros de resultados de prueba con un resultado desconocido. |
| # Error | Número de registros de resultados de prueba con un resultado de error. |
Resultados detallados
Analice los resultados después de completar cada paso, ya que algunos resultados solo están disponibles después de que finalicen los pasos. Por ejemplo, las pruebas de coincidencia de temas necesitan enriquecimiento de Dataverse para ejecutarse por completo, ya que solo este paso proporciona información sobre el nombre del tema que se desencadenó.
Puede editar la vista de resultados para ajustar los resultados individualmente.
Cada resultado tiene una sección Motivo del resultado que se rellena automáticamente con una explicación del resultado. En el caso de las evaluaciones generadas por IA, se recomienda una revisión humana: "Evaluación generada por IA de la evaluación. Por favor revise." Los evaluadores pueden usar este atributo para agregar sus propios comentarios y notas en una prueba.
Para cada uno de los siguientes tipos de prueba, puede usar el filtro Resultados para ver solo los resultados de un tipo específico:
- Resultados de respuestas generativas
- Resultados de coincidencia de respuesta
- Resultados de coincidencia de temas
- Resultados de adjunto
Detalle del Resultado de la Prueba del Agente
El formulario de resultados de prueba del agente proporciona detalles sobre cada ejecución de prueba individual. El sistema crea automáticamente estos registros.
| Nombre de la columna | Description |
|---|---|
| Id. de la conversación | Identificador de la conversación que proporciona Direct Line API. |
| Ejecución de pruebas del agente | Ejecución de prueba a la que se relaciona el registro. |
| Prueba de Agente | Pruebe a qué está relacionado el registro. Puede ver los detalles de la prueba en un formulario de vista rápida. |
| Resultado | Resultado: Success, Failed, Unknown, Error, Pending. |
| Explicación | Explicación generada automáticamente del resultado. |
| Latencia (ms) | Tiempo, en milisegundos, que el agente tarda en devolver el mensaje después de recibir el mensaje de prueba. |
| Mensaje enviado | Marca de tiempo del mensaje que envía el usuario. |
| Respuesta recibida | Marca de tiempo del mensaje que envía el agente. |
| Respuesta | Mensaje de texto que envía el agente. |
| Resultado de App Insights | Resultados de respuesta generativa de Aplicación de Azure Insights (cuando se habilita Enrich With Aplicación de Azure Insights ). |
| Identificador de tema desencadenado | Identificador único del registro del subcomponente del chatbot para el tema desencadenado en Dataverse (cuando se habilita Enriquecer con transcripciones de conversación). |
| Tema o evento desencadenado | Nombre del tema desencadenado (cuando se habilita Enrich With Conversation Transcripts ). Si coinciden varios temas, IntentCandidates. Para alternativa y acelerador de conversación, UnknownIntent. |
| Puntuación de intención reconocida | Si se produce el reconocimiento de intenciones, la puntuación de la intención principal. |
| Transcripción de conversación | Archivo adjunto del archivo JSON de la transcripción completa de la conversación (cuando Enriquecer con transcripciones de conversación está habilitado y Copiar transcripción completa está configurado a 'sí'). |
| Acciones sugeridas | Cuando esté disponible, el JSON de las acciones sugeridas que el agente retorna y asocia con su respuesta. |
| Attachments | Cuando está disponible, JSON de la matriz de datos adjuntos que el agente devuelve y asocia a su respuesta. |
| Citas | Para las respuestas generadas, una matriz JSON de las citas que usa el agente para generar la respuesta (cuando se habilita Enriquecer con transcripciones de la conversación). |
Inspección de la transcripción
Si habilita Enriquecer con transcripciones de conversación y establece Copiar transcripción completa en sí, el resultado de la prueba incluye la transcripción completa. Al analizar un resultado de prueba, vaya a la pestaña Transcripción para obtener una vista de transcripción detallada en formato JSON con una visualización adjunta.
Análisis de resultados de pruebas de varios turnos
La vista de resultados muestra pruebas de varios turnos junto con otros tipos de pruebas. Verá el resultado general (Éxito o Fallido) en la columna Resultado. Seleccione el valor de ID de Conversación para ver los detalles de la prueba con varios turnos y una lista de subpruebas que forman parte de la prueba.
En la vista detallada de los Resultados de Pruebas Multiturn, puede ver los resultados de subpruebas individuales y examinar detalladamente sus detalles. El resultado de una prueba de varios turnos depende de los resultados de sus pruebas secundarias marcadas como críticas. Las pruebas secundarias no críticas pueden producir errores y el caso de prueba de varios turnos continúa hasta el siguiente caso de prueba. Si alguna de las pruebas infantiles críticas falla, la ejecución de ese turno múltiple se detiene y la prueba se marca como Fallida. Si se superan todas las pruebas secundarias críticas, el resultado de la prueba de múltiples ciclos es Éxito.
Los casos de prueba de múltiples turnos pueden incluir pruebas que no sean críticas, ya que suministran información al orquestador generativo. La respuesta exacta al caso de prueba no es importante, sino las pruebas críticas que le siguen.
La prueba multiturno (y el Resultado de la Prueba Multiturno) puede incluir cualquiera de los tipos prueba normales: coincidencia de respuesta, datos adjuntos, coincidencia de tema y respuestas generativas.
Dónde obtener ayuda
Si experimenta problemas, revise la guía de solución de problemas o genere una solicitud de soporte técnico en GitHub.