Visualización de los resultados de la evaluación en el portal de Microsoft Foundry

En este artículo, aprenderá a:

Busque y abra ejecuciones de evaluación.
Vea las métricas agregadas y a nivel de muestra.
Compare los resultados entre ejecuciones.
Interpretar categorías y cálculos de métricas.
Solución de problemas de métricas que faltan o parciales.

Requisitos previos

Rol de Usuario de Azure AI en el proyecto Foundry. Para obtener más información, consulte control de acceso basado en roles para Microsoft Foundry.
Una evaluación completada.
- Para ejecutar evaluaciones en el portal, consulte Evaluación de aplicaciones y modelos de IA generativos.
- Para ejecutar evaluaciones desde el SDK, consulte Ejecución de evaluaciones desde el SDK o Evaluación de los agentes de IA.

Ver los resultados de la evaluación

En el portal de Foundry, vaya al proyecto y seleccione Evaluación en el panel izquierdo.

Seleccione una ejecución de evaluación de la lista para abrir su página de detalles. Si la ejecución sigue en curso, el estado muestra En ejecución y se actualiza automáticamente cuando se completa.

En la página de detalles se muestra lo siguiente:

Campo	Descripción
Nombre	Nombre de la ejecución de evaluación.
Objetivo	Modelo o agente que se evaluó.
Conjunto de datos	Conjunto de datos de prueba usado. Seleccione el icono de descarga para exportarlo como un archivo CSV.
Estado	Estado actual de la ejecución (En ejecución, Completado o Error).
Tokens de evaluación	Tokens consumidos por los evaluadores durante la ejecución.
Tokens de destino	Tokens consumidos por el modelo o agente que se está evaluando.
Puntuaciones	Puntuación de agregado para cada evaluador utilizado.

Mantenga el puntero sobre una celda de puntuación para ver los detalles de uso de tokens y el contexto adicional.
Seleccione Más información sobre las métricas para ver las definiciones de métricas y las fórmulas de puntuación.

Detalles de ejecución de evaluación

Seleccione el nombre de la ejecución para ver los resultados a nivel de fila de cada consulta individual. Para cada fila, puede ver la consulta, la respuesta, la verdad fundamental, la puntuación del evaluador y la explicación de la puntuación.

Comparación de los resultados de la evaluación

Para comparar dos o más ejecuciones, seleccione las ejecuciones que desea comparar e iniciar el proceso.

Seleccione dos o más ejecuciones en la página de detalles de evaluación.
Seleccione Comparar.

Verá una vista de comparación lado a lado para todas las ejecuciones seleccionadas.

La comparación usa pruebas t estadísticas, lo que proporciona resultados más confidenciales y confiables para ayudarle a tomar decisiones. Puede usar diferentes funcionalidades de esta característica:

Comparación de línea base: al establecer una ejecución de línea base, puede identificar un punto de referencia con el que comparar las demás ejecuciones. Puede ver cómo cada ejecución se desvía del estándar elegido.
Evaluación estadística de pruebas t: cada celda proporciona los resultados de stat-sig con códigos de color diferentes. También puede mantener el puntero sobre la celda para obtener el tamaño de la muestra y el valor p.

Leyenda	Definición
ImprovedStrong	Altamente significativo en términos estadísticos (p<=0.001) y se movió en la dirección deseada
ImprovedWeak	Stat-sig (0.001<p<=0.05) y se mueve en la dirección deseada
DegradadoFuerte	Altamente significativo a nivel estadístico (p<=0.001) y se mueven en la dirección equivocada
Débil degradado	Stat-sig (0.001<p<=0.05) y se movió en la dirección incorrecta
ChangedStrong	Muy significativa estadísticamente (p<=0.001) y la dirección que se desea es neutral
CambiadorDébil	Stat-sig (0.001<p<=0.05) y la dirección deseada es neutral
Inconclusivo	Demasiados pocos ejemplos, o p>=0,05

Nota

La vista de comparación no se guarda. Si deja la página, puede volver a seleccionar las ejecuciones y seleccionar Comparar para volver a generar la vista.

Descripción de las métricas de evaluación integradas

Comprender las métricas integradas es esencial para evaluar el rendimiento y la eficacia de la aplicación de inteligencia artificial. Al aprender sobre estas herramientas de medición clave, puede interpretar los resultados, tomar decisiones informadas y ajustar la aplicación para lograr resultados óptimos.

Para más información, consulte Evaluadores integrados.

Solución de problemas

Síntoma	Causa posible	Acción
La ejecución sigue pendiente	Carga de servicio alta o trabajos en cola	Actualizar, comprobar la cuota y volver a enviar si se prolonga
Faltan métricas	No se ha seleccionado en la creación	Vuelva a ejecutar y seleccione las métricas necesarias.
Todas las métricas de seguridad son cero	Categoría deshabilitada o modelo no admitido	Confirmar el soporte para el modelo y el evaluador en evaluadores de riesgos y seguridad
La firmeza sorprendentemente baja	Recuperación/contexto incompleto	Verificación de la latencia de construcción y recuperación del contexto

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-05-01