Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo, aprenderá a:
- Busque y abra ejecuciones de evaluación.
- Vea las métricas agregadas y a nivel de muestra.
- Compare los resultados entre ejecuciones.
- Interpretar categorías y cálculos de métricas.
- Solución de problemas de métricas que faltan o parciales.
Requisitos previos
- Rol de Usuario de Azure AI en el proyecto Foundry. Para obtener más información, consulte control de acceso basado en roles para Microsoft Foundry.
- Una evaluación completada.
- Para ejecutar evaluaciones en el portal, consulte Evaluación de aplicaciones y modelos de IA generativos.
- Para ejecutar evaluaciones desde el SDK, consulte Ejecución de evaluaciones desde el SDK o Evaluación de los agentes de IA.
Ver los resultados de la evaluación
En el portal de Foundry, vaya al proyecto y seleccione Evaluación en el panel izquierdo.
Seleccione una ejecución de evaluación de la lista para abrir su página de detalles. Si la ejecución sigue en curso, el estado muestra En ejecución y se actualiza automáticamente cuando se completa.
En la página de detalles se muestra lo siguiente:
Campo Descripción Nombre Nombre de la ejecución de evaluación. Objetivo Modelo o agente que se evaluó. Conjunto de datos Conjunto de datos de prueba usado. Seleccione el icono de descarga para exportarlo como un archivo CSV. Estado Estado actual de la ejecución (En ejecución, Completado o Error). Tokens de evaluación Tokens consumidos por los evaluadores durante la ejecución. Tokens de destino Tokens consumidos por el modelo o agente que se está evaluando. Puntuaciones Puntuación de agregado para cada evaluador utilizado. Mantenga el puntero sobre una celda de puntuación para ver los detalles de uso de tokens y el contexto adicional.
Seleccione Más información sobre las métricas para ver las definiciones de métricas y las fórmulas de puntuación.
Detalles de ejecución de evaluación
Seleccione el nombre de la ejecución para ver los resultados a nivel de fila de cada consulta individual. Para cada fila, puede ver la consulta, la respuesta, la verdad fundamental, la puntuación del evaluador y la explicación de la puntuación.
Comparación de los resultados de la evaluación
Para comparar dos o más ejecuciones, seleccione las ejecuciones que desea comparar e iniciar el proceso.
- Seleccione dos o más ejecuciones en la página de detalles de evaluación.
- Seleccione Comparar.
Verá una vista de comparación lado a lado para todas las ejecuciones seleccionadas.
La comparación usa pruebas t estadísticas, lo que proporciona resultados más confidenciales y confiables para ayudarle a tomar decisiones. Puede usar diferentes funcionalidades de esta característica:
- Comparación de línea base: al establecer una ejecución de línea base, puede identificar un punto de referencia con el que comparar las demás ejecuciones. Puede ver cómo cada ejecución se desvía del estándar elegido.
- Evaluación estadística de pruebas t: cada celda proporciona los resultados de stat-sig con códigos de color diferentes. También puede mantener el puntero sobre la celda para obtener el tamaño de la muestra y el valor p.
| Leyenda | Definición |
|---|---|
| ImprovedStrong | Altamente significativo en términos estadísticos (p<=0.001) y se movió en la dirección deseada |
| ImprovedWeak | Stat-sig (0.001<p<=0.05) y se mueve en la dirección deseada |
| DegradadoFuerte | Altamente significativo a nivel estadístico (p<=0.001) y se mueven en la dirección equivocada |
| Débil degradado | Stat-sig (0.001<p<=0.05) y se movió en la dirección incorrecta |
| ChangedStrong | Muy significativa estadísticamente (p<=0.001) y la dirección que se desea es neutral |
| CambiadorDébil | Stat-sig (0.001<p<=0.05) y la dirección deseada es neutral |
| Inconclusivo | Demasiados pocos ejemplos, o p>=0,05 |
Nota
La vista de comparación no se guarda. Si deja la página, puede volver a seleccionar las ejecuciones y seleccionar Comparar para volver a generar la vista.
Descripción de las métricas de evaluación integradas
Comprender las métricas integradas es esencial para evaluar el rendimiento y la eficacia de la aplicación de inteligencia artificial. Al aprender sobre estas herramientas de medición clave, puede interpretar los resultados, tomar decisiones informadas y ajustar la aplicación para lograr resultados óptimos.
Para más información, consulte Evaluadores integrados.
Solución de problemas
| Síntoma | Causa posible | Acción |
|---|---|---|
| La ejecución sigue pendiente | Carga de servicio alta o trabajos en cola | Actualizar, comprobar la cuota y volver a enviar si se prolonga |
| Faltan métricas | No se ha seleccionado en la creación | Vuelva a ejecutar y seleccione las métricas necesarias. |
| Todas las métricas de seguridad son cero | Categoría deshabilitada o modelo no admitido | Confirmar el soporte para el modelo y el evaluador en evaluadores de riesgos y seguridad |
| La firmeza sorprendentemente baja | Recuperación/contexto incompleto | Verificación de la latencia de construcción y recuperación del contexto |