Visualización de los resultados de la evaluación en el portal de Microsoft Foundry

En este artículo, aprenderá a:

  • Busque y abra ejecuciones de evaluación.
  • Vea las métricas agregadas y a nivel de muestra.
  • Compare los resultados entre ejecuciones.
  • Interpretar categorías y cálculos de métricas.
  • Solución de problemas de métricas que faltan o parciales.

Requisitos previos

Ver los resultados de la evaluación

  1. En el portal de Foundry, vaya al proyecto y seleccione Evaluación en el panel izquierdo.

  2. Seleccione una ejecución de evaluación de la lista para abrir su página de detalles. Si la ejecución sigue en curso, el estado muestra En ejecución y se actualiza automáticamente cuando se completa.

    En la página de detalles se muestra lo siguiente:

    Campo Descripción
    Nombre Nombre de la ejecución de evaluación.
    Objetivo Modelo o agente que se evaluó.
    Conjunto de datos Conjunto de datos de prueba usado. Seleccione el icono de descarga para exportarlo como un archivo CSV.
    Estado Estado actual de la ejecución (En ejecución, Completado o Error).
    Tokens de evaluación Tokens consumidos por los evaluadores durante la ejecución.
    Tokens de destino Tokens consumidos por el modelo o agente que se está evaluando.
    Puntuaciones Puntuación de agregado para cada evaluador utilizado.

    Captura de pantalla de la página de Evaluación que muestra una lista de ejecuciones con las columnas Nombre, Estado, Objetivo, Fichas de evaluación, Fichas de destino y Puntuaciones.

  3. Mantenga el puntero sobre una celda de puntuación para ver los detalles de uso de tokens y el contexto adicional.

    Captura de pantalla de la página de Evaluación con una celda de puntuación al pasar el ratón, mostrando un globo informativo con el desglose del uso de tokens.

  4. Seleccione Más información sobre las métricas para ver las definiciones de métricas y las fórmulas de puntuación.

Detalles de ejecución de evaluación

Seleccione el nombre de la ejecución para ver los resultados a nivel de fila de cada consulta individual. Para cada fila, puede ver la consulta, la respuesta, la verdad fundamental, la puntuación del evaluador y la explicación de la puntuación.

Comparación de los resultados de la evaluación

Para comparar dos o más ejecuciones, seleccione las ejecuciones que desea comparar e iniciar el proceso.

  1. Seleccione dos o más ejecuciones en la página de detalles de evaluación.
  2. Seleccione Comparar.

Verá una vista de comparación lado a lado para todas las ejecuciones seleccionadas.

La comparación usa pruebas t estadísticas, lo que proporciona resultados más confidenciales y confiables para ayudarle a tomar decisiones. Puede usar diferentes funcionalidades de esta característica:

  • Comparación de línea base: al establecer una ejecución de línea base, puede identificar un punto de referencia con el que comparar las demás ejecuciones. Puede ver cómo cada ejecución se desvía del estándar elegido.
  • Evaluación estadística de pruebas t: cada celda proporciona los resultados de stat-sig con códigos de color diferentes. También puede mantener el puntero sobre la celda para obtener el tamaño de la muestra y el valor p.
Leyenda Definición
ImprovedStrong Altamente significativo en términos estadísticos (p<=0.001) y se movió en la dirección deseada
ImprovedWeak Stat-sig (0.001<p<=0.05) y se mueve en la dirección deseada
DegradadoFuerte Altamente significativo a nivel estadístico (p<=0.001) y se mueven en la dirección equivocada
Débil degradado Stat-sig (0.001<p<=0.05) y se movió en la dirección incorrecta
ChangedStrong Muy significativa estadísticamente (p<=0.001) y la dirección que se desea es neutral
CambiadorDébil Stat-sig (0.001<p<=0.05) y la dirección deseada es neutral
Inconclusivo Demasiados pocos ejemplos, o p>=0,05

Nota

La vista de comparación no se guarda. Si deja la página, puede volver a seleccionar las ejecuciones y seleccionar Comparar para volver a generar la vista.

Descripción de las métricas de evaluación integradas

Comprender las métricas integradas es esencial para evaluar el rendimiento y la eficacia de la aplicación de inteligencia artificial. Al aprender sobre estas herramientas de medición clave, puede interpretar los resultados, tomar decisiones informadas y ajustar la aplicación para lograr resultados óptimos.

Para más información, consulte Evaluadores integrados.

Solución de problemas

Síntoma Causa posible Acción
La ejecución sigue pendiente Carga de servicio alta o trabajos en cola Actualizar, comprobar la cuota y volver a enviar si se prolonga
Faltan métricas No se ha seleccionado en la creación Vuelva a ejecutar y seleccione las métricas necesarias.
Todas las métricas de seguridad son cero Categoría deshabilitada o modelo no admitido Confirmar el soporte para el modelo y el evaluador en evaluadores de riesgos y seguridad
La firmeza sorprendentemente baja Recuperación/contexto incompleto Verificación de la latencia de construcción y recuperación del contexto