Consulte los resultados de evaluación en el portal de Microsoft Foundry (clásico)

Visualización actual:Versión - Cambio a la versión del nuevo portal de Foundry

En este artículo, aprenderá a:

  • Busque y abra ejecuciones de evaluación.
  • Vea las métricas agregadas y a nivel de muestra.
  • Compare los resultados entre ejecuciones.
  • Interpretar categorías y cálculos de métricas.
  • Solución de problemas de métricas que faltan o parciales.

Requisitos previos

Ver los resultados de la evaluación

Después de enviar una evaluación, busque la ejecución en la página Evaluación . Filtre o ajuste las columnas para centrarse en ejecuciones de interés. Revise las métricas de alto nivel de un vistazo antes de profundizar.

Propina

Puede ver una ejecución de evaluación con cualquier versión del promptflow-evals SDK o de las versiones azure-ai-evaluation 1.0.0b1, 1.0.0b2, 1.0.0b3. Habilite el conmutador Mostrar todas las ejecuciones para localizar la ejecución.

Seleccione Más información sobre las métricas para definiciones y fórmulas.

Captura de pantalla que muestra los detalles de las métricas de evaluación.

Seleccione una ejecución para abrir los detalles (conjunto de datos, tipo de tarea, solicitud, parámetros) además de las métricas por muestra. El panel de métricas visualiza la tasa de pases o la puntuación de agregado por métrica.

Precaución

Los usuarios que administraron previamente sus implementaciones de modelo y ejecutaron evaluaciones mediante oai.azure.com y, a continuación, se incorporaron a la plataforma para desarrolladores de Microsoft Foundry, tienen estas limitaciones cuando usan ai.azure.com:

  • Estos usuarios no pueden ver sus evaluaciones creadas a través de la API de OpenAI de Azure. Para ver estas evaluaciones, tienen que volver a oai.azure.com.
  • Estos usuarios no pueden usar la API de OpenAI de Azure para ejecutar evaluaciones en Foundry. En su lugar, deben seguir usando oai.azure.com para esta tarea. Sin embargo, pueden usar los evaluadores Azure OpenAI que están disponibles directamente en Foundry (ai.azure.com) en la opción para la creación de la evaluación del conjunto de datos. No se admite la opción de evaluación de modelos optimizados si la implementación es una migración de Azure OpenAI a Foundry.

Para el escenario de subida de conjuntos de datos y utilice su propio almacenamiento, hay algunos requisitos de configuración:

  • La autenticación de la cuenta debe ser Microsoft Entra ID.
  • El almacenamiento debe agregarse a la cuenta. Agregarlo al proyecto provoca errores de servicio.
  • Los usuarios deben agregar su proyecto a su cuenta de almacenamiento mediante el control de acceso en el portal de Azure.

Para más información sobre cómo crear evaluaciones con los evaluadores de OpenAI en el hub de Azure OpenAI, consulte Cómo usar Azure OpenAI en la evaluación de modelos de Foundry.

Panel de métricas

En la sección Panel de métricas , las vistas agregadas se desglosan por métricas que incluyen la calidad de la inteligencia artificial (asistida por IA),el riesgo y la seguridad (versión preliminar),la calidad de ia (NLP) y la personalizada (cuando corresponda). Los resultados se miden como porcentajes de paso o error en función de los criterios seleccionados cuando se creó la evaluación. Para obtener información más detallada sobre las definiciones de métricas y cómo se calculan, consulte Evaluadores integrados.

  • En el caso de las métricas de calidad de inteligencia artificial (asistida por IA), los resultados se agregan al promedio de todas las puntuaciones por métrica. Si utiliza Groundedness Pro, la salida es de tipo binario y la puntuación agregada es la tasa de aprobación: (#trues / #instances) × 100. Captura de pantalla que muestra la pestaña de
  • Para las métricas de riesgo y seguridad (versión preliminar), los resultados se agregan por tasa de defectos.
    • Daño al contenido: porcentaje de instancias que superan el umbral de gravedad (valor predeterminado Medium).
    • Para el material protegido y el ataque indirecto, la tasa de defectos se calcula como el porcentaje de instancias en las que la salida es true mediante la fórmula (Defect Rate = (#trues / #instances) × 100). Captura de pantalla que muestra la pestaña del panel de métricas de riesgo y seguridad.
  • En el caso de las métricas de calidad de inteligencia artificial (NLP), los resultados se agregan al promedio de puntuaciones por métrica. Captura de pantalla que muestra la pestaña del panel de calidad de IA (NLP).

Tabla de resultados de métricas detalladas

Use la tabla del panel para inspeccionar cada ejemplo de datos. Ordene por una métrica para exponer las muestras con peor rendimiento e identificar brechas sistemáticas (resultados incorrectos, errores de seguridad, latencia). Utiliza la búsqueda para agrupar temas de fallas relacionadas. Aplique la personalización de columna para centrarse en las métricas clave.

Acciones típicas:

  • Filtre las puntuaciones bajas para detectar patrones periódicos.
  • Ajuste las instrucciones o realice ajustes cuando aparezcan brechas sistémicas.
  • Exportar para análisis offline.

Estos son algunos ejemplos de los resultados de las métricas para el escenario de respuesta a preguntas:

Captura de pantalla que muestra los resultados de las métricas para el escenario de respuesta a preguntas.

Algunas evaluaciones tienen subevaluadores, que permiten ver el JSON de los resultados de las subevaluaciones. Para ver los resultados, seleccione Ver en JSON.

Captura de pantalla que muestra los resultados detallados de las métricas con JSON seleccionado.

Vea el archivo JSON en la versión preliminar de JSON:

Captura de pantalla que muestra la versión preliminar de JSON.

Estos son algunos ejemplos de los resultados de las métricas para el escenario de conversación. Para revisar los resultados a lo largo de una conversación multiturno, seleccione Ver resultados de evaluación por turno en la columna Conversación .

Captura de pantalla que muestra los resultados de las métricas para el escenario de conversación.

Al seleccionar Ver resultados de evaluación por turno, verá la siguiente pantalla:

Captura de pantalla que muestra los resultados de la evaluación por turno.

Para una evaluación de seguridad en un escenario multi modal (texto e imágenes), puede comprender mejor el resultado de la evaluación revisando las imágenes de la entrada y salida en la tabla de resultados de métricas detalladas. Dado que la evaluación multi modal solo se admite actualmente en escenarios de conversación, puede seleccionar Ver resultados de evaluación por turno para examinar la entrada y la salida de cada turno.

Captura de pantalla que muestra el cuadro de diálogo de imagen de la columna de conversación.

Seleccione la imagen para expandirla y verla. De forma predeterminada, todas las imágenes se desenfocan para protegerte del contenido potencialmente dañino. Para ver claramente la imagen, active el interruptor Verificar desenfoque de imagen.

Captura de pantalla que muestra una imagen borrosa y el botón de alternancia Verificar desenfoque de imagen.

Los resultados de la evaluación pueden tener significados diferentes para diferentes audiencias. Por ejemplo, las evaluaciones de seguridad podrían generar una etiqueta para una gravedad baja del contenido violento que podría no alinearse con la definición de un revisor humano de la gravedad de ese contenido violento específico. El grado de aprobación establecido durante la creación de la evaluación determina si se asigna un pase o error. Hay una columna de comentarios humanos en la que puede seleccionar un icono de pulgar hacia arriba o hacia abajo mientras revisa los resultados de la evaluación. Puede usar esta columna para registrar las instancias aprobadas o marcadas como incorrectas por un revisor humano.

Captura de pantalla que muestra los resultados de las métricas de riesgo y seguridad con comentarios humanos.

Para comprender cada métrica de riesgo de contenido, vea las definiciones de métricas en la sección Informe o revise la prueba en la sección Panel de métricas .

Si hay algún problema con la ejecución, también puede usar los logs para depurar una ejecución de evaluación. Estos son algunos ejemplos de registros que puede usar para depurar la ejecución de la evaluación.

Captura de pantalla que muestra los registros que puede usar para depurar la ejecución de evaluación.

Si está evaluando un flujo de solicitud, puede hacer clic en el botón Ver en flujo para ir a la página del flujo evaluado y actualizar su flujo. Por ejemplo, puede agregar instrucciones adicionales de meta prompt o cambiar algunos parámetros y volver a evaluar.

Comparación de los resultados de la evaluación

Para comparar dos o más ejecuciones, seleccione las ejecuciones deseadas e inicie el proceso. Seleccione el botón Comparar o el botón Cambiar a la vista del panel para ver un panel detallado. Analice y contraste el rendimiento y los resultados de varias ejecuciones para tomar decisiones fundamentadas y mejoras dirigidas.

Captura de pantalla que muestra la opción para comparar las evaluaciones.

En la vista del panel, tiene acceso a dos componentes valiosos: el gráfico de comparación de distribución de métricas y la tabla de comparación. Puede usar estas herramientas para realizar un análisis en paralelo de las ejecuciones de evaluación seleccionadas. Puede comparar varios aspectos de cada ejemplo de datos con facilidad y precisión.

Nota

De forma predeterminada, las ejecuciones de evaluación anteriores tienen filas coincidentes entre columnas. Sin embargo, las evaluaciones recién ejecutadas deben configurarse intencionadamente para que tengan columnas coincidentes durante la creación de la evaluación. Asegúrese de que se usa el mismo nombre que el valor Nombre de criterios en todas las evaluaciones que desea comparar.

En la captura de pantalla siguiente se muestran los resultados cuando los campos son los mismos:

Captura de pantalla que muestra las evaluaciones automatizadas cuando los campos son los mismos.

Cuando un usuario no usa el mismo nombre de criterios para crear la evaluación, los campos no coinciden, lo que hace que la plataforma no pueda comparar directamente los resultados:

Captura de pantalla que muestra las evaluaciones automatizadas cuando los campos no son los mismos.

En la tabla de comparación, pase el cursor por encima de la ejecución que desea usar como punto de referencia y establézcala como línea de base. Activa el interruptor Mostrar delta para visualizar las diferencias entre la línea de base y otras ejecuciones para los valores numéricos. Seleccione el conmutador Mostrar solo diferencia para que solo se muestren los renglones que difieren entre las ejecuciones seleccionadas, lo que ayuda a identificar las variaciones.

Con estas características de comparación, puede tomar una decisión informada para seleccionar la mejor versión:

  • Comparación de línea base: al establecer una ejecución de línea base, puede identificar un punto de referencia con el que comparar las demás ejecuciones. Puede ver cómo cada ejecución se desvía del estándar elegido.
  • Evaluación de valores numéricos: habilitar la opción Mostrar delta le ayuda a comprender la extensión de las diferencias entre la línea base y otras ejecuciones. Esta información puede ayudarle a evaluar el rendimiento de varias ejecuciones en términos de métricas de evaluación específicas.
  • Aislamiento de diferencias: la característica Mostrar solo diferencia simplifica el análisis resaltando solo las áreas en las que hay discrepancias entre ejecuciones. Esta información puede ser fundamental para identificar dónde se necesitan mejoras o ajustes.

Utilizar las herramientas de comparación para elegir la configuración de mejor rendimiento y evitar regresiones en seguridad o fundamentación.

Captura de pantalla que muestra los resultados de la evaluación en paralelo.

Medición de la vulnerabilidad de jailbreak

Evaluar la vulnerabilidad de jailbreak es una medición comparativa, no una métrica asistida por IA. Ejecute evaluaciones en dos conjuntos de datos de color rojo diferentes: un conjunto de datos de prueba adversario de línea de base frente al mismo conjunto de datos de prueba adversario con inyecciones de jailbreak en el primer turno. Puede usar el simulador de datos adversarios para generar el conjunto de datos con o sin inyecciones de jailbreak. Asegúrese de que el valor nombre de criterios es el mismo para cada métrica de evaluación al configurar las ejecuciones.

Para comprobar si su aplicación es vulnerable a un jailbreak, especifique la línea de base y active la opción de Tasas de defectos de Jailbreak en la tabla de comparación. La tasa de defectos de jailbreak es el porcentaje de instancias del conjunto de datos de prueba donde una inyección de jailbreak genera una puntuación de gravedad más alta para cualquier métrica de riesgo de contenido en comparación con una línea base en todo el conjunto de datos. Seleccione varias evaluaciones en el panel Comparar para ver la diferencia en las tasas de defectos.

Captura de pantalla de los resultados de la evaluación en paralelo con el defecto de jailbreak activado.

Propina

La tasa de defectos de jailbreak solo se calcula para los conjuntos de datos del mismo tamaño y cuando todas las ejecuciones incluyen métricas de seguridad y riesgo de contenido.

Descripción de las métricas de evaluación integradas

Comprender las métricas integradas es esencial para evaluar el rendimiento y la eficacia de la aplicación de inteligencia artificial. Al aprender sobre estas herramientas de medición clave, puede interpretar los resultados, tomar decisiones informadas y ajustar la aplicación para lograr resultados óptimos.

Para más información, consulte Evaluadores integrados.

Solución de problemas

Síntoma Causa posible Acción
La ejecución sigue pendiente Carga de servicio alta o trabajos en cola Actualizar, comprobar la cuota y volver a enviar si se prolonga
Faltan métricas No se ha seleccionado en la creación Vuelva a ejecutar y seleccione las métricas necesarias.
Todas las métricas de seguridad son cero Categoría deshabilitada o modelo no admitido Confirmación de la matriz de compatibilidad de modelos y métricas
La firmeza sorprendentemente baja Recuperación/contexto incompleto Verificación de la latencia de construcción y recuperación del contexto

Obtenga información sobre cómo evaluar las aplicaciones de IA generativas: