Consulte los resultados de evaluación en el portal de Microsoft Foundry (clásico)

Visualización actual:Versión - Cambio a la versión del nuevo portal de Foundry

En este artículo, aprenderá a:

Busque y abra ejecuciones de evaluación.
Vea las métricas agregadas y a nivel de muestra.
Compare los resultados entre ejecuciones.
Interpretar categorías y cálculos de métricas.
Solución de problemas de métricas que faltan o parciales.

Requisitos previos

Una ejecución de evaluación.
- Para obtener información sobre cómo ejecutar evaluaciones en el portal, consulte Evaluación de aplicaciones y modelos de IA generativos.
- Para obtener información sobre cómo ejecutar evaluaciones desde el SDK, consulte Ejecución de evaluaciones en la nube o Ejecución de evaluaciones localmente.

Ver los resultados de la evaluación

Después de enviar una evaluación, busque la ejecución en la página Evaluación . Filtre o ajuste las columnas para centrarse en ejecuciones de interés. Revise las métricas de alto nivel de un vistazo antes de profundizar.

Propina

Puede ver una ejecución de evaluación con cualquier versión del promptflow-evals SDK o de las versiones azure-ai-evaluation 1.0.0b1, 1.0.0b2, 1.0.0b3. Habilite el conmutador Mostrar todas las ejecuciones para localizar la ejecución.

Seleccione Más información sobre las métricas para definiciones y fórmulas.

Seleccione una ejecución para abrir los detalles (conjunto de datos, tipo de tarea, solicitud, parámetros) además de las métricas por muestra. El panel de métricas visualiza la tasa de pases o la puntuación de agregado por métrica.

Precaución

Los usuarios que administraron previamente sus implementaciones de modelo y ejecutaron evaluaciones mediante oai.azure.com y, a continuación, se incorporaron a la plataforma para desarrolladores de Microsoft Foundry, tienen estas limitaciones cuando usan ai.azure.com:

Estos usuarios no pueden ver sus evaluaciones creadas a través de la API de OpenAI de Azure. Para ver estas evaluaciones, tienen que volver a oai.azure.com.
Estos usuarios no pueden usar la API de OpenAI de Azure para ejecutar evaluaciones en Foundry. En su lugar, deben seguir usando oai.azure.com para esta tarea. Sin embargo, pueden usar los evaluadores Azure OpenAI que están disponibles directamente en Foundry (ai.azure.com) en la opción para la creación de la evaluación del conjunto de datos. No se admite la opción de evaluación de modelos optimizados si la implementación es una migración de Azure OpenAI a Foundry.

Para el escenario de subida de conjuntos de datos y utilice su propio almacenamiento, hay algunos requisitos de configuración:

La autenticación de la cuenta debe ser Microsoft Entra ID.
El almacenamiento debe agregarse a la cuenta. Agregarlo al proyecto provoca errores de servicio.
Los usuarios deben agregar su proyecto a su cuenta de almacenamiento mediante el control de acceso en el portal de Azure.

Para más información sobre cómo crear evaluaciones con los evaluadores de OpenAI en el hub de Azure OpenAI, consulte Cómo usar Azure OpenAI en la evaluación de modelos de Foundry.

Panel de métricas

En la sección Panel de métricas , las vistas agregadas se desglosan por métricas que incluyen la calidad de la inteligencia artificial (asistida por IA),el riesgo y la seguridad (versión preliminar),la calidad de ia (NLP) y la personalizada (cuando corresponda). Los resultados se miden como porcentajes de paso o error en función de los criterios seleccionados cuando se creó la evaluación. Para obtener información más detallada sobre las definiciones de métricas y cómo se calculan, consulte Evaluadores integrados.

En el caso de las métricas de calidad de inteligencia artificial (asistida por IA), los resultados se agregan al promedio de todas las puntuaciones por métrica. Si utiliza Groundedness Pro, la salida es de tipo binario y la puntuación agregada es la tasa de aprobación: (#trues / #instances) × 100.
Para las métricas de riesgo y seguridad (versión preliminar), los resultados se agregan por tasa de defectos.
- Daño al contenido: porcentaje de instancias que superan el umbral de gravedad (valor predeterminado Medium).
- Para el material protegido y el ataque indirecto, la tasa de defectos se calcula como el porcentaje de instancias en las que la salida es true mediante la fórmula (Defect Rate = (#trues / #instances) × 100).
En el caso de las métricas de calidad de inteligencia artificial (NLP), los resultados se agregan al promedio de puntuaciones por métrica.

Tabla de resultados de métricas detalladas

Use la tabla del panel para inspeccionar cada ejemplo de datos. Ordene por una métrica para exponer las muestras con peor rendimiento e identificar brechas sistemáticas (resultados incorrectos, errores de seguridad, latencia). Utiliza la búsqueda para agrupar temas de fallas relacionadas. Aplique la personalización de columna para centrarse en las métricas clave.

Acciones típicas:

Filtre las puntuaciones bajas para detectar patrones periódicos.
Ajuste las instrucciones o realice ajustes cuando aparezcan brechas sistémicas.
Exportar para análisis offline.

Estos son algunos ejemplos de los resultados de las métricas para el escenario de respuesta a preguntas:

Algunas evaluaciones tienen subevaluadores, que permiten ver el JSON de los resultados de las subevaluaciones. Para ver los resultados, seleccione Ver en JSON.

Vea el archivo JSON en la versión preliminar de JSON:

Estos son algunos ejemplos de los resultados de las métricas para el escenario de conversación. Para revisar los resultados a lo largo de una conversación multiturno, seleccione Ver resultados de evaluación por turno en la columna Conversación .

Al seleccionar Ver resultados de evaluación por turno, verá la siguiente pantalla:

Para una evaluación de seguridad en un escenario multi modal (texto e imágenes), puede comprender mejor el resultado de la evaluación revisando las imágenes de la entrada y salida en la tabla de resultados de métricas detalladas. Dado que la evaluación multi modal solo se admite actualmente en escenarios de conversación, puede seleccionar Ver resultados de evaluación por turno para examinar la entrada y la salida de cada turno.

Seleccione la imagen para expandirla y verla. De forma predeterminada, todas las imágenes se desenfocan para protegerte del contenido potencialmente dañino. Para ver claramente la imagen, active el interruptor Verificar desenfoque de imagen.

Los resultados de la evaluación pueden tener significados diferentes para diferentes audiencias. Por ejemplo, las evaluaciones de seguridad podrían generar una etiqueta para una gravedad baja del contenido violento que podría no alinearse con la definición de un revisor humano de la gravedad de ese contenido violento específico. El grado de aprobación establecido durante la creación de la evaluación determina si se asigna un pase o error. Hay una columna de comentarios humanos en la que puede seleccionar un icono de pulgar hacia arriba o hacia abajo mientras revisa los resultados de la evaluación. Puede usar esta columna para registrar las instancias aprobadas o marcadas como incorrectas por un revisor humano.

Para comprender cada métrica de riesgo de contenido, vea las definiciones de métricas en la sección Informe o revise la prueba en la sección Panel de métricas .

Si hay algún problema con la ejecución, también puede usar los logs para depurar una ejecución de evaluación. Estos son algunos ejemplos de registros que puede usar para depurar la ejecución de la evaluación.

Si está evaluando un flujo de solicitud, puede hacer clic en el botón Ver en flujo para ir a la página del flujo evaluado y actualizar su flujo. Por ejemplo, puede agregar instrucciones adicionales de meta prompt o cambiar algunos parámetros y volver a evaluar.

Comparación de los resultados de la evaluación

Para comparar dos o más ejecuciones, seleccione las ejecuciones deseadas e inicie el proceso. Seleccione el botón Comparar o el botón Cambiar a la vista del panel para ver un panel detallado. Analice y contraste el rendimiento y los resultados de varias ejecuciones para tomar decisiones fundamentadas y mejoras dirigidas.

En la vista del panel, tiene acceso a dos componentes valiosos: el gráfico de comparación de distribución de métricas y la tabla de comparación. Puede usar estas herramientas para realizar un análisis en paralelo de las ejecuciones de evaluación seleccionadas. Puede comparar varios aspectos de cada ejemplo de datos con facilidad y precisión.

Nota

De forma predeterminada, las ejecuciones de evaluación anteriores tienen filas coincidentes entre columnas. Sin embargo, las evaluaciones recién ejecutadas deben configurarse intencionadamente para que tengan columnas coincidentes durante la creación de la evaluación. Asegúrese de que se usa el mismo nombre que el valor Nombre de criterios en todas las evaluaciones que desea comparar.

En la captura de pantalla siguiente se muestran los resultados cuando los campos son los mismos:

Cuando un usuario no usa el mismo nombre de criterios para crear la evaluación, los campos no coinciden, lo que hace que la plataforma no pueda comparar directamente los resultados:

En la tabla de comparación, pase el cursor por encima de la ejecución que desea usar como punto de referencia y establézcala como línea de base. Activa el interruptor Mostrar delta para visualizar las diferencias entre la línea de base y otras ejecuciones para los valores numéricos. Seleccione el conmutador Mostrar solo diferencia para que solo se muestren los renglones que difieren entre las ejecuciones seleccionadas, lo que ayuda a identificar las variaciones.

Con estas características de comparación, puede tomar una decisión informada para seleccionar la mejor versión:

Comparación de línea base: al establecer una ejecución de línea base, puede identificar un punto de referencia con el que comparar las demás ejecuciones. Puede ver cómo cada ejecución se desvía del estándar elegido.
Evaluación de valores numéricos: habilitar la opción Mostrar delta le ayuda a comprender la extensión de las diferencias entre la línea base y otras ejecuciones. Esta información puede ayudarle a evaluar el rendimiento de varias ejecuciones en términos de métricas de evaluación específicas.
Aislamiento de diferencias: la característica Mostrar solo diferencia simplifica el análisis resaltando solo las áreas en las que hay discrepancias entre ejecuciones. Esta información puede ser fundamental para identificar dónde se necesitan mejoras o ajustes.

Utilizar las herramientas de comparación para elegir la configuración de mejor rendimiento y evitar regresiones en seguridad o fundamentación.

Medición de la vulnerabilidad de jailbreak

Evaluar la vulnerabilidad de jailbreak es una medición comparativa, no una métrica asistida por IA. Ejecute evaluaciones en dos conjuntos de datos de color rojo diferentes: un conjunto de datos de prueba adversario de línea de base frente al mismo conjunto de datos de prueba adversario con inyecciones de jailbreak en el primer turno. Puede usar el simulador de datos adversarios para generar el conjunto de datos con o sin inyecciones de jailbreak. Asegúrese de que el valor nombre de criterios es el mismo para cada métrica de evaluación al configurar las ejecuciones.

Para comprobar si su aplicación es vulnerable a un jailbreak, especifique la línea de base y active la opción de Tasas de defectos de Jailbreak en la tabla de comparación. La tasa de defectos de jailbreak es el porcentaje de instancias del conjunto de datos de prueba donde una inyección de jailbreak genera una puntuación de gravedad más alta para cualquier métrica de riesgo de contenido en comparación con una línea base en todo el conjunto de datos. Seleccione varias evaluaciones en el panel Comparar para ver la diferencia en las tasas de defectos.

Propina

La tasa de defectos de jailbreak solo se calcula para los conjuntos de datos del mismo tamaño y cuando todas las ejecuciones incluyen métricas de seguridad y riesgo de contenido.

Descripción de las métricas de evaluación integradas

Comprender las métricas integradas es esencial para evaluar el rendimiento y la eficacia de la aplicación de inteligencia artificial. Al aprender sobre estas herramientas de medición clave, puede interpretar los resultados, tomar decisiones informadas y ajustar la aplicación para lograr resultados óptimos.

Para más información, consulte Evaluadores integrados.

Solución de problemas

Síntoma	Causa posible	Acción
La ejecución sigue pendiente	Carga de servicio alta o trabajos en cola	Actualizar, comprobar la cuota y volver a enviar si se prolonga
Faltan métricas	No se ha seleccionado en la creación	Vuelva a ejecutar y seleccione las métricas necesarias.
Todas las métricas de seguridad son cero	Categoría deshabilitada o modelo no admitido	Confirmación de la matriz de compatibilidad de modelos y métricas
La firmeza sorprendentemente baja	Recuperación/contexto incompleto	Verificación de la latencia de construcción y recuperación del contexto

Mejore las métricas bajas con iteración rápida o ajuste preciso.
Ejecutar evaluaciones en la nube con el SDK de Microsoft Foundry.

Obtenga información sobre cómo evaluar las aplicaciones de IA generativas:

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-05-01