Guía de evaluadores integrados (clásico)

Visualización actual:Versión - Cambio a la versión del nuevo portal de Foundry

Importante

Los elementos marcados (versión preliminar) de este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se proporciona sin un contrato de nivel de servicio y no se recomienda para cargas de trabajo de producción. Es posible que algunas características no se admitan o que tengan funcionalidades restringidas. Para obtener más información, vea Supplemental Terms of Use for Microsoft Azure Previews.

Microsoft Foundry proporciona un conjunto completo de evaluadores integrados para evaluar la calidad, la seguridad y la confiabilidad de las respuestas de inteligencia artificial a lo largo del ciclo de vida de desarrollo. Esta referencia detalla todos los evaluadores disponibles, sus propósitos, las entradas necesarias y las instrucciones sobre cómo seleccionar el evaluador adecuado para su caso de uso. También puede crear evaluadores personalizados adaptados a sus criterios de evaluación específicos.

Nota

El SDK de Microsoft Foundry para la evaluación y el portal de Foundry están en versión preliminar pública, pero las API están disponibles con carácter general para la evaluación del modelo y del conjunto de datos (la evaluación del agente permanece en versión preliminar pública). El SDK de evaluación de Azure AI y los evaluadores marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública en todas partes.

Evaluadores de uso general

Evaluador	Propósito
Coherencia	Mide la coherencia lógica y el flujo de respuestas.
Fluidez	Mide la calidad y la legibilidad del lenguaje natural.

Para más información, consulte Evaluadores de uso general.

Evaluadores de similitud de texto

Evaluador	Propósito
Similitud	Medición de similitud textual asistida por IA.
Puntuación F1	Media armónica de precisión y recuperación en token se superpone entre la respuesta y la verdad del suelo.
BLEU	La puntuación de la Evaluación Bilingüe (BLEU) para medir la calidad de traducción se basa en la superposición de n-gramas entre la respuesta y la verdad de referencia.
GLEU	La variante Google-BLEU para la evaluación a nivel de oraciones mide la superposición de n-gramas entre la respuesta y la verdad fundamental.
ROUGE	Recall-Oriented Understudy for Gisting Evaluation mide la superposición de n-gramas entre la respuesta y la verdad fundamental.
METEOR	La métrica para la evaluación de la traducción con ordenación explícita mide la superposición de n-gramas entre la respuesta y la referencia.

Para más información, consulte Evaluadores de similitud de texto.

Evaluadores RAG

Evaluador	Propósito
Recuperación	Mide la eficacia en que el sistema recupera información relevante.
Recuperación de documentos	Mide la precisión en los resultados de recuperación dada la verdad básica.
Fundamentación	Mide la coherencia de la respuesta con respecto al contexto recuperado.
Groundedness Pro (versión preliminar)	Mide si la respuesta es coherente con respecto al contexto recuperado.
Relevancia	Mide la importancia de la respuesta con respecto a la consulta.
Integridad de la respuesta	Mide en qué medida se completa la respuesta (no falta información crítica) con respecto a la verdad básica.

Para más información, consulte Evaluadores de generación aumentada de recuperación (RAG).

Evaluadores de riesgos y seguridad

Evaluador	Propósito
Odio e injusticia	Identifica contenido sesgado, discriminatorio o odioso.
Sexual	Identifica contenido sexual inapropiado.
Violencia	Detecta contenido violento o incitación.
Autolesiones	Detecta el contenido que promueve o describe el daño propio.
Seguridad del contenido	Evaluación completa de diversos problemas de seguridad.
Materiales protegidos	Detecta el uso no autorizado de contenido protegido o con derechos de autor.
Vulnerabilidad de código	Identifica problemas de seguridad en el código generado.
Atributos sin primer plano	Detecta información fabricada o alucinada inferida de las interacciones del usuario.

Para más información, consulte Evaluadores de riesgos y seguridad.

Evaluadores de agentes

Evaluador	Propósito
Resolución de intenciones (versión preliminar)	Mide la precisión en que el agente identifica y aborda las intenciones del usuario.
Cumplimiento de tareas (versión preliminar)	Mide la eficacia del agente en completar las tareas identificadas.
Precisión en la invocación de herramientas (previsualización)	Mide la eficiencia con la que el agente selecciona y utiliza las herramientas correctas.

Para más información, consulte Evaluadores de agentes.

Evaluadores de Azure OpenAI

Evaluador	Propósito
Etiquetador de modelos	Clasifica el contenido mediante directrices y etiquetas personalizadas.
Comprobador de cadenas	Realiza validaciones de texto flexibles y coincidencia de patrones.
Similitud de texto	Evalúa la calidad del texto o determina la proximidad semántica.
Puntuador de modelos	Genera puntuaciones numéricas (intervalo personalizado) para el contenido en función de las directrices personalizadas.

Para obtener más información, consulte Azure OpenAI Graders.

Evaluadores personalizados

Además de los evaluadores integrados, puede crear evaluadores personalizados adaptados a sus criterios de evaluación específicos. Los evaluadores personalizados permiten definir una lógica de puntuación única, reglas de validación y métricas de calidad que se alinean con los requisitos empresariales y las necesidades específicas de la aplicación.

Para más información, consulte Evaluadores personalizados.

Combinación de evaluadores

Para una evaluación completa de la calidad, combine varios evaluadores:

Aplicaciones RAG: Recuperación + Solidez + Relevancia + Seguridad de contenido
Aplicaciones del agente: Precisión de llamadas de herramientas + Cumplimiento de tareas + Resolución de intenciones + Seguridad de contenido
Aplicaciones de traducción: BLEU + METEOR + Fluency + Coherencia
Todas las aplicaciones: Añadir evaluadores de riesgos y seguridad (Odio e Injusticia, Sexual, Violencia, Self-Harm) para prácticas responsables de IA

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-05-01