Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Visualización actual:Versión - Cambio a la versión del nuevo portal de Foundry
Importante
Los elementos marcados (versión preliminar) de este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se proporciona sin un contrato de nivel de servicio y no se recomienda para cargas de trabajo de producción. Es posible que algunas características no se admitan o que tengan funcionalidades restringidas. Para obtener más información, vea Supplemental Terms of Use for Microsoft Azure Previews.
Microsoft Foundry proporciona un conjunto completo de evaluadores integrados para evaluar la calidad, la seguridad y la confiabilidad de las respuestas de inteligencia artificial a lo largo del ciclo de vida de desarrollo. Esta referencia detalla todos los evaluadores disponibles, sus propósitos, las entradas necesarias y las instrucciones sobre cómo seleccionar el evaluador adecuado para su caso de uso. También puede crear evaluadores personalizados adaptados a sus criterios de evaluación específicos.
Nota
El SDK de Microsoft Foundry para la evaluación y el portal de Foundry están en versión preliminar pública, pero las API están disponibles con carácter general para la evaluación del modelo y del conjunto de datos (la evaluación del agente permanece en versión preliminar pública). El SDK de evaluación de Azure AI y los evaluadores marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública en todas partes.
Evaluadores de uso general
| Evaluador | Propósito |
|---|---|
| Coherencia | Mide la coherencia lógica y el flujo de respuestas. |
| Fluidez | Mide la calidad y la legibilidad del lenguaje natural. |
Para más información, consulte Evaluadores de uso general.
Evaluadores de similitud de texto
| Evaluador | Propósito |
|---|---|
| Similitud | Medición de similitud textual asistida por IA. |
| Puntuación F1 | Media armónica de precisión y recuperación en token se superpone entre la respuesta y la verdad del suelo. |
| BLEU | La puntuación de la Evaluación Bilingüe (BLEU) para medir la calidad de traducción se basa en la superposición de n-gramas entre la respuesta y la verdad de referencia. |
| GLEU | La variante Google-BLEU para la evaluación a nivel de oraciones mide la superposición de n-gramas entre la respuesta y la verdad fundamental. |
| ROUGE | Recall-Oriented Understudy for Gisting Evaluation mide la superposición de n-gramas entre la respuesta y la verdad fundamental. |
| METEOR | La métrica para la evaluación de la traducción con ordenación explícita mide la superposición de n-gramas entre la respuesta y la referencia. |
Para más información, consulte Evaluadores de similitud de texto.
Evaluadores RAG
| Evaluador | Propósito |
|---|---|
| Recuperación | Mide la eficacia en que el sistema recupera información relevante. |
| Recuperación de documentos | Mide la precisión en los resultados de recuperación dada la verdad básica. |
| Fundamentación | Mide la coherencia de la respuesta con respecto al contexto recuperado. |
| Groundedness Pro (versión preliminar) | Mide si la respuesta es coherente con respecto al contexto recuperado. |
| Relevancia | Mide la importancia de la respuesta con respecto a la consulta. |
| Integridad de la respuesta | Mide en qué medida se completa la respuesta (no falta información crítica) con respecto a la verdad básica. |
Para más información, consulte Evaluadores de generación aumentada de recuperación (RAG).
Evaluadores de riesgos y seguridad
| Evaluador | Propósito |
|---|---|
| Odio e injusticia | Identifica contenido sesgado, discriminatorio o odioso. |
| Sexual | Identifica contenido sexual inapropiado. |
| Violencia | Detecta contenido violento o incitación. |
| Autolesiones | Detecta el contenido que promueve o describe el daño propio. |
| Seguridad del contenido | Evaluación completa de diversos problemas de seguridad. |
| Materiales protegidos | Detecta el uso no autorizado de contenido protegido o con derechos de autor. |
| Vulnerabilidad de código | Identifica problemas de seguridad en el código generado. |
| Atributos sin primer plano | Detecta información fabricada o alucinada inferida de las interacciones del usuario. |
Para más información, consulte Evaluadores de riesgos y seguridad.
Evaluadores de agentes
| Evaluador | Propósito |
|---|---|
| Resolución de intenciones (versión preliminar) | Mide la precisión en que el agente identifica y aborda las intenciones del usuario. |
| Cumplimiento de tareas (versión preliminar) | Mide la eficacia del agente en completar las tareas identificadas. |
| Precisión en la invocación de herramientas (previsualización) | Mide la eficiencia con la que el agente selecciona y utiliza las herramientas correctas. |
Para más información, consulte Evaluadores de agentes.
Evaluadores de Azure OpenAI
| Evaluador | Propósito |
|---|---|
| Etiquetador de modelos | Clasifica el contenido mediante directrices y etiquetas personalizadas. |
| Comprobador de cadenas | Realiza validaciones de texto flexibles y coincidencia de patrones. |
| Similitud de texto | Evalúa la calidad del texto o determina la proximidad semántica. |
| Puntuador de modelos | Genera puntuaciones numéricas (intervalo personalizado) para el contenido en función de las directrices personalizadas. |
Para obtener más información, consulte Azure OpenAI Graders.
Evaluadores personalizados
Además de los evaluadores integrados, puede crear evaluadores personalizados adaptados a sus criterios de evaluación específicos. Los evaluadores personalizados permiten definir una lógica de puntuación única, reglas de validación y métricas de calidad que se alinean con los requisitos empresariales y las necesidades específicas de la aplicación.
Para más información, consulte Evaluadores personalizados.
Combinación de evaluadores
Para una evaluación completa de la calidad, combine varios evaluadores:
- Aplicaciones RAG: Recuperación + Solidez + Relevancia + Seguridad de contenido
- Aplicaciones del agente: Precisión de llamadas de herramientas + Cumplimiento de tareas + Resolución de intenciones + Seguridad de contenido
- Aplicaciones de traducción: BLEU + METEOR + Fluency + Coherencia
- Todas las aplicaciones: Añadir evaluadores de riesgos y seguridad (Odio e Injusticia, Sexual, Violencia, Self-Harm) para prácticas responsables de IA
Contenido relacionado
- Observabilidad de IA generativa
- Evaluadores de uso general
- Evaluadores de similitud de texto
- Evaluadores de generación aumentada mediante recuperación (RAG)
- Evaluadores de riesgos y seguridad
- Evaluadores de agentes
- Azure OpenAI Graders
- Evaluadores personalizados
- Evaluación con el SDK de Foundry
- Evaluación de aplicaciones de IA generativas en Foundry