Supervisión de implementaciones de modelos en modelos de Microsoft Foundry

Importante

Los elementos marcados (versión preliminar) de este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se proporciona sin un contrato de nivel de servicio y no se recomienda para cargas de trabajo de producción. Es posible que algunas características no se admitan o que tengan funcionalidades restringidas. Para obtener más información, vea Supplemental Terms of Use for Microsoft Azure Previews.

En este artículo se explica cómo usar Azure Monitor métricas y registros para realizar un seguimiento de la disponibilidad, el rendimiento y el uso de las implementaciones de modelos en Modelos de Foundry. Azure Monitor recopila y agrega automáticamente métricas y registros de las implementaciones de Foundry Models, por lo que puede ver los datos de rendimiento en tiempo real y configurar alertas para problemas.

Requisitos previos

Para usar las funcionalidades de supervisión para las implementaciones de modelos en Modelos de Foundry, necesita lo siguiente:

Un recurso Microsoft Foundry.

Propina

Si usa puntos de conexión de API sin servidor y quiere aprovechar las funcionalidades de supervisión que se explican en este artículo, migre los puntos de conexión de API sin servidor a los modelos foundry.
Al menos una implementación de modelos.
Para ver las métricas: al menos el usuario necesita el rol Lector de supervisión en el recurso.
Para configurar las opciones de diagnóstico: el usuario necesita el rol Colaborador de supervisión (o equivalente) en el recurso.

Métricas

Azure Monitor recopila métricas de Foundry Models automáticamente. No se requiere ninguna configuración. Estas métricas son:

Almacenado en la base de datos de métricas de serie temporal Azure Monitor.
Ligero y capaz de admitir alertas casi en tiempo real.
Se usa para realizar un seguimiento del rendimiento de un recurso a lo largo del tiempo.

Visualización de métricas

Azure Monitor métricas se pueden consultar mediante varias herramientas, entre las que se incluyen:

Portal de fundición

Puede ver las métricas en el portal de Foundry. Para verlos, siga estos pasos:

Vaya al portal de Foundry.
En Mis recursos en el menú de la barra lateral, seleccione Modelos y puntos de conexión y, a continuación, seleccione el nombre de la implementación sobre la que desea ver las métricas.
Seleccione la pestaña Métricas .
Puede acceder a una introducción a las métricas comunes que podrían ser de interés. Para las métricas relacionadas con los costos, seleccione el vínculo Azure Cost Management, que proporciona acceso a métricas detalladas de costos posteriores al consumo en la sección Análisis de costos ubicada en el portal de Azure.

Los datos de costos en el portal de Azure muestran los cargos reales posteriores al consumo del modelo, incluidos otros recursos de inteligencia artificial dentro de Foundry. Para obtener una lista completa de los recursos de inteligencia artificial, consulte Compilación con API y modelos personalizables. Hay aproximadamente un retraso de cinco horas desde el evento de facturación hasta que se puede ver en el análisis de costos del portal de Azure.

Importante

El vínculo Azure Cost Management proporciona un vínculo directo dentro del portal de Azure, lo que permite a los usuarios acceder a métricas detalladas de costos para los modelos de IA implementados. Este vínculo profundo se integra con la vista del servicio de análisis de costos de Azure, ofreciendo información transparente y accionable sobre los costos de nivel de modelo.

El vínculo profundo dirige a los usuarios a la vista Análisis de costos del portal de Azure, lo que proporciona una experiencia de un solo clic para ver las implementaciones por recurso, incluido el costo o el consumo del token de entrada/salida. Para ver los datos de costos, necesita al menos acceso de lectura para una cuenta de Azure. Para obtener información sobre cómo asignar acceso a los datos de Cost Management, consulte Asignación de acceso a los datos.
Puede ver y analizar métricas con Azure Monitor metrics explorer para segmentar y filtrar las métricas de implementación del modelo.

Explorador de métricas

El Explorador de métricas es una herramienta del portal de Azure que permite ver y analizar métricas para Azure recursos. Para más información, consulte Analyze metrics with Azure Monitor metrics explorer.

Para usar Azure Monitor, siga estos pasos:

Vaya al portal Azure.
Escriba y seleccione Monitor en el cuadro de búsqueda.
Seleccione Métricas en el menú de la barra lateral.
En Seleccionar ámbito, seleccione los recursos que desea supervisar. Puede seleccionar un recurso o seleccionar un grupo de recursos o una suscripción. Si ese es el caso, asegúrese de seleccionar Tipos de recursos como Herramientas de fundición.
Aparece el explorador de métricas. Seleccione las métricas que desea explorar. En el ejemplo siguiente se muestra el número de solicitudes realizadas a las implementaciones del modelo en el recurso.

Importante

Las métricas de la categoría Azure OpenAI incluyen datos sobre los modelos de OpenAI en el recurso de Azure. La categoría Models contiene todos los modelos disponibles en el recurso, incluidos Azure OpenAI, DeepSeek y Phi. Se recomienda cambiar a este nuevo conjunto de métricas.
Puede agregar tantas métricas como sea necesario al mismo gráfico o a un nuevo gráfico.
Si lo necesita, puede filtrar las métricas por cualquiera de sus dimensiones disponibles.
Es útil desglosar métricas específicas por algunas de las dimensiones. En el ejemplo siguiente se muestra cómo desglosar el número de solicitudes realizadas en el recurso por modelo mediante la opción Agregar división:
Puede guardar los paneles en cualquier momento para evitar tener que configurarlos cada vez.

Otras herramientas

Entre las herramientas que permiten una visualización más compleja se incluyen:

Workbooks: informes personalizables que puede crear en el portal de Azure. Los libros de trabajo pueden incluir texto, métricas y consultas de registros.
Grafana: una herramienta de plataforma abierta que destaca en los paneles operativos. Puede usar Grafana para crear paneles que incluyan datos de varios orígenes distintos de Azure Monitor.
Power BI: un servicio de análisis empresarial que proporciona visualizaciones interactivas en varios orígenes de datos. Puede configurar Power BI para importar automáticamente datos de registro de Azure Monitor para aprovechar estas visualizaciones.

Referencia de métricas

Están disponibles las siguientes categorías de métricas:

Modelos: solicitudes

Métrica	Nombre interno	Unidad	Agregación	Dimensiones
Tasa de disponibilidad del modelo Porcentaje de disponibilidad con el siguiente cálculo: (Total de llamadas - Errores del servidor)/Total de llamadas. Los errores del servidor incluyen cualquier código de respuesta HTTP igual o superior a 500.	`ModelAvailabilityRate`	Porcentaje	Mínimo, Máximo, Promedio	`ApiName`, `OperationName`, `Region`, `StreamType`, `ModelDeploymentName`, , `ModelNameModelVersion`
Solicitudes de modelo Número de llamadas realizadas a la API de inferencia del modelo durante un período de tiempo.	`ModelRequests`	Recuento	Total (Suma)	`ApiName`, `OperationName`, `Region`, `StreamType`, `ModelDeploymentName`, `ModelName`, , `ModelVersionStatusCode`

Modelos: latencia

Métrica	Nombre interno	Unidad	Agregación	Dimensiones
Tiempo de respuesta Medida de latencia recomendada (capacidad de respuesta) para las solicitudes de streaming. Se aplica a PTU y a las implementaciones gestionadas por PTU. Se calcula como tiempo necesario para que la primera respuesta aparezca después de que un usuario envíe una solicitud, medida por la puerta de enlace de API. Este número aumenta a medida que aumenta el tamaño de la solicitud y/o se reduce el tamaño del acierto de caché. Esta métrica es una aproximación porque la latencia medida depende de varios factores, incluidas las llamadas simultáneas y el patrón general de carga de trabajo. No tiene en cuenta ninguna latencia del lado cliente entre el cliente y el punto de conexión de API. Consulte su propio registro para obtener un seguimiento óptimo de la latencia.	`TimeToResponse`	Milisegundos	Máximo, mínimo, promedio	`ApiName`, `OperationName`, `Region`, `StreamType`, `ModelDeploymentName`, `ModelName`, , `ModelVersionStatusCode`
Tiempo normalizado entre tokens Para las solicitudes de streaming, la tasa de generación de tokens por parte del modelo, medida en milisegundos. Se aplica a PTU y a las implementaciones gestionadas por PTU.	`NormalizedTimeBetweenTokens`	Milisegundos	Máximo, mínimo, promedio	`ApiName`, `OperationName`, `Region`, `StreamType`, `ModelDeploymentName`, , `ModelNameModelVersion`

Modelos: uso

Métrica	Nombre interno	Unidad	Agregación	Dimensiones
Tokens de entrada Número de tokens de solicitud procesados (entrada) en un modelo. Se aplica a las implementaciones PTU, gestionadas por PTU y estándar.	`InputTokens`	Recuento	Total (Suma)	`ApiName`, `Region`, `ModelDeploymentName`, , `ModelName`, `ModelVersion`
Tokens de salida Número de tokens generados (salida) a partir de un modelo. Se aplica a las implementaciones PTU, gestionadas por PTU y estándar.	`OutputTokens`	Recuento	Total (Suma)	`ApiName`, `Region`, `ModelDeploymentName`, , `ModelName`, `ModelVersion`
Total Tokens Número de tokens de inferencia procesados en un modelo. Se calcula como tokens de solicitud (entrada) más tokens generados (salida). Se aplica a las implementaciones PTU, gestionadas por PTU y estándar.	`TotalTokens`	Recuento	Total (Suma)	`ApiName`, `Region`, `ModelDeploymentName`, , `ModelName`, `ModelVersion`
Tasa de coincidencia de caché de tokens Porcentaje de tokens de indicación que alcanzan la memoria caché. Se aplica a los despliegues de PTU y los gestionados por PTU.	`TokensCacheMatchRate`	Porcentaje	Promedio	`Region`, `ModelDeploymentName`, , `ModelName`, `ModelVersion`
Uso aprovisionado Porcentaje de uso de una implementación administrada aprovisionada, calculada como (PTUs consumidas o PTUs implementadas) x 100. Cuando el uso es mayor o igual que 100%, se limitan las llamadas y se devuelve el código de error 429.	`ProvisionedUtilization`	Porcentaje	Promedio	`Region`, `ModelDeploymentName`, , `ModelName`, `ModelVersion`
Tokens aprovisionados consumidos Total de tokens menos tokens almacenados en caché durante un período de tiempo. Se aplica a los despliegues de PTU y los gestionados por PTU.	`ProvisionedConsumedTokens`	Recuento	Total (Suma)	`Region`, `ModelDeploymentName`, , `ModelName`, `ModelVersion`
Tokens de entrada de audio Número de tokens de indicaciones de audio procesados (entrada) en un modelo. Se aplica a las implementaciones de modelos administrados por PTU.	`AudioInputTokens`	Recuento	Total (Suma)	`Region`, `ModelDeploymentName`, , `ModelName`, `ModelVersion`
Tokens de salida de audio Número de tokens de indicadores de audio generados (salida) en un modelo. Se aplica a las implementaciones de modelos administrados por PTU.	`AudioOutputTokens`	Recuento	Total (Suma)	`Region`, `ModelDeploymentName`, , `ModelName`, `ModelVersion`

Registros

Los registros de recursos proporcionan información sobre las operaciones realizadas por un recurso de Azure. Los registros se generan automáticamente, pero debe enrutarlos a los registros de Azure Monitor para guardarlos o consultarlos al configurar un ajuste de diagnóstico. Los registros se organizan en categorías. Al crear una configuración de diagnóstico, se especifican las categorías de registros que se van a recopilar.

Las siguientes categorías de registro están disponibles para Foundry Models:

Categoría	Descripción
RequestResponse	Registra cada solicitud de inferencia y respuesta, incluidos los códigos de estado y la latencia.
Seguimiento	Registros detallados de seguimiento para la depuración de las llamadas de inferencia del modelo.
Auditoría	Operaciones administrativas, como implementaciones, cambios de configuración y eventos de control de acceso.

Para obtener más información sobre todas las categorías de registro disponibles, consulte Azure Monitor categorías de registro de recursos.

Configuración de las opciones de diagnóstico

Todas las métricas se pueden exportar con la configuración de diagnóstico en Azure Monitor. Para analizar registros y datos de métricas con consultas Azure Monitor Log Analytics, puede configurar las opciones de diagnóstico para el recurso de Foundry Tools. Realice esta operación en cada recurso.

Captura de pantalla que muestra cómo configurar el registro de diagnóstico en un recurso.png

Para configurar la configuración de diagnóstico para el recurso Foundry:

Vaya al portal Azure y busque el recurso Foundry.
En Supervisión en el menú de la barra lateral, seleccione Configuración de diagnóstico.
Seleccione Agregar configuración de diagnóstico.
Escriba un nombre para la configuración de diagnóstico.
En Registros, seleccione las categorías de registro que desea recopilar (por ejemplo, RequestResponseLogs).
En Métricas, seleccione AllMetrics para exportar métricas.
En Destination details, seleccione Send to Log Analytics workspace y elija un área de trabajo en la suscripción.
Seleccione Guardar.

Nota

Hay un costo para recopilar datos en un área de trabajo de Log Analytics, por lo que solo se recopilan las categorías que necesita para cada servicio. El volumen de datos de los registros de recursos varía significativamente entre los servicios.

Consulta de registros con KQL

Después de configurar los ajustes de diagnóstico para enviar métricas a Log Analytics, puede consultar y analizar datos de registro mediante el lenguaje de consulta Kusto (KQL).

Para consultar las métricas, siga estos pasos:

Vaya al portal Azure.
Busque el recurso Foundry que desea consultar.
En Supervisión en el menú de la barra lateral, seleccione Registros. Si las opciones de la ventana de consulta se rellenan, cierre la ventana.
Se rellenará una nueva pestaña de consulta. Seleccione la lista desplegable Modo de ejemplo y seleccione Modo KQL.

Para examinar las métricas de Azure, escriba una consulta personalizada o copie y pegue la consulta siguiente:

AzureMetrics
| take 100
| project TimeGenerated, MetricName, Total, Count, Maximum, Minimum, Average, TimeGrain, UnitName

Seleccione Ejecutar.

Nota

Al seleccionar Monitoring>Logs en el menú del recurso, Log Analytics se abre con el ámbito de consulta establecido en el recurso actual. Las consultas de registro visibles incluyen solo datos de ese recurso específico. Para ejecutar una consulta que incluya datos de otros recursos o datos de otros servicios de Azure, seleccione Logs en el menú Azure Monitor en el portal de Azure. Para obtener más información, consulte Alcance de la consulta de registros y rango de tiempo en Azure Monitor Log Analytics.

Solución de problemas

Problema	Causa posible	Resolución
Métricas que no aparecen en el Explorador de métricas	Es posible que el filtro de tipo de recurso no se establezca correctamente.	Asegúrese de que los tipos de recursos estén establecidos en Foundry Tools en el selector de ámbito.
No hay datos de registro en Log Analytics	La configuración de diagnóstico no está configurada o los datos aún no han llegado.	Configure las opciones de diagnóstico y espere hasta 15 minutos para que aparezcan los datos.
Las métricas muestran cero valores	Es posible que la implementación del modelo no haya recibido tráfico en el intervalo de tiempo seleccionado.	Ajuste el intervalo de tiempo en el explorador de métricas o compruebe que la implementación recibe solicitudes.
Datos de costos no visibles en Microsoft Cost Management	Faltan permisos o retraso en la facturación.	Asegúrese de que tiene al menos read acceso a la cuenta de Azure. Los datos de costo pueden tardar hasta cinco horas en aparecer.
429 errores en las llamadas de modelo	El uso aprovisionado está en o superior a 100%.	Compruebe la métrica Uso aprovisionado y escale las PTU o reduzca el volumen de solicitudes.

Pasos siguientes

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-29