Registro de uso de tokens, avisos y finalizaciones para las API del modelo de lenguaje

En este artículo, aprenderá a configurar el registro de Azure Monitor para las solicitudes y respuestas de API del modelo de lenguaje en la administración de API de Azure.

El administrador de API Management puede usar registros de respuesta y solicitud de API del modelo de lenguaje junto con los registros de puerta de enlace de API Management para escenarios como:

Calcular el uso para la facturación Calcule las métricas de uso para la facturación en función del número de tokens consumidos por cada aplicación o consumidor de API (por ejemplo, segmentado por identificador de suscripción o dirección IP).
Inspeccione los mensajes. Inspeccione y analice las indicaciones y finalizaciones para ayudar con la depuración, la auditoría y la evaluación del modelo.

Más información sobre:

Prerrequisitos

Una instancia de Azure API Management.
Una API de finalización de chat de un modelo de lenguaje bajo gestión, integrada con Azure API Management. Por ejemplo, Importe una API de Microsoft Foundry.
Acceso a un área de trabajo de Azure Log Analytics.
Permisos adecuados para configurar la configuración de diagnóstico y los registros de acceso en API Management.

Habilitar la configuración de diagnóstico para los registros de API del modelo de lenguaje

Habilite una configuración de diagnóstico para registrar las solicitudes que procesa la puerta de enlace para las API REST del modelo de lenguaje grande. Para cada solicitud, Azure Monitor recibe:

Datos sobre el uso de tokens, incluidos los tokens de entrada, tokens de finalización y el total de tokens
Nombre del modelo usado
Opcionalmente, los mensajes de solicitud y respuesta: solicitud y finalización

Azure Monitor divide las solicitudes y respuestas grandes en varias entradas de registro con números de secuencia para la reconstrucción posterior, si es necesario.

Siga estos pasos para habilitar una configuración de diagnóstico que dirija los registros de la API del modelo de lenguaje a un área de trabajo de Log Analytics. Para más información, consulte Habilitación de la configuración de diagnóstico para los registros de Azure Monitor.

En Azure Portal, vaya a la instancia de Azure API Management.
En el menú izquierdo, en Supervisión, seleccione Configuración> de diagnóstico+ Agregar configuración de diagnóstico.
Configure la configuración para enviar registros de puerta de enlace de IA a un área de trabajo de Log Analytics:
- En Registros, seleccione Registros relacionados con la puerta de enlace de IA generativa.
- En Detalles de destino, seleccione Enviar al área de trabajo de Log Analytics.
Revise o configure otras opciones y realice cambios si es necesario.
Haga clic en Guardar.

Captura de pantalla de la configuración de diagnóstico para los registros de puerta de enlace de IA en el portal.

Habilitación del registro de solicitudes o respuestas para la API del modelo de lenguaje

Puede habilitar la configuración de diagnóstico para todas las API o personalizar el registro para api específicas. Siga estos pasos para registrar las solicitudes del modelo de lenguaje y los mensajes de respuesta de una API. Para más información, consulte Modificación de la configuración de registro de API.

En el menú izquierdo de la instancia de API Management, seleccione API API> y, a continuación, seleccione el nombre de la API.
Seleccione Configuración en la barra superior.
Desplácese hacia abajo hasta la sección Registros de diagnóstico y seleccione Azure Monitor.
En Registrar mensajes LLM, seleccione Habilitado.
Seleccione Solicitudes de registro y escriba un tamaño en bytes, como 32768.
Seleccione Finalizaciones de registro y escriba un tamaño en bytes, como 32768.
Revise otras opciones de configuración y realice cambios si es necesario. Haga clic en Guardar.

Captura de pantalla de la habilitación del registro de modelos de lenguaje para una API en el portal.

Nota:

Si habilita la recopilación, los mensajes de solicitud de modelo de lenguaje o respuesta de hasta 32 KB de tamaño se envían en una sola entrada. Los mensajes de más de 32 KB se dividen y registran en fragmentos de 32 KB con números de secuencia para la reconstrucción posterior. Los mensajes de solicitud y los mensajes de respuesta no pueden superar los 2 MB cada uno.

Revisión del cuaderno de análisis para las API de modelos de lenguaje

El panel Azure Monitor basado en Analytics proporciona información sobre el uso de api del modelo de lenguaje y el consumo de tokens mediante datos agregados en un área de trabajo de Log Analytics. Para obtener más información, consulte Get API analytics in Azure API Management.

En el menú izquierdo de la instancia de API Management, seleccione Monitoring>Analytics.
Seleccione la pestaña Modelos de lenguaje .
Revise las métricas y las visualizaciones para el consumo y las solicitudes de token de API del modelo de lenguaje en un intervalo de tiempo seleccionado.

Revisión de los registros de Azure Monitor para solicitudes y respuestas

Revise el registro de ApiManagementGatewayLlmLog para obtener más información sobre las solicitudes y respuestas del modelo de lenguaje, incluido el consumo de tokens, la implementación del modelo usado y otros detalles a lo largo de intervalos de tiempo específicos.

Las solicitudes y respuestas, incluidos los mensajes fragmentados para las solicitudes y respuestas grandes, aparecen en entradas de registro independientes que se pueden correlacionar mediante el CorrelationId campo .

Para fines de auditoría, use una consulta kusto similar a la siguiente para unir cada solicitud y respuesta en un único registro. Ajuste la consulta para incluir los campos de los que desea realizar el seguimiento.

ApiManagementGatewayLlmLog
| extend RequestArray = parse_json(RequestMessages)
| extend ResponseArray = parse_json(ResponseMessages)
| mv-expand RequestArray
| mv-expand ResponseArray
| project
    CorrelationId,
    RequestContent = tostring(RequestArray.content),
    ResponseContent = tostring(ResponseArray.content)
| summarize
    Input = strcat_array(make_list(RequestContent), " . "),
    Output = strcat_array(make_list(ResponseContent), " . ")
    by CorrelationId
| where isnotempty(Input) and isnotempty(Output)

Carga de datos en Microsoft Foundry para la evaluación del modelo

Puede exportar datos de registro de modelos de lenguaje como un conjunto de datos para la evaluación de modelos en Microsoft Foundry. Con la evaluación de modelos, puede evaluar el rendimiento de los modelos y aplicaciones de ia generativa en un modelo de prueba o conjunto de datos mediante métricas de evaluación integradas o personalizadas.

Para usar los registros del modelo de lenguaje como un conjunto de datos para la evaluación del modelo:

Combinar los mensajes de solicitud y respuesta del modelo de lenguaje en un único registro para cada interacción, como se muestra en la sección anterior. Incluya los campos que desea usar para la evaluación del modelo.
Exporte el conjunto de datos al formato CSV, que es compatible con Microsoft Foundry.
En el portal de Microsoft Foundry, cree una nueva evaluación para cargar y evaluar el conjunto de datos.

Para obtener más información sobre cómo crear y ejecutar una evaluación de modelos en Microsoft Foundry, consulte Evaluaciones de ejecución desde el portal de Microsoft Foundry.

Comentarios

¿Le resultó útil esta página?

Last updated on 2026-05-01