Azure referencia de datos de supervisión de OpenAI

Este artículo contiene toda la información de referencia de supervisión de este servicio.

Consulte Monitor Azure OpenAI para obtener más información sobre los datos que puede recopilar para Azure OpenAI en Microsoft Foundry Models y cómo usarlo.

Metrics

En esta sección se enumeran todas las métricas de plataforma recopiladas automáticamente para este servicio. Estas métricas también forman parte de la lista global de all las métricas de plataforma admitidas en Azure Monitor.

Para obtener información sobre la retención de métricas, consulte Azure Monitor Metrics overview.

Métricas admitidas para Microsoft. CognitiveServices/accounts

Estas son las métricas más importantes que creemos que debe supervisar para Azure OpenAI. Más adelante en este artículo se muestra una lista más larga de todas las métricas disponibles para este espacio de nombres que contiene más detalles sobre las métricas de esta lista más corta. Consulte la lista siguiente para obtener la información más actualizada. Estamos trabajando para actualizar las tablas en las secciones siguientes.

  • solicitudes de OpenAI de Azure
  • Active Tokens
  • Tokens de finalización generados
  • Horas de entrenamiento de FineTuned procesadas
  • Tokens de inferencia procesados
  • Tokens de solicitud procesados
  • Uso administrado aprovisionado V2
  • Solicitud de tasa de coincidencia de caché de tokens
  • Tiempo de respuesta
  • Tiempo entre tokens
  • Hora a último byte
  • Tiempo normalizado a primer byte
  • Tokens por segundo

También puede supervisar las métricas de seguridad de contenido que usan otros servicios relacionados.

  • Blocked Volume
  • Volumen dañino detectado
  • Recuento de usuarios potencialmente abusivos
  • Evento del sistema de seguridad
  • Total de volumen enviado para comprobación de seguridad

Note

La métrica Uso administrado aprovisionado ya está en desuso y ya no se recomienda. Esta métrica se ha reemplazado por la métrica Uso administrado aprovisionado V2 . Los tokens por segundo, el tiempo de respuesta, el tiempo entre tokens no están disponibles actualmente para las implementaciones estándar.

Las métricas de Cognitive Services tienen la categoría Cognitive Services: solicitudes HTTP en la tabla siguiente. Estas métricas son métricas heredadas que son comunes a todos los recursos de este tipo. Microsoft ya no recomienda usar estas métricas con Azure OpenAI.

En la tabla siguiente se enumeran las métricas disponibles para el Microsoft. Tipo de recurso CognitiveServices/accounts.

  • Es posible que todas las columnas no estén presentes en todas las tablas.
  • Algunas columnas pueden estar fuera del área de visualización de la página. Seleccione Expandir tabla para ver todas las columnas disponibles.

Table headings

  • Categoría : el grupo de métricas o la clasificación.
  • Metric: el nombre para mostrar de la métrica tal como aparece en el portal de Azure.
  • Nombre de la API REST : el nombre de la métrica que se conoce en la API REST.
  • Unidad: unidad de medida.
  • Agregación : el tipo de agregación predeterminado. Valores válidos: Average (Avg), Minimum (Min), Maximum (Max), Total (Sum), Count.
  • - DimensionesDimensiones disponibles para la métrica.
  • Granos - de tiempoIntervalos en los que se muestrea la métrica. Por ejemplo, PT1M indica que la métrica se muestrea cada minuto, PT30M cada 30 minutos, PT1H cada hora, etc.
  • DS Export: indica si la métrica se puede exportar a Azure Monitor registros a través de la configuración de diagnóstico. Para obtener información sobre cómo exportar métricas, consulte Crear configuración de diagnóstico en Azure Monitor.

Category: Actions

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Action Occurences

Número de veces que aparece cada acción.
ActionIdOccurrences Count Total (Sum) ActionId, , Mode, RunId PT1M Yes
Acciones por evento

Número de acciones por evento.
ActionsPerEvent Count Average Mode, RunId PT1M Yes

Categoría: Azure OpenAI : solicitudes HTTP

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Azure OpenAI AvailabilityRate

Porcentaje de disponibilidad con el siguiente cálculo: (Total de llamadas - Errores del servidor)/Total de llamadas. Los errores de servidor incluyen las respuestas >HTTP =500.
AzureOpenAIAvailabilityRate Percent Mínimo, Máximo, Promedio ApiName, OperationName, Region, StreamType, ModelDeploymentName, , ModelNameModelVersion PT1M No
Azure solicitudes de OpenAI

Número de llamadas realizadas a la API de OpenAI de Azure durante un período de tiempo. Se aplica a despliegues PTU, PTU-Managed y Pay-as-you-go. Para desglosar las solicitudes de API, puede agregar un filtro o aplicar la división por las siguientes dimensiones: ModelDeploymentName, ModelName, ModelVersion, StatusCode (correcto, clienterrors, errores de servidor), IsSpillover para información de desbordamiento, ServiceTier, StreamType (solicitudes de streaming frente a solicitudes que no son de streaming) y operación.
AzureOpenAIRequests Count Total (Sum) ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, ModelVersion, StatusCode, IsSpillover, , ServiceTierRequestServiceTierResponse PT1M Yes

Categoría: Azure OpenAI - Latencia

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Tiempo entre token

Para las solicitudes de streaming; tasa de generación de tokens de modelo, medida en milisegundos. Se aplica a las implementaciones de PTU, administradas por PTU y de pago por uso.
AzureOpenAINormalizedTBTInMS MilliSeconds Máximo, mínimo, promedio Region, ModelDeploymentName, , ModelName, ModelVersion PT1M Yes
Tiempo normalizado a primer byte

Para las solicitudes de streaming y no streaming; tiempo que tarda el primer byte de los datos de respuesta en recibirse después de que el modelo realice la solicitud, normalizado por token. Se aplica a las implementaciones de PTU, administradas por PTU y de pago por uso.
AzureOpenAINormalizedTTFTInMS MilliSeconds Máximo, mínimo, promedio Region, ModelDeploymentName, , ModelName, ModelVersion PT1M Yes
Tiempo de respuesta

Medida de latencia recomendada (capacidad de respuesta) para las solicitudes de streaming. Se aplica a las implementaciones de PTU, administradas por PTU y de pago por uso. Se calcula como tiempo necesario para que la primera respuesta aparezca después de que un usuario envíe una solicitud, medida por la puerta de enlace de API. Este número aumenta a medida que aumenta el tamaño del mensaje o se reduce el tamaño de aciertos de caché. Para desglosar el tiempo de la métrica de respuesta, puede agregar un filtro o aplicar la división por las siguientes dimensiones: ModelDeploymentName, ModelName y ModelVersion.

Nota: Esta métrica es una aproximación, ya que la latencia medida depende en gran medida de varios factores, incluidas las llamadas simultáneas y el patrón general de carga de trabajo. Además, no tiene en cuenta ninguna latencia del lado cliente que pueda existir entre el cliente y el punto de conexión de API. Consulte su propio registro para obtener un seguimiento óptimo de la latencia.
AzureOpenAITimeToResponse MilliSeconds Mínimo, Máximo, Promedio ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, , ModelVersionStatusCode PT1M Yes
Tokens por segundo

Enumera la velocidad de generación de una respuesta de modelo de OpenAI determinada Azure. El número total de tokens generados se divide por el tiempo para generar los tokens, en segundos. Se aplica a las implementaciones de PTU, administradas por PTU y de pago por uso.
AzureOpenAITokenPerSecond Count Máximo, mínimo, promedio Region, ModelDeploymentName, , ModelName, ModelVersion PT1M Yes
Hora a último byte

Para las solicitudes de streaming y no streaming; tiempo que tarda el último byte de los datos de respuesta en recibirse después de que el modelo realice la solicitud. Se aplica a las implementaciones de PTU, administradas por PTU y de pago por uso.
AzureOpenAITTLTInMS MilliSeconds Máximo, mínimo, promedio Region, ModelDeploymentName, , ModelName, ModelVersion PT1M Yes

Categoría: Azure OpenAI - Uso

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Active Tokens

Total de tokens menos tokens almacenados en caché durante un período de tiempo. Se aplica a las implementaciones administradas por PTU y PTU. Use esta métrica para comprender el uso basado en TPS o TPM para las PTU y compararlo con los puntos de referencia de TPS o TPM de destino para sus escenarios. Para desglosar las solicitudes de API, puede agregar un filtro o aplicar la división por las siguientes dimensiones: ModelDeploymentName, ModelName y ModelVersion.
ActiveTokens Count Mínimo, Máximo, Promedio, Total (Suma) Region, ModelDeploymentName, , ModelName, ModelVersion PT1M Yes
Tokens de finalización de audio

Número de tokens de solicitud de audio generados (salida) en un modelo de OpenAI. Se aplica a las implementaciones de modelos de pago por uso y administradas por PTU.
AudioCompletionTokens Count Total (Sum) ModelDeploymentName, ModelName, , ModelVersion, Region PT1M Yes
Tokens de aviso de audio

Número de tokens de solicitud de audio procesados (entrada) en un modelo de OpenAI. Se aplica a las implementaciones de modelos de pago por uso y administradas por PTU.
AudioPromptTokens Count Total (Sum) ModelDeploymentName, ModelName, , ModelVersion, Region PT1M Yes
Solicitud de tasa de coincidencia de caché de tokens

Porcentaje de tokens de solicitud que alcanzan la memoria caché. Se aplica a las implementaciones administradas por PTU y PTU.
AzureOpenAIContextTokensCacheMatchRate Percent Mínimo, Máximo, Promedio Region, ModelDeploymentName, , ModelName, ModelVersion PT1M No
Uso administrado aprovisionado (en desuso)

La utilización % para un despliegue gestionado provisionalmente, calculado como (PTUs consumidas / PTUs desplegadas) x 100. Cuando la utilización es mayor o igual a 100%, las llamadas se limitan y se devuelve el código de error 429. Para desglosar esta métrica, puede agregar un filtro o aplicar la división por las siguientes dimensiones: ModelDeploymentName, ModelName, ModelVersion y StreamType (solicitudes de streaming frente a no streaming).
AzureOpenAIProvisionedManagedUtilization Percent Mínimo, Máximo, Promedio Region, StreamType, ModelDeploymentName, , ModelName, ModelVersion PT1M No
Uso administrado aprovisionado V2

La utilización % para un despliegue gestionado provisionalmente, calculado como (PTUs consumidas / PTUs desplegadas) x 100. Cuando la utilización es mayor o igual a 100%, las llamadas se limitan y se devuelve el código de error 429. Para desglosar esta métrica, puede agregar un filtro o aplicar la división por las siguientes dimensiones: ModelDeploymentName, ModelName, ModelVersion y StreamType (solicitudes de streaming frente a no streaming).
AzureOpenAIProvisionedManagedUtilizationV2 Percent Mínimo, Máximo, Promedio Region, StreamType, ModelDeploymentName, , ModelName, ModelVersion PT1M No
Horas de entrenamiento de FineTuned procesadas

Número de horas de entrenamiento procesadas en un modelo FineTuned de OpenAI
FineTunedTrainingHours Count Total (Sum) ApiName, ModelDeploymentName, FeatureName, , UsageChannel, Region PT1M Yes
Tokens de finalización generados

Número de tokens generados (salida) a partir de un modelo de OpenAI. Se aplica a las implementaciones de PTU, administradas por PTU y de pago por uso. Para desglosar esta métrica, puede agregar un filtro o aplicar la división por las siguientes dimensiones: ModelDeploymentName y ModelName.
GeneratedTokens Count Total (Sum) ApiName, ModelDeploymentName, FeatureName, UsageChannel, , Region, ModelVersion PT1M Yes
Tokens de solicitud procesados

Número de tokens de solicitud procesados (entrada) en un modelo de OpenAI. Se aplica a las implementaciones de PTU, administradas por PTU y de pago por uso. Para desglosar esta métrica, puede agregar un filtro o aplicar la división por las siguientes dimensiones: ModelDeploymentName y ModelName.
ProcessedPromptTokens Count Total (Sum) ApiName, ModelDeploymentName, FeatureName, UsageChannel, , Region, ModelVersion PT1M Yes
Segundos de API en tiempo real usados

Número de segundos de LA API en tiempo real usado
RealtimeUsageTime Count Total (Sum) Region, ModelDeploymentName PT1M Yes
Tokens de inferencia procesados

Número de tokens de inferencia procesados en un modelo de OpenAI. Se calcula como tokens de solicitud (entrada) más tokens generados (salida). Se aplica a las implementaciones de PTU, administradas por PTU y de pago por uso. Para desglosar esta métrica, puede agregar un filtro o aplicar la división por las siguientes dimensiones: ModelDeploymentName y ModelName.
TokenTransaction Count Total (Sum) ApiName, ModelDeploymentName, FeatureName, UsageChannel, , Region, ModelVersion PT1M Yes

Categoría: Cognitive Services - Solicitudes HTTP

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Blocked Calls

Número de llamadas que superaron la tasa o el límite de cuota. No use para Azure servicio OpenAI.
BlockedCalls Count Total (Sum) ApiName, OperationName, , Region, RatelimitKey PT1M Yes
Client Errors

Número de llamadas con error del lado cliente (código de respuesta HTTP 4xx). No use para Azure servicio OpenAI.
ClientErrors Count Total (Sum) ApiName, OperationName, , Region, RatelimitKey PT1M Yes
Data In

Tamaño de los datos entrantes en bytes. No use para Azure servicio OpenAI.
DataIn Bytes Total (Sum) ApiName, , OperationName, Region PT1M Yes
Data Out

Tamaño de los datos salientes en bytes. No use para Azure servicio OpenAI.
DataOut Bytes Total (Sum) ApiName, , OperationName, Region PT1M Yes
Latency

Latencia en milisegundos. No use para Azure servicio OpenAI.
Latency MilliSeconds Average ApiName, OperationName, , Region, RatelimitKey PT1M Yes
Ratelimit

El límite de frecuencia actual de la clave ratelimit. No use para Azure servicio OpenAI.
Ratelimit Count Total (Sum) Region, RatelimitKey PT1M Yes
Server Errors

Número de llamadas con error interno del servicio (código de respuesta HTTP 5xx). No use para Azure servicio OpenAI.
ServerErrors Count Total (Sum) ApiName, OperationName, , Region, RatelimitKey PT1M Yes
Successful Calls

Número de llamadas correctas. No use para Azure servicio OpenAI.
SuccessfulCalls Count Total (Sum) ApiName, OperationName, , Region, RatelimitKey PT1M Yes
Total Calls

Número total de llamadas. No use para Azure servicio OpenAI.
TotalCalls Count Total (Sum) ApiName, OperationName, , Region, RatelimitKey PT1M Yes
Total Errors

Número total de llamadas con respuesta de error (código de respuesta HTTP 4xx o 5xx). No use para Azure servicio OpenAI.
TotalErrors Count Total (Sum) ApiName, OperationName, , Region, RatelimitKey PT1M Yes
Total de llamadas de token

Número total de llamadas de token.
TotalTokenCalls Count Total (Sum) ApiName, , OperationName, Region PT1M Yes

Categoría: Cognitive Services - SLI

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
AvailabilityRate

Porcentaje de disponibilidad con el siguiente cálculo: (Total de llamadas - Errores del servidor)/Total de llamadas. Los errores de servidor incluyen las respuestas >HTTP =500. No use para Azure servicio OpenAI.
SuccessRate Percent Mínimo, Máximo, Promedio ApiName, OperationName, , Region, RatelimitKey PT1M No

Categoría: Descripción del contenido: uso

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Face Transactions

Número de llamadas API realizadas al servicio Face
FaceApiTransactions Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Minutos de audio procesados

Minutos de audio procesados
ProcessedAudioMinutes Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Processed Pages

Número de páginas de documento procesadas
ProcessedDocumentPages Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Processed Images

Número de imágenes procesadas
ProcessedImageCount Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Minutos de vídeo procesados

Minutos de vídeo procesados
ProcessedVideoMinutes Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Tokens

Número de tokens consumidos
Tokens Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes

Categoría: ContentSafety - Riesgos y seguridad

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Recuento de usuarios potencialmente abusivos

Número de usuarios potencialmente abusivos que detectaron durante un período de tiempo. Puede agregar un filtro o aplicar la división mediante la siguiente dimensión: ModelDeploymentName.
RAIAbusiveUsersCount Count Total (Sum) Region, ModelDeploymentName PT1M Yes
Volumen dañino detectado

Número de llamadas realizadas a Azure API de OpenAI y detectadas como perjudiciales (tanto el modelo de bloque como el modo de anotación) por filtro de contenido aplicado durante un período de tiempo. Puede agregar un filtro o aplicar la división por las siguientes dimensiones: ModelDeploymentName, ModelName y TextType.
RAIHarmfulRequests Count Total (Sum) Region, ModelDeploymentName, ModelName, ModelVersion, ApiName, TextType, , CategorySeverity PT1M Yes
Blocked Volume

Número de llamadas realizadas a Azure API de OpenAI y rechazadas por el filtro de contenido aplicado durante un período de tiempo. Puede agregar un filtro o aplicar la división por las siguientes dimensiones: ModelDeploymentName, ModelName y TextType.
RAIRejectedRequests Count Total (Sum) Region, ModelDeploymentName, ModelName, ModelVersion, ApiName, , TextTypeCategory PT1M Yes
Evento del sistema de seguridad

Evento del sistema para riesgos y supervisión de seguridad. Puede agregar un filtro o aplicar la división mediante la siguiente dimensión: EventType.
RAISystemEvent Count Average Region, EventType PT1M Yes
Número total de volúmenes enviados para la comprobación de seguridad

Número de llamadas realizadas a Azure API de OpenAI y detectadas por el filtro de contenido aplicado durante un período de tiempo. Puede agregar un filtro o aplicar la división por las siguientes dimensiones: ModelDeploymentName, ModelName.
RAITotalRequests Count Total (Sum) Region, ModelDeploymentName, ModelName, , ModelVersion, ApiName PT1M Yes

Categoría: ContentSafety - Uso

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Recuento de llamadas para moderación de imágenes

Número de llamadas para la moderación de imágenes.
ContentSafetyImageAnalyzeRequestCount Count Total (Sum) ApiVersion PT1M Yes
Recuento de llamadas para moderación de texto

Número de llamadas para la moderación de texto.
ContentSafetyTextAnalyzeRequestCount Count Total (Sum) ApiVersion PT1M Yes

Category: Estimations

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Recuento de eventos aleatorios de línea base

Estimación del recuento de eventos aleatorios de línea base.
BaselineRandomEventCount Count Total (Sum) Mode, RunId PT1M Yes
Recompensa aleatoria de línea base

Estimación de la recompensa aleatoria de línea base.
BaselineRandomReward Count Total (Sum) Mode, RunId PT1M Yes
Recuento de eventos en línea

Estimación del recuento de eventos en línea.
OnlineEventCount Count Total (Sum) Mode, RunId PT1M Yes
Online Reward

Estimación de la recompensa en línea.
OnlineReward Count Total (Sum) Mode, RunId PT1M Yes
Recuento de eventos de línea base de usuario

Estimación del recuento de eventos de línea base definida por el usuario.
UserBaselineEventCount Count Total (Sum) Mode, RunId PT1M Yes
Recompensa de línea base de usuario

Estimación de la recompensa de línea base definida por el usuario.
UserBaselineReward Count Total (Sum) Mode, RunId PT1M Yes

Categoría: Eventos de características

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Repeticiones de características de acción

Número de veces que aparece cada característica de acción.
ActionFeatureIdOccurrences Count Total (Sum) FeatureId, , Mode, RunId PT1M Yes
Repeticiones de características de contexto

Número de veces que aparece cada característica de contexto.
ContextFeatureIdOccurrences Count Total (Sum) FeatureId, , Mode, RunId PT1M Yes
Repeticiones de características de ranura

Número de veces que aparece cada característica de ranura.
SlotFeatureIdOccurrences Count Total (Sum) FeatureId, , Mode, RunId PT1M Yes

Category: FeatureCardinality

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Cardinalidad de características por acción

Cardinalidad de características basada en acción.
FeatureCardinality_Action Count Average FeatureId, , Mode, RunId PT1M Yes
Cardinalidad de características por contexto

Cardinalidad de características basada en el contexto.
FeatureCardinality_Context Count Average FeatureId, , Mode, RunId PT1M Yes
Cardinalidad de características por ranura

Cardinalidad de características basada en ranura.
FeatureCardinality_Slot Count Average FeatureId, , Mode, RunId PT1M Yes

Categoría: Características por evento

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Características de acción por evento

Número medio de características de acción por evento.
ActionFeaturesPerEvent Count Average Mode, RunId PT1M Yes
Características de contexto por evento

Número de características de contexto por evento.
ContextFeaturesPerEvent Count Average Mode, RunId PT1M Yes
Características de ranura por evento

Número medio de características de ranura por evento.
SlotFeaturesPerEvent Count Average Mode, RunId PT1M Yes

Categoría: Idioma - Trabajos

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Duración del trabajo (versión preliminar)

Nota: este valor depende en gran medida del tamaño de entrada, el número de documentos y la complejidad de la tarea. Se trata de un valor agregado en todas las tareas de trabajo.
JobDuration MilliSeconds Mínimo, Máximo, Promedio JobStatus, JobType PT1M Yes

Categoría: Modelos: solicitudes HTTP

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Tasa de disponibilidad del modelo

Porcentaje de disponibilidad con el siguiente cálculo: (Total de llamadas - Errores del servidor)/Total de llamadas. Los errores de servidor incluyen las respuestas >HTTP =500.
ModelAvailabilityRate Percent Mínimo, Máximo, Promedio Region, ModelDeploymentName, , ModelName, ModelVersion PT1M No
Model Requests

Número de llamadas realizadas a la API de modelo durante un período de tiempo. Se aplica a despliegues PTU, PTU-Managed y Pay-as-you-go.
ModelRequests Count Total (Sum) ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, ModelVersion, StatusCode, IsSpillover, , ServiceTierRequestServiceTierResponse PT1M Yes

Categoría: Modelos - Latencia

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Tiempo entre tokens

Tasa de generación de tokens de modelo, medida en milisegundos. Se aplica a las implementaciones administradas por PTU y PTU. En el caso de las solicitudes que no son de streaming, este valor es una estimación.
NormalizedTimeBetweenTokens MilliSeconds Máximo, mínimo, promedio ApiName, OperationName, Region, StreamType, ModelDeploymentName, , ModelNameModelVersion PT1M Yes
Tiempo normalizado a primer byte

Tiempo que tarda el primer byte de los datos de respuesta en recibirse después de que el modelo realice la solicitud, normalizado por token. Se aplica a las implementaciones de PTU, administradas por PTU y de pago por uso. En el caso de las solicitudes que no son de streaming, este valor es una estimación.
NormalizedTimeToFirstToken MilliSeconds Máximo, mínimo, promedio ApiName, OperationName, Region, StreamType, ModelDeploymentName, , ModelNameModelVersion PT1M Yes
Hora a último byte

Tiempo que tarda el último byte de los datos de respuesta en recibirse después de que el modelo realice la solicitud. Se aplica a las implementaciones de PTU, administradas por PTU y de pago por uso. En el caso de las solicitudes que no son de streaming, este valor es una estimación.
TimeToLastByte MilliSeconds Máximo, mínimo, promedio ApiName, OperationName, Region, StreamType, ModelDeploymentName, , ModelNameModelVersion PT1M Yes
Tiempo de respuesta

Medida de latencia recomendada (capacidad de respuesta). Se aplica a las implementaciones administradas por PTU y PTU. Se calcula como tiempo necesario para que la primera respuesta aparezca después de que un usuario envíe una solicitud, medida por la puerta de enlace de API. Este número aumenta a medida que aumenta el tamaño del mensaje o se reduce el tamaño de aciertos de caché. Para desglosar el tiempo de la métrica de respuesta, puede agregar un filtro o aplicar la división por las siguientes dimensiones: ModelDeploymentName, ModelName y ModelVersion.

Nota: Esta métrica es una aproximación, ya que la latencia medida depende en gran medida de varios factores, incluidas las llamadas simultáneas y el patrón general de carga de trabajo. Además, no tiene en cuenta ninguna latencia del lado cliente que pueda existir entre el cliente y el punto de conexión de API. En el caso de las solicitudes que no son de streaming, este valor es una estimación. Consulte su propio registro para obtener un seguimiento óptimo de la latencia.
TimeToResponse MilliSeconds Mínimo, Máximo, Promedio ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, , ModelVersionStatusCode PT1M Yes
Tokens por segundo

Enumera la velocidad de generación de una respuesta de modelo determinada. El número total de tokens generados se divide por el tiempo para generar los tokens, en segundos. Se aplica a las implementaciones administradas por PTU y PTU. En el caso de las solicitudes que no son de streaming, este valor es una estimación.
TokensPerSecond Count Máximo, mínimo, promedio ApiName, OperationName, Region, StreamType, ModelDeploymentName, , ModelNameModelVersion PT1M Yes

Categoría: Modelos- Uso

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Annotated Pages

Número total de páginas procesadas con anotaciones. Se aplica a despliegues PTU, PTU-Managed y Pay-as-you-go.
AnnotatedPages Count Total (Sum) ApiName, Region, ModelDeploymentName, , ModelName, ModelVersion PT1M Yes
Tokens de entrada de audio

Número de tokens de solicitud de audio procesados (entrada) en un modelo de OpenAI. Se aplica a las implementaciones de modelos administrados por PTU.
AudioInputTokens Count Total (Sum) ModelDeploymentName, ModelName, , ModelVersion, Region PT1M Yes
Tokens de salida de audio

Número de tokens de solicitud de audio generados (salida) en un modelo de OpenAI. Se aplica a las implementaciones de modelos administrados por PTU.
AudioOutputTokens Count Total (Sum) ModelDeploymentName, ModelName, , ModelVersion, Region PT1M Yes
Solicitud de tokens leídos de la memoria caché

Número total de tokens leídos de la memoria caché. Se aplica a Anthropic implementaciones de modelos. Se muestra en la sección uso de respuesta como cache_read_input_tokens
cacheReadInputTokens Count Total (Sum) ApiName, Region, ModelDeploymentName, ModelName, , ModelVersion, ContextLength PT1M Yes
Solicitar tokens escritos en caché (TTL de 1 hora)

Número de tokens de solicitud usados para crear la entrada de 1 hora. Se aplica a Anthropic implementaciones de modelos. Se muestra en la sección uso de respuesta como cache_creation.ephemeral_1h_input_tokens
ephemeral1hInputTokens Count Total (Sum) ApiName, Region, ModelDeploymentName, ModelName, , ModelVersion, ContextLength PT1M Yes
Solicitar tokens escritos en caché (TTL de 5 minutos)

Número de tokens de solicitud usados para crear la entrada de caché de 5 minutos. Se aplica a Anthropic implementaciones de modelos. Se muestra en la sección uso de respuesta como cache_creation.ephemeral_5m_input_tokens
ephemeral5mInputTokens Count Total (Sum) ApiName, Region, ModelDeploymentName, ModelName, , ModelVersion, ContextLength PT1M Yes
Generated Images

Número total de imágenes generadas. Se aplica a despliegues PTU, PTU-Managed y Pay-as-you-go.
GeneratedImages Count Total (Sum) ApiName, Region, ModelDeploymentName, , ModelName, ModelVersion PT1M Yes
Input Tokens

Número de tokens de solicitud procesados (entrada) en un modelo. Se aplica a despliegues PTU, PTU-Managed y Pay-as-you-go.
InputTokens Count Total (Sum) ApiName, Region, ModelDeploymentName, , ModelName, ModelVersion PT1M Yes
Output Tokens

Número de tokens generados (salida) a partir de un modelo de OpenAI. Se aplica a despliegues PTU, PTU-Managed y Pay-as-you-go.
OutputTokens Count Total (Sum) ApiName, Region, ModelDeploymentName, , ModelName, ModelVersion PT1M Yes
Provisioned Utilization

La utilización % para un despliegue gestionado provisionalmente, calculado como (PTUs consumidas / PTUs desplegadas) x 100. Cuando la utilización es mayor o igual a 100%, las llamadas se limitan y se devuelve el código de error 429.
ProvisionedUtilization Percent Mínimo, Máximo, Promedio Region, ModelDeploymentName, , ModelName, ModelVersion PT1M No
Total Pages

Número total de páginas procesadas. Se aplica a despliegues PTU, PTU-Managed y Pay-as-you-go.
TotalPages Count Total (Sum) ApiName, Region, ModelDeploymentName, , ModelName, ModelVersion PT1M Yes
Total Tokens

Número de tokens de inferencia procesados en un modelo. Se calcula como tokens de solicitud (entrada) más tokens generados (salida). Se aplica a despliegues PTU, PTU-Managed y Pay-as-you-go.
TotalTokens Count Total (Sum) ApiName, Region, ModelDeploymentName, , ModelName, ModelVersion PT1M Yes

Categoría: Espacios de nombres por evento

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Espacios de nombres de acción por evento

Número medio de espacios de nombres de acción por evento.
ActionNamespacesPerEvent Count Average Mode, RunId PT1M Yes
Espacios de nombres de contexto por evento

Número de espacios de nombres de contexto por evento.
ContextNamespacesPerEvent Count Average Mode, RunId PT1M Yes
Espacios de nombres de ranura por evento

Número medio de espacios de nombres de ranura por evento.
SlotNamespacesPerEvent Count Average Mode, RunId PT1M Yes

Category: Rewards

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Promedio de recompensas por evento

Recompensa media por evento.
Reward Count Average BaselineAction, ChosenActionId, MatchesBaseline, NonDefaultReward, , Mode, RunId PT1M Yes
Slot Reward

Recompensa por ranura.
SlotReward Count Average BaselineActionId, ChosenActionId, MatchesBaseline, NonDefaultReward, SlotId, SlotIndex, , ModeRunId PT1M Yes

Category: Slots

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Recompensa general del estimador de línea base

Estimador de línea base Recompensa general.
BaselineEstimatorOverallReward Count Average Mode, RunId PT1M Yes
Recompensa de ranura del estimador de línea base

Recompensa del estimador de línea base por ranura.
BaselineEstimatorSlotReward Count Average SlotId, SlotIndex, , Mode, RunId PT1M Yes
Recompensa general del estimador aleatorio de línea base

Recompensa general del estimador aleatorio de línea base.
BaselineRandomEstimatorOverallReward Count Average Mode, RunId PT1M Yes
Recompensa de ranura del estimador aleatorio de línea base

Recompensa del estimador aleatorio de línea base por ranura.
BaselineRandomEstimatorSlotReward Count Average SlotId, SlotIndex, , Mode, RunId PT1M Yes
Slots

Número de ranuras por evento.
NumberOfSlots Count Average Mode, RunId PT1M Yes
Recompensa general del estimador en línea

Estimador en línea Recompensa general.
OnlineEstimatorOverallReward Count Average Mode, RunId PT1M Yes
Recompensa de ranura estimador en línea

Recompensa del estimador en línea por ranura.
OnlineEstimatorSlotReward Count Average SlotId, SlotIndex, , Mode, RunId PT1M Yes
Slot Occurrences

Número de veces que aparece cada ranura.
SlotIdOccurrences Count Total (Sum) SlotId, SlotIndex, , Mode, RunId PT1M Yes

Categoría: SpeechServices - Uso

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Lotes de segundos de audio transcritos

Número de lotes de segundos transcritos
AudioSecondsBatchTranscribed Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Audio Seconds Batch Whisper Transcribed

Número de segundos de susurro por lotes transcrito
AudioSecondsBatchWhisperTranscribed Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Segundos de audio rápido transcritos

Número rápido de segundos transcritos
AudioSecondsFastTranscribed Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Audio Seconds Fast Whisper Transcribed

Número rápido de segundos transcritos
AudioSecondsFastWhisperTranscribed Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Segundos de audio transcritos

Número de segundos transcritos
AudioSecondsTranscribed Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Segundos de audio traducidos

Número de segundos traducidos
AudioSecondsTranslated Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Avatar Model Hosting Seconds

Número de segundos.
AvatarModelHostingSeconds Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Segundos de entrenamiento del modelo de Avatar

Número de segundos.
AvatarModelTrainingSeconds Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Número de perfiles de hablante

Número de perfiles de hablante inscritos. Prorated hourly.
NumberofSpeakerProfiles Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Transacciones de speaker Recognition

Número de transacciones de reconocimiento de hablantes
SpeakerRecognitionTransactions Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Horas de hospedaje del modelo de voz

Número de horas de hospedaje del modelo de voz
SpeechModelHostingHours Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Synthesized Characters

Número de caracteres.
SynthesizedCharacters Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Segundos de vídeo sintetizados

Número de segundos sintetizados
VideoSecondsSynthesized Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Tokens de entrada de audio en directo de voz

Número de tokens de entrada de audio, excepto los tokens almacenados en caché.
VoiceLiveAudioInputTokens Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Tokens de salida de audio en directo de voz

Número de tokens de salida de audio.
VoiceLiveAudioOutputTokens Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Tokens de entrada de audio almacenados en caché en vivo de voz

Número de tokens de entrada de audio almacenados en caché.
VoiceLiveCachedAudioInputTokens Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Tokens de entrada de texto almacenados en caché en vivo de voz

Número de tokens de entrada de texto almacenados en caché.
VoiceLiveCachedTextInputTokens Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Tokens de entrada de texto activo de voz

Número de tokens de entrada de texto, excepto los tokens almacenados en caché.
VoiceLiveTextInputTokens Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Tokens de salida de texto activo de voz

Número de tokens de salida de texto.
VoiceLiveTextOutputTokens Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Horas de hospedaje del modelo de voz

Número de horas.
VoiceModelHostingHours Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Minutos de entrenamiento del modelo de voz

Número de minutos.
VoiceModelTrainingMinutes Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes

Categoría: Translator Services - Uso

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Caracteres entrenados (en desuso)

Número total de caracteres entrenados.
CharactersTrained Count Total (Sum) ApiName, , OperationName, Region PT1M Yes
Caracteres traducidos (en desuso)

Número total de caracteres en la solicitud de texto entrante.
CharactersTranslated Count Total (Sum) ApiName, , OperationName, Region PT1M Yes
Caracteres de documento traducidos

Número de caracteres en la solicitud de traducción de documentos.
DocumentCharactersTranslated Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Caracteres personalizados de documento traducidos

Número de caracteres en la solicitud de traducción de documentos personalizada.
DocumentCustomCharactersTranslated Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Caracteres de sincronización de documentos traducidos

Número de caracteres en la solicitud de traducción de documentos (sincrónica).
OneDocumentCharactersTranslated Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Caracteres personalizados de sincronización de documentos traducidos

Número de caracteres en la solicitud de traducción de documentos personalizada (sincrónica).
OneDocumentCustomCharactersTranslated Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Caracteres de texto traducidos

Número de caracteres en la solicitud de traducción de texto entrante.
TextCharactersTranslated Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Caracteres personalizados de texto traducidos

Número de caracteres en la solicitud de traducción de texto personalizada entrante.
TextCustomCharactersTranslated Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Caracteres entrenados de texto

Número de caracteres entrenados mediante la traducción de texto.
TextTrainedCharacters Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Segundos de la aplicación Translator Pro

Número de segundos de uso de Translator Pro App.
TranslatorProAppSeconds Seconds Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes

Category: Usage

Metric Nombre en la API REST Unit Aggregation Dimensions Time Grains DS Export
Inference Count

Recuento de inferencias del servicio Carnegie Frontdoor
CarnegieInferenceCount Count Total (Sum) Region, Modality, Category, Language, , SeverityLevel, UseCustomList PT1M Yes
Computer Vision Transactions

Número de transacciones de Computer Vision
ComputerVisionTransactions Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Tiempo de entrenamiento de Custom Vision

Tiempo de entrenamiento de Custom Vision
CustomVisionTrainingTime Seconds Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Transacciones de Custom Vision

Número de transacciones de predicción de Custom Vision
CustomVisionTransactions Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Imágenes de caras entrenadas

Número de imágenes entrenadas. 1000 imágenes entrenadas por transacción.
FaceImagesTrained Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Faces Stored

Número de caras almacenadas, prorrateadas diariamente. El número de caras almacenadas se notifica diariamente.
FacesStored Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Face Transactions

Número de llamadas API realizadas al servicio Face
FaceTransactions Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Images Stored

Número de imágenes de Custom Vision almacenadas.
ImagesStored Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Learned Events

Número de eventos aprendidos.
LearnedEvents Count Total (Sum) IsMatchBaseline, , Mode, RunId PT1M Yes
Solicitudes de voz de LUIS

Número de conversión de voz de LUIS en solicitudes de comprensión de intenciones
LUISSpeechRequests Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Solicitudes de texto de LUIS

Número de solicitudes de texto de LUIS
LUISTextRequests Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Matched Rewards

Número de recompensas coincidentes.
MatchedRewards Count Total (Sum) Mode, RunId PT1M Yes
Eventos no activados

Número de eventos omitidos.
NonActivatedEvents Count Total (Sum) Mode, RunId PT1M Yes
Observed Rewards

Número de recompensas observadas.
ObservedRewards Count Total (Sum) Mode, RunId PT1M Yes
Processed Characters

Número de caracteres procesados por Immersive Reader.
ProcessedCharacters Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Registros de texto de estado procesados

Número de registros de texto de estado procesados
ProcessedHealthTextRecords Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Processed Images

Número de imágenes procesadas
ProcessedImages Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Processed Pages

Número de páginas procesadas
ProcessedPages Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Registros de texto procesados

Recuento de registros de texto.
ProcessedTextRecords Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Registros de texto qa

Número de registros de texto procesados
QuestionAnsweringTextRecords Count Total (Sum) ApiName, FeatureName, , UsageChannel, Region PT1M Yes
Duración de la sesión de voz (en desuso)

Duración total de la sesión de voz en segundos.
SpeechSessionDuration Seconds Total (Sum) ApiName, , OperationName, Region PT1M Yes
Total Events

Número de eventos.
TotalEvents Count Total (Sum) Mode, RunId PT1M Yes
Total de transacciones (en desuso)

Número total de transacciones.
TotalTransactions Count Total (Sum) <none> PT1M Yes

Metric dimensions

Para obtener información sobre las dimensiones de métricas, consulte Métricas multidimensionales.

Este servicio tiene las siguientes dimensiones asociadas a sus métricas.

  • ApiName
  • FeatureName
  • ModelDeploymentName
  • ModelName
  • ModelVersion
  • OperationName
  • Region
  • StatusCode
  • StreamType
  • UsageChannel

Resource logs

En esta sección se enumeran los tipos de registros de recursos que puede recopilar para este servicio. La sección extrae de la lista de todos los tipos de categoría de registros de recursos admitidos en Azure Monitor.

Registros de recursos admitidos para Microsoft. CognitiveServices/accounts

Category Nombre para mostrar de categoría Log table Admite el plan de registro básico. Admite la transformación en tiempo de ingesta. Example queries Costos para exportar
Audit Audit Logs AzureDiagnostics

Registros de varios recursos de Azure.

No No No
AzureOpenAIRequestUsage uso de solicitudes de OpenAI Azure AzureDiagnostics

Registros de varios recursos de Azure.

No No Yes
RequestResponse Registros de solicitud y respuesta AzureDiagnostics

Registros de varios recursos de Azure.

No No No
Trace Trace Logs AzureDiagnostics

Registros de varios recursos de Azure.

No No No

tablas de registros de Azure Monitor

En esta sección se enumeran las tablas de registros de Azure Monitor relevantes para este servicio, que están disponibles para realizar consultas mediante Log Analytics mediante consultas de Kusto. Las tablas contienen datos de registro de recursos y, posiblemente, más dependiendo de lo que se recopila y se enrutan a ellos.

Azure OpenAI microsoft.cognitiveservices/accounts

Activity log

En la tabla vinculada se enumeran las operaciones que se pueden registrar en el registro de actividad de este servicio. Estas operaciones son un subconjunto de todas las operaciones posibles del proveedor de recursos en el registro de actividad.

Para obtener más información sobre el esquema de entradas del registro de actividad, consulte Esquema del registro de actividad.