referência de dados de monitoramento do Azure OpenAI

Este artigo contém todas as informações de referência de monitoramento para este serviço.

Consulte Monitor Azure OpenAI para obter detalhes sobre os dados que você pode coletar para Azure OpenAI no Microsoft Foundry Models e como usá-los.

Metrics

Esta seção lista todas as métricas de plataforma coletadas automaticamente para esse serviço. Essas métricas também fazem parte da lista global de todas as métricas de plataforma com suporte no Azure Monitor.

Para obter informações sobre retenção de métrica, consulte Azure Monitor Visão geral das métricas.

Métricas com suporte para Microsoft. CognitiveServices/accounts

Aqui estão as métricas mais importantes que achamos que você deve monitorar para Azure OpenAI. Posteriormente, neste artigo, há uma lista mais longa de todas as métricas disponíveis para esse namespace que contém mais detalhes sobre as métricas nesta lista mais curta. Confira a lista abaixo para obter informações mais atualizadas. Estamos trabalhando para atualizar as tabelas nas seções a seguir.

  • Azure solicitações openai
  • Active Tokens
  • Tokens de conclusão gerados
  • Horas de treinamento finetuned processadas
  • Tokens de inferência processados
  • Tokens de prompt processados
  • Utilização gerenciada provisionada V2
  • Taxa de correspondência do cache de token de prompt
  • Tempo de resposta
  • Tempo entre tokens
  • Hora do Último Byte
  • Tempo normalizado para o primeiro byte
  • Tokens por segundo

Você também pode monitorar as métricas de Segurança de Conteúdo usadas por outros serviços relacionados.

  • Blocked Volume
  • Volume prejudicial detectado
  • Contagem potencial de usuários abusivos
  • Evento do sistema de segurança
  • Total de volumes enviados para verificação de segurança

Note

A métrica de utilização gerenciada por provisionamento agora está preterida e não é mais recomendada. Essa métrica foi substituída pela métrica V2 de utilização gerenciada por provisionamento . Tokens por segundo, tempo de resposta, tempo entre tokens atualmente não estão disponíveis para implantações Standard.

As métricas dos Serviços Cognitivos têm a categoria Serviços Cognitivos – Solicitações HTTP na tabela a seguir. Essas métricas são métricas herdadas que são comuns a todos os recursos desse tipo. Microsoft não recomenda mais que você use essas métricas com Azure OpenAI.

A tabela a seguir lista as métricas disponíveis para o Microsoft. Tipo de recurso CognitiveServices/accounts.

  • Todas as colunas podem não estar presentes em todas as tabelas.
  • Algumas colunas podem estar além da área de exibição da página. Selecione Expandir tabela para exibir todas as colunas disponíveis.

Table headings

  • Categoria – O grupo de métricas ou a classificação.
  • Metric – o nome de exibição da métrica como ele aparece no portal Azure.
  • Nome na API REST – o nome da métrica, conforme mencionado na API REST.
  • Unidade – Unidade de medida.
  • Agregação – o tipo de agregação padrão. Valores válidos: Média (Média), Mínimo (Mínimo), Máximo (Máximo), Total (Soma), Contagem.
  • Dimensões - Dimensões disponíveis para a métrica.
  • Grãos de - TempoIntervalos em que a métrica é amostrada. Por exemplo, PT1M indica que a métrica é amostrada a cada minuto, a PT30M cada 30 minutos, a PT1H cada hora e assim por diante.
  • DS Export- Se a métrica é exportável para Azure Monitor Logs por meio de configurações de diagnóstico. Para obter informações sobre como exportar métricas, consulte Create configurações de diagnóstico em Azure Monitor.

Category: Actions

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Action Occurences

Número de vezes que cada ação é exibida.
ActionIdOccurrences Count Total (Sum) ActionId, , ModeRunId PT1M Yes
Ações por evento

Número de ações por evento.
ActionsPerEvent Count Average Mode, RunId PT1M Yes

Categoria: Azure OpenAI – Solicitações HTTP

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Azure OpenAI AvailabilityRate

Percentual de disponibilidade com o seguinte cálculo: (Total de Chamadas – Erros do Servidor)/Total de Chamadas. Os erros do servidor incluem quaisquer respostas >HTTP =500.
AzureOpenAIAvailabilityRate Percent Mínimo, Máximo, Média ApiName, OperationName, Region, StreamType, , ModelDeploymentName, ModelName, ModelVersion PT1M No
Azure Solicitações OpenAI

Número de chamadas feitas para a API openai Azure durante um período de tempo. Vale para implantações de PTU, PTU-Managed e Pay-as-you-go. Para detalhar solicitações de API, você pode adicionar um filtro ou aplicar a divisão pelas seguintes dimensões: ModelDeploymentName, ModelName, ModelVersion, StatusCode (bem-sucedido, clienterrors, erros de servidor), IsSpillover para informações de derramamento, ServiceTier, StreamType (solicitações de streaming versus não streaming) e operação.
AzureOpenAIRequests Count Total (Sum) ApiName, OperationName, Region, StreamType, ModelDeploymentName, , ModelName, , ModelVersion, StatusCode, IsSpillover, , ServiceTierRequest, ServiceTierResponse PT1M Yes

Categoria: Azure OpenAI – Latência

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Tempo entre o token

Para solicitações de streaming; taxa de geração de token de modelo, medida em milissegundos. Aplica-se a implantações PTU, gerenciadas por PTU e Pagas conforme o uso.
AzureOpenAINormalizedTBTInMS MilliSeconds Máximo, Mínimo, Média Region, ModelDeploymentName, , ModelNameModelVersion PT1M Yes
Tempo normalizado para o primeiro byte

Para solicitações de streaming e não streaming; tempo necessário para que o primeiro byte de dados de resposta seja recebido após a solicitação ser feita pelo modelo, normalizado por token. Aplica-se a implantações PTU, gerenciadas por PTU e Pagas conforme o uso.
AzureOpenAINormalizedTTFTInMS MilliSeconds Máximo, Mínimo, Média Region, ModelDeploymentName, , ModelNameModelVersion PT1M Yes
Tempo de resposta

Medida de latência (capacidade de resposta) recomendada para solicitações de streaming. Aplica-se a implantações PTU, gerenciadas por PTU e Pagas conforme o uso. Calculado conforme o tempo necessário para que a primeira resposta apareça depois que um usuário envia um prompt, conforme medido pelo gateway de API. Esse número aumenta à medida que o tamanho do prompt aumenta e/ou o tamanho da ocorrência do cache é reduzido. Para dividir o tempo para a métrica de resposta, você pode adicionar um filtro ou aplicar a divisão pelas seguintes dimensões: ModelDeploymentName, ModelName e ModelVersion.

Observação: essa métrica é uma aproximação, pois a latência medida depende muito de vários fatores, incluindo chamadas simultâneas e padrão de carga de trabalho geral. Além disso, ele não conta para qualquer latência do lado do cliente que possa existir entre seu cliente e o ponto de extremidade da API. Consulte seu próprio registro em log para o acompanhamento de latência ideal.
AzureOpenAITimeToResponse MilliSeconds Mínimo, Máximo, Média ApiName, OperationName, Region, StreamType, , ModelDeploymentName, ModelName, , ModelVersionStatusCode PT1M Yes
Tokens por segundo

Enumera a velocidade de geração para um determinado Azure resposta do modelo OpenAI. O total de tokens gerados é dividido pelo tempo para gerar os tokens, em segundos. Aplica-se a implantações PTU, gerenciadas por PTU e Pagas conforme o uso.
AzureOpenAITokenPerSecond Count Máximo, Mínimo, Média Region, ModelDeploymentName, , ModelNameModelVersion PT1M Yes
Hora do Último Byte

Para solicitações de streaming e não streaming; tempo necessário para que o último byte de dados de resposta seja recebido após a solicitação ser feita pelo modelo. Aplica-se a implantações PTU, gerenciadas por PTU e Pagas conforme o uso.
AzureOpenAITTLTInMS MilliSeconds Máximo, Mínimo, Média Region, ModelDeploymentName, , ModelNameModelVersion PT1M Yes

Categoria: Azure OpenAI – Uso

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Active Tokens

Total de tokens menos tokens armazenados em cache durante um período de tempo. Aplica-se a implantações gerenciadas por PTU e PTU. Use essa métrica para entender sua utilização baseada em TPS ou TPM para PTUs e comparar com seus parâmetros de comparação para TPS de destino ou TPM para seus cenários. Para detalhar solicitações de API, você pode adicionar um filtro ou aplicar a divisão pelas seguintes dimensões: ModelDeploymentName, ModelName e ModelVersion.
ActiveTokens Count Mínimo, Máximo, Média, Total (Soma) Region, ModelDeploymentName, , ModelNameModelVersion PT1M Yes
Tokens de conclusão de áudio

Número de tokens de prompt de áudio gerados (saída) em um modelo OpenAI. Aplica-se a implantações de modelos pagas conforme o uso e gerenciadas por PTU.
AudioCompletionTokens Count Total (Sum) ModelDeploymentName, ModelName, , ModelVersionRegion PT1M Yes
Tokens de prompt de áudio

Número de tokens de prompt de áudio processados (entrada) em um modelo OpenAI. Aplica-se a implantações de modelos pagas conforme o uso e gerenciadas por PTU.
AudioPromptTokens Count Total (Sum) ModelDeploymentName, ModelName, , ModelVersionRegion PT1M Yes
Taxa de correspondência do cache de token de prompt

Porcentagem de tokens de prompt que atingem o cache. Aplica-se a implantações gerenciadas por PTU e PTU.
AzureOpenAIContextTokensCacheMatchRate Percent Mínimo, Máximo, Média Region, ModelDeploymentName, , ModelNameModelVersion PT1M No
Utilização gerenciada por provisionamento (preterida)

Utilização % para uma implantação gerenciada com provisonsões, calculada como (PTUs consumidas / PTUs implantadas) x 100. Quando a utilização é maior ou igual a 100%, as chamadas são limitadas e o código de erro 429 retornado. Para detalhar essa métrica, você pode adicionar um filtro ou aplicar a divisão pelas seguintes dimensões: ModelDeploymentName, ModelName, ModelVersion e StreamType (streaming versus solicitações sem streaming)
AzureOpenAIProvisionedManagedUtilization Percent Mínimo, Máximo, Média Region, StreamType, ModelDeploymentName, , ModelNameModelVersion PT1M No
Utilização gerenciada provisionada V2

Utilização % para uma implantação gerenciada com provisonsões, calculada como (PTUs consumidas / PTUs implantadas) x 100. Quando a utilização é maior ou igual a 100%, as chamadas são limitadas e o código de erro 429 retornado. Para detalhar essa métrica, você pode adicionar um filtro ou aplicar a divisão pelas seguintes dimensões: ModelDeploymentName, ModelName, ModelVersion e StreamType (streaming versus solicitações sem streaming)
AzureOpenAIProvisionedManagedUtilizationV2 Percent Mínimo, Máximo, Média Region, StreamType, ModelDeploymentName, , ModelNameModelVersion PT1M No
Horas de treinamento finetuned processadas

Número de horas de treinamento processadas em um modelo Do OpenAI FineTuned
FineTunedTrainingHours Count Total (Sum) ApiName, ModelDeploymentName, FeatureName, , UsageChannelRegion PT1M Yes
Tokens de conclusão gerados

Número de tokens gerados (saída) de um modelo OpenAI. Aplica-se a implantações PTU, gerenciadas por PTU e Pagas conforme o uso. Para detalhar essa métrica, você pode adicionar um filtro ou aplicar a divisão pelas seguintes dimensões: ModelDeploymentName e ModelName.
GeneratedTokens Count Total (Sum) ApiName, ModelDeploymentName, FeatureName, UsageChannel, , RegionModelVersion PT1M Yes
Tokens de prompt processados

Número de tokens de prompt processados (entrada) em um modelo OpenAI. Aplica-se a implantações PTU, gerenciadas por PTU e Pagas conforme o uso. Para detalhar essa métrica, você pode adicionar um filtro ou aplicar a divisão pelas seguintes dimensões: ModelDeploymentName e ModelName.
ProcessedPromptTokens Count Total (Sum) ApiName, ModelDeploymentName, FeatureName, UsageChannel, , RegionModelVersion PT1M Yes
Segundos de API em tempo real usados

Número realtimeAPI de segundos usado
RealtimeUsageTime Count Total (Sum) Region, ModelDeploymentName PT1M Yes
Tokens de inferência processados

Número de tokens de inferência processados em um modelo OpenAI. Calculados como tokens de prompt (entrada) mais tokens gerados (saída). Aplica-se a implantações PTU, gerenciadas por PTU e Pagas conforme o uso. Para detalhar essa métrica, você pode adicionar um filtro ou aplicar a divisão pelas seguintes dimensões: ModelDeploymentName e ModelName.
TokenTransaction Count Total (Sum) ApiName, ModelDeploymentName, FeatureName, UsageChannel, , RegionModelVersion PT1M Yes

Categoria: Serviços Cognitivos – Solicitações HTTP

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Blocked Calls

Número de chamadas que excederam a taxa ou o limite de cota. Não use para Azure serviço OpenAI.
BlockedCalls Count Total (Sum) ApiName, OperationName, , RegionRatelimitKey PT1M Yes
Client Errors

Número de chamadas com erro do lado do cliente (código de resposta HTTP 4xx). Não use para Azure serviço OpenAI.
ClientErrors Count Total (Sum) ApiName, OperationName, , RegionRatelimitKey PT1M Yes
Data In

Tamanho dos dados de entrada em bytes. Não use para Azure serviço OpenAI.
DataIn Bytes Total (Sum) ApiName, , OperationNameRegion PT1M Yes
Data Out

Tamanho dos dados de saída em bytes. Não use para Azure serviço OpenAI.
DataOut Bytes Total (Sum) ApiName, , OperationNameRegion PT1M Yes
Latency

Latência em milissegundos. Não use para Azure serviço OpenAI.
Latency MilliSeconds Average ApiName, OperationName, , RegionRatelimitKey PT1M Yes
Ratelimit

O ratelimit atual da chave ratelimit. Não use para Azure serviço OpenAI.
Ratelimit Count Total (Sum) Region, RatelimitKey PT1M Yes
Server Errors

Número de chamadas com erro interno de serviço (código de resposta HTTP 5xx). Não use para Azure serviço OpenAI.
ServerErrors Count Total (Sum) ApiName, OperationName, , RegionRatelimitKey PT1M Yes
Successful Calls

Número de chamadas bem-sucedidas. Não use para Azure serviço OpenAI.
SuccessfulCalls Count Total (Sum) ApiName, OperationName, , RegionRatelimitKey PT1M Yes
Total Calls

Número total de chamadas. Não use para Azure serviço OpenAI.
TotalCalls Count Total (Sum) ApiName, OperationName, , RegionRatelimitKey PT1M Yes
Total Errors

Número total de chamadas com resposta de erro (código de resposta HTTP 4xx ou 5xx). Não use para Azure serviço OpenAI.
TotalErrors Count Total (Sum) ApiName, OperationName, , RegionRatelimitKey PT1M Yes
Total de chamadas de token

Número total de chamadas de token.
TotalTokenCalls Count Total (Sum) ApiName, , OperationNameRegion PT1M Yes

Categoria: Serviços Cognitivos – SLI

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
AvailabilityRate

Percentual de disponibilidade com o seguinte cálculo: (Total de Chamadas – Erros do Servidor)/Total de Chamadas. Os erros do servidor incluem quaisquer respostas >HTTP =500. Não use para Azure serviço OpenAI.
SuccessRate Percent Mínimo, Máximo, Média ApiName, OperationName, , RegionRatelimitKey PT1M No

Categoria: Compreensão de conteúdo – Uso

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Face Transactions

Número de chamadas de API feitas para o serviço De detecção facial
FaceApiTransactions Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Minutos de áudio processados

Minutos de áudio processado
ProcessedAudioMinutes Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Processed Pages

Número de páginas de documento processadas
ProcessedDocumentPages Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Processed Images

Número de imagens processadas
ProcessedImageCount Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Minutos de vídeo processados

Minutos de vídeo processado
ProcessedVideoMinutes Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Tokens

Número de tokens consumidos
Tokens Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes

Categoria: ContentSafety – Riscos&Segurança

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Contagem de usuários potencialmente abusivos

Número de usuários potencialmente abusivos detectados durante um período de tempo. Você pode adicionar um filtro ou aplicar a divisão pela seguinte dimensão: ModelDeploymentName.
RAIAbusiveUsersCount Count Total (Sum) Region, ModelDeploymentName PT1M Yes
Volume prejudicial detectado

Número de chamadas feitas para Azure API OpenAI e detectadas como prejudiciais (modelo de bloco e modo de anotação) pelo filtro de conteúdo aplicado durante um período de tempo. Você pode adicionar um filtro ou aplicar a divisão pelas seguintes dimensões: ModelDeploymentName, ModelName e TextType.
RAIHarmfulRequests Count Total (Sum) Region, ModelDeploymentName, ModelName, ModelVersion, , ApiName, TextType, , CategorySeverity PT1M Yes
Blocked Volume

Número de chamadas feitas para Azure API OpenAI e rejeitadas pelo filtro de conteúdo aplicado durante um período de tempo. Você pode adicionar um filtro ou aplicar a divisão pelas seguintes dimensões: ModelDeploymentName, ModelName e TextType.
RAIRejectedRequests Count Total (Sum) Region, ModelDeploymentName, ModelName, ModelVersion, , ApiName, TextType, Category PT1M Yes
Evento do sistema de segurança

Evento do sistema para riscos e monitoramento de segurança. Você pode adicionar um filtro ou aplicar a divisão pela seguinte dimensão: EventType.
RAISystemEvent Count Average Region, EventType PT1M Yes
Volume total enviado para verificação de segurança

Número de chamadas feitas para Azure API OpenAI e detectadas pelo filtro de conteúdo aplicado durante um período de tempo. Você pode adicionar um filtro ou aplicar a divisão pelas seguintes dimensões: ModelDeploymentName, ModelName.
RAITotalRequests Count Total (Sum) Region, ModelDeploymentName, ModelName, , ModelVersionApiName PT1M Yes

Categoria: ContentSafety – Uso

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Contagem de chamadas para moderação de imagem

Número de chamadas para moderação de imagem.
ContentSafetyImageAnalyzeRequestCount Count Total (Sum) ApiVersion PT1M Yes
Contagem de chamadas para moderação de texto

Número de chamadas para moderação de texto.
ContentSafetyTextAnalyzeRequestCount Count Total (Sum) ApiVersion PT1M Yes

Category: Estimations

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Contagem de eventos aleatórios de linha de base

Estimativa da contagem de eventos aleatórios de linha de base.
BaselineRandomEventCount Count Total (Sum) Mode, RunId PT1M Yes
Recompensa Aleatória de Linha de Base

Estimativa de recompensa aleatória de linha de base.
BaselineRandomReward Count Total (Sum) Mode, RunId PT1M Yes
Contagem de eventos online

Estimativa para contagem de eventos online.
OnlineEventCount Count Total (Sum) Mode, RunId PT1M Yes
Online Reward

Estimativa de recompensa online.
OnlineReward Count Total (Sum) Mode, RunId PT1M Yes
Contagem de eventos da linha de base de usuário

Estimativa da contagem de eventos de linha de base definida pelo usuário.
UserBaselineEventCount Count Total (Sum) Mode, RunId PT1M Yes
Recompensa da linha de base do usuário

Estimativa da recompensa de linha de base definida pelo usuário.
UserBaselineReward Count Total (Sum) Mode, RunId PT1M Yes

Categoria: Ocorrências de recursos

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Ocorrências de recurso de ação

Número de vezes que cada recurso de ação é exibido.
ActionFeatureIdOccurrences Count Total (Sum) FeatureId, , ModeRunId PT1M Yes
Ocorrências de recurso de contexto

Número de vezes que cada recurso de contexto é exibido.
ContextFeatureIdOccurrences Count Total (Sum) FeatureId, , ModeRunId PT1M Yes
Ocorrências de recurso de slot

Número de vezes que cada recurso de slot é exibido.
SlotFeatureIdOccurrences Count Total (Sum) FeatureId, , ModeRunId PT1M Yes

Category: FeatureCardinality

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Cardinalidade do recurso por ação

Cardinalidade do recurso com base na Ação.
FeatureCardinality_Action Count Average FeatureId, , ModeRunId PT1M Yes
Cardinalidade do recurso por contexto

Cardinalidade do recurso com base no contexto.
FeatureCardinality_Context Count Average FeatureId, , ModeRunId PT1M Yes
Cardinalidade do recurso por slot

Cardinalidade do recurso com base no Slot.
FeatureCardinality_Slot Count Average FeatureId, , ModeRunId PT1M Yes

Categoria: Recursos por evento

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Recursos de ação por evento

Número médio de recursos de ação por evento.
ActionFeaturesPerEvent Count Average Mode, RunId PT1M Yes
Recursos de contexto por evento

Número de recursos de contexto por evento.
ContextFeaturesPerEvent Count Average Mode, RunId PT1M Yes
Recursos de slot por evento

Número médio de recursos de slot por evento.
SlotFeaturesPerEvent Count Average Mode, RunId PT1M Yes

Categoria: Idioma – Trabalhos

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Duração do trabalho (versão prévia)

Observação: esse valor depende muito do tamanho da entrada, do número de documentos e da complexidade da tarefa. Esse é um valor agregado em todas as tarefas de trabalho.
JobDuration MilliSeconds Mínimo, Máximo, Média JobStatus, JobType PT1M Yes

Categoria: Modelos – Solicitações HTTP

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Taxa de Disponibilidade do Modelo

Percentual de disponibilidade com o seguinte cálculo: (Total de Chamadas – Erros do Servidor)/Total de Chamadas. Os erros do servidor incluem quaisquer respostas >HTTP =500.
ModelAvailabilityRate Percent Mínimo, Máximo, Média Region, ModelDeploymentName, , ModelNameModelVersion PT1M No
Model Requests

Número de chamadas feitas à API de modelo durante um período de tempo. Vale para implantações de PTU, PTU-Managed e Pay-as-you-go.
ModelRequests Count Total (Sum) ApiName, OperationName, Region, StreamType, ModelDeploymentName, , ModelName, , ModelVersion, StatusCode, IsSpillover, , ServiceTierRequest, ServiceTierResponse PT1M Yes

Categoria: Modelos – Latência

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Tempo entre tokens

Taxa de geração de token de modelo, medida em milissegundos. Aplica-se a implantações gerenciadas por PTU e PTU. Para solicitações que não são de streaming, esse valor é uma estimativa.
NormalizedTimeBetweenTokens MilliSeconds Máximo, Mínimo, Média ApiName, OperationName, Region, StreamType, , ModelDeploymentName, ModelName, ModelVersion PT1M Yes
Tempo normalizado para o primeiro byte

O tempo necessário para que o primeiro byte de dados de resposta seja recebido após a solicitação ser feita pelo modelo, normalizado por token. Aplica-se a implantações PTU, gerenciadas por PTU e Pagas conforme o uso. Para solicitações que não são de streaming, esse valor é uma estimativa.
NormalizedTimeToFirstToken MilliSeconds Máximo, Mínimo, Média ApiName, OperationName, Region, StreamType, , ModelDeploymentName, ModelName, ModelVersion PT1M Yes
Hora do Último Byte

Tempo necessário para que o último byte de dados de resposta seja recebido após a solicitação ser feita pelo modelo. Aplica-se a implantações PTU, gerenciadas por PTU e Pagas conforme o uso. Para solicitações que não são de streaming, esse valor é uma estimativa.
TimeToLastByte MilliSeconds Máximo, Mínimo, Média ApiName, OperationName, Region, StreamType, , ModelDeploymentName, ModelName, ModelVersion PT1M Yes
Tempo de resposta

Medida de latência (capacidade de resposta) recomendada. Aplica-se a implantações gerenciadas por PTU e PTU. Calculado conforme o tempo necessário para que a primeira resposta apareça depois que um usuário envia um prompt, conforme medido pelo gateway de API. Esse número aumenta à medida que o tamanho do prompt aumenta e/ou o tamanho da ocorrência do cache é reduzido. Para dividir o tempo para a métrica de resposta, você pode adicionar um filtro ou aplicar a divisão pelas seguintes dimensões: ModelDeploymentName, ModelName e ModelVersion.

Observação: essa métrica é uma aproximação, pois a latência medida depende muito de vários fatores, incluindo chamadas simultâneas e padrão de carga de trabalho geral. Além disso, ele não conta para qualquer latência do lado do cliente que possa existir entre seu cliente e o ponto de extremidade da API. Para solicitações que não são de streaming, esse valor é uma estimativa. Consulte seu próprio registro em log para o acompanhamento de latência ideal.
TimeToResponse MilliSeconds Mínimo, Máximo, Média ApiName, OperationName, Region, StreamType, , ModelDeploymentName, ModelName, , ModelVersionStatusCode PT1M Yes
Tokens por segundo

Enumera a velocidade de geração para uma determinada resposta de modelo. O total de tokens gerados é dividido pelo tempo para gerar os tokens, em segundos. Aplica-se a implantações gerenciadas por PTU e PTU. Para solicitações que não são de streaming, esse valor é uma estimativa.
TokensPerSecond Count Máximo, Mínimo, Média ApiName, OperationName, Region, StreamType, , ModelDeploymentName, ModelName, ModelVersion PT1M Yes

Categoria: Modelos – Uso

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Annotated Pages

Número total de páginas processadas com anotações. Vale para implantações de PTU, PTU-Managed e Pay-as-you-go.
AnnotatedPages Count Total (Sum) ApiName, Region, ModelDeploymentName, , ModelNameModelVersion PT1M Yes
Tokens de entrada de áudio

Número de tokens de prompt de áudio processados (entrada) em um modelo OpenAI. Aplica-se a implantações de modelo gerenciadas por PTU.
AudioInputTokens Count Total (Sum) ModelDeploymentName, ModelName, , ModelVersionRegion PT1M Yes
Tokens de saída de áudio

Número de tokens de prompt de áudio gerados (saída) em um modelo OpenAI. Aplica-se a implantações de modelo gerenciadas por PTU.
AudioOutputTokens Count Total (Sum) ModelDeploymentName, ModelName, , ModelVersionRegion PT1M Yes
Tokens de prompt lidos do cache

Número total de tokens lidos do cache. Aplica-se a implantações de modelo Anthropic. Apresentado na seção de uso de resposta como cache_read_input_tokens
cacheReadInputTokens Count Total (Sum) ApiName, Region, ModelDeploymentName, ModelName, , ModelVersionContextLength PT1M Yes
Tokens de prompt gravados em cache (TTL de 1 hora)

O número de tokens de prompt usados para criar a entrada de 1 hora. Aplica-se a implantações de modelo Anthropic. Apresentado na seção de uso de resposta como cache_creation.ephemeral_1h_input_tokens
ephemeral1hInputTokens Count Total (Sum) ApiName, Region, ModelDeploymentName, ModelName, , ModelVersionContextLength PT1M Yes
Tokens de prompt gravados em cache (TTL de 5 minutos)

O número de tokens de prompt usados para criar a entrada de cache de 5 minutos. Aplica-se a implantações de modelo Anthropic. Apresentado na seção de uso de resposta como cache_creation.ephemeral_5m_input_tokens
ephemeral5mInputTokens Count Total (Sum) ApiName, Region, ModelDeploymentName, ModelName, , ModelVersionContextLength PT1M Yes
Generated Images

Número total de imagens geradas. Vale para implantações de PTU, PTU-Managed e Pay-as-you-go.
GeneratedImages Count Total (Sum) ApiName, Region, ModelDeploymentName, , ModelNameModelVersion PT1M Yes
Input Tokens

Número de tokens de prompt processados (entrada) em um modelo. Vale para implantações de PTU, PTU-Managed e Pay-as-you-go.
InputTokens Count Total (Sum) ApiName, Region, ModelDeploymentName, , ModelNameModelVersion PT1M Yes
Output Tokens

Número de tokens gerados (saída) de um modelo OpenAI. Vale para implantações de PTU, PTU-Managed e Pay-as-you-go.
OutputTokens Count Total (Sum) ApiName, Region, ModelDeploymentName, , ModelNameModelVersion PT1M Yes
Provisioned Utilization

Utilização % para uma implantação gerenciada com provisonsões, calculada como (PTUs consumidas / PTUs implantadas) x 100. Quando a utilização é maior ou igual a 100%, as chamadas são limitadas e o código de erro 429 retornado.
ProvisionedUtilization Percent Mínimo, Máximo, Média Region, ModelDeploymentName, , ModelNameModelVersion PT1M No
Total Pages

Número total de páginas processadas. Vale para implantações de PTU, PTU-Managed e Pay-as-you-go.
TotalPages Count Total (Sum) ApiName, Region, ModelDeploymentName, , ModelNameModelVersion PT1M Yes
Total Tokens

Número de tokens de inferência processados em um modelo. Calculados como tokens de prompt (entrada) mais tokens gerados (saída). Vale para implantações de PTU, PTU-Managed e Pay-as-you-go.
TotalTokens Count Total (Sum) ApiName, Region, ModelDeploymentName, , ModelNameModelVersion PT1M Yes

Categoria: Namespaces por evento

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Namespaces de ação por evento

Número médio de namespaces de ação por evento.
ActionNamespacesPerEvent Count Average Mode, RunId PT1M Yes
Namespaces de contexto por evento

Número de namespaces de contexto por evento.
ContextNamespacesPerEvent Count Average Mode, RunId PT1M Yes
Namespaces de slot por evento

Número médio de namespaces de slot por evento.
SlotNamespacesPerEvent Count Average Mode, RunId PT1M Yes

Category: Rewards

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Recompensa média por evento

Recompensa média por evento.
Reward Count Average BaselineAction, ChosenActionId, MatchesBaseline, NonDefaultReward, , ModeRunId PT1M Yes
Slot Reward

Recompensa por slot.
SlotReward Count Average BaselineActionId, ChosenActionId, MatchesBaseline, NonDefaultReward, , SlotId, SlotIndex, , ModeRunId PT1M Yes

Category: Slots

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Recompensa geral do avaliador de linha de base

Recompensa geral do Avaliador de Linha de Base.
BaselineEstimatorOverallReward Count Average Mode, RunId PT1M Yes
Recompensa de slot do avaliador de linha de base

Recompensa do Avaliador de Linha de Base por slot.
BaselineEstimatorSlotReward Count Average SlotId, SlotIndex, , ModeRunId PT1M Yes
Recompensa geral do avaliador aleatório de linha de base

Recompensa geral do avaliador aleatório de linha de base.
BaselineRandomEstimatorOverallReward Count Average Mode, RunId PT1M Yes
Recompensa de slot do avaliador aleatório de linha de base

Recompensa do Avaliador Aleatório de Linha de Base por slot.
BaselineRandomEstimatorSlotReward Count Average SlotId, SlotIndex, , ModeRunId PT1M Yes
Slots

Número de slots por evento.
NumberOfSlots Count Average Mode, RunId PT1M Yes
Recompensa geral do avaliador online

Recompensa geral do avaliador online.
OnlineEstimatorOverallReward Count Average Mode, RunId PT1M Yes
Recompensa de slot do avaliador online

Recompensa do Avaliador Online por slot.
OnlineEstimatorSlotReward Count Average SlotId, SlotIndex, , ModeRunId PT1M Yes
Slot Occurrences

Número de vezes que cada slot é exibido.
SlotIdOccurrences Count Total (Sum) SlotId, SlotIndex, , ModeRunId PT1M Yes

Categoria: SpeechServices – Uso

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Transcrito do Lote de Segundos de Áudio

Número do lote de segundos transcritos
AudioSecondsBatchTranscribed Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Audio Seconds Batch Whisper Transcribed

Número de sussurro em lote de segundos transcritos
AudioSecondsBatchWhisperTranscribed Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Transcrito Rápido de Segundos de Áudio

Número rápido de segundos transcritos
AudioSecondsFastTranscribed Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Audio Seconds Fast Whisper Transcribed

Número de sussurro rápido de segundos transcritos
AudioSecondsFastWhisperTranscribed Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Segundos de Áudio Transcritos

Número de segundos transcritos
AudioSecondsTranscribed Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Segundos de áudio traduzidos

Número de segundos traduzido
AudioSecondsTranslated Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Segundos de hospedagem do modelo de avatar

Número de segundos.
AvatarModelHostingSeconds Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Segundos de treinamento do modelo de avatar

Número de segundos.
AvatarModelTrainingSeconds Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Número de perfis de locutor

Número de perfis de locutor registrados. Prorated hourly.
NumberofSpeakerProfiles Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Transações de reconhecimento do locutor

Número de transações de reconhecimento do locutor
SpeakerRecognitionTransactions Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Horas de hospedagem do modelo de fala

Número de horas de hospedagem do modelo de fala
SpeechModelHostingHours Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Synthesized Characters

Número de caracteres.
SynthesizedCharacters Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Segundos de vídeo sintetizados

Número de segundos sintetizado
VideoSecondsSynthesized Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Tokens de entrada de áudio ao vivo de voz

Número de tokens de entrada de áudio, excluindo tokens armazenados em cache.
VoiceLiveAudioInputTokens Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Tokens de saída de áudio ao vivo de voz

Número de tokens de saída de áudio.
VoiceLiveAudioOutputTokens Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Tokens de entrada de áudio em cache ao vivo de voz

Número de tokens de entrada de áudio armazenados em cache.
VoiceLiveCachedAudioInputTokens Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Tokens de entrada de texto em cache ao vivo de voz

Número de tokens de entrada de texto armazenados em cache.
VoiceLiveCachedTextInputTokens Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Tokens de entrada de texto ao vivo de voz

Número de tokens de entrada de texto, excluindo tokens armazenados em cache.
VoiceLiveTextInputTokens Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Tokens de saída de texto ao vivo de voz

Número de tokens de saída de texto.
VoiceLiveTextOutputTokens Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Horas de hospedagem do modelo de voz

Número de horas.
VoiceModelHostingHours Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Minutos de treinamento do modelo de voz

Número de minutos.
VoiceModelTrainingMinutes Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes

Categoria: Serviços de Tradutor – Uso

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Caracteres treinados (preteridos)

Número total de caracteres treinados.
CharactersTrained Count Total (Sum) ApiName, , OperationNameRegion PT1M Yes
Caracteres traduzidos (preteridos)

Número total de caracteres na solicitação de texto de entrada.
CharactersTranslated Count Total (Sum) ApiName, , OperationNameRegion PT1M Yes
Caracteres do documento traduzidos

Número de caracteres na solicitação de tradução de documento.
DocumentCharactersTranslated Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Caracteres personalizados do documento traduzidos

Número de caracteres na solicitação de tradução de documento personalizada.
DocumentCustomCharactersTranslated Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Caracteres de sincronização de documento traduzidos

Número de caracteres na solicitação de tradução de documento (síncrona).
OneDocumentCharactersTranslated Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Caracteres personalizados de sincronização de documentos traduzidos

Número de caracteres na solicitação de tradução de documento personalizada (síncrona).
OneDocumentCustomCharactersTranslated Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Caracteres de texto traduzidos

Número de caracteres na solicitação de tradução de texto de entrada.
TextCharactersTranslated Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Caracteres personalizados de texto traduzidos

Número de caracteres na solicitação de tradução de texto personalizada de entrada.
TextCustomCharactersTranslated Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Caracteres treinados por texto

Número de caracteres treinados usando tradução de texto.
TextTrainedCharacters Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Segundos do Tradutor Pro App

Número de segundos de uso do Translator Pro App.
TranslatorProAppSeconds Seconds Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes

Category: Usage

Metric Nome na API REST Unit Aggregation Dimensions Time Grains DS Export
Inference Count

Contagem de inferências do Serviço Carnegie Frontdoor
CarnegieInferenceCount Count Total (Sum) Region, Modality, Category, Language, , SeverityLevelUseCustomList PT1M Yes
Pesquisa Visual Computacional Transactions

Número de transações de Pesquisa Visual Computacional
ComputerVisionTransactions Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Tempo de Treinamento de Visão Personalizada

Tempo de treinamento da Visão Personalizada
CustomVisionTrainingTime Seconds Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Transações de Visão Personalizada

Número de transações de previsão da Visão Personalizada
CustomVisionTransactions Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Imagens de rosto treinadas

Número de imagens treinadas. 1.000 imagens treinadas por transação.
FaceImagesTrained Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Faces Stored

Número de rostos armazenados, proporcionalmente diariamente. O número de rostos armazenados é relatado diariamente.
FacesStored Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Face Transactions

Número de chamadas de API feitas para o serviço De detecção facial
FaceTransactions Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Images Stored

Número de imagens de Visão Personalizada armazenadas.
ImagesStored Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Learned Events

Número de eventos aprendidos.
LearnedEvents Count Total (Sum) IsMatchBaseline, , ModeRunId PT1M Yes
Solicitações de Fala do LUIS

Número de solicitações de reconhecimento de intenção de fala do LUIS
LUISSpeechRequests Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Solicitações de Texto do LUIS

Número de solicitações de texto do LUIS
LUISTextRequests Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Matched Rewards

Número de recompensas correspondentes.
MatchedRewards Count Total (Sum) Mode, RunId PT1M Yes
Eventos não ativados

Número de eventos ignorados.
NonActivatedEvents Count Total (Sum) Mode, RunId PT1M Yes
Observed Rewards

Número de Recompensas Observadas.
ObservedRewards Count Total (Sum) Mode, RunId PT1M Yes
Processed Characters

Número de caracteres processados por Leitura Avançada.
ProcessedCharacters Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Registros de texto de integridade processados

Número de registros de texto de integridade processados
ProcessedHealthTextRecords Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Processed Images

Número de imagens processadas
ProcessedImages Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Processed Pages

Número de páginas processadas
ProcessedPages Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Registros de texto processados

Contagem de registros de texto.
ProcessedTextRecords Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Registros de texto de QA

Número de registros de texto processados
QuestionAnsweringTextRecords Count Total (Sum) ApiName, FeatureName, , UsageChannelRegion PT1M Yes
Duração da sessão de fala (preterida)

Duração total da sessão de fala em segundos.
SpeechSessionDuration Seconds Total (Sum) ApiName, , OperationNameRegion PT1M Yes
Total Events

Número de eventos.
TotalEvents Count Total (Sum) Mode, RunId PT1M Yes
Total de transações (preterido)

Número total de transações.
TotalTransactions Count Total (Sum) <Nenhum> PT1M Yes

Metric dimensions

Para obter informações sobre quais dimensões de métrica são, consulte métricas multidimensionais.

Esse serviço tem as seguintes dimensões associadas às suas métricas.

  • ApiName
  • FeatureName
  • ModelDeploymentName
  • ModelName
  • ModelVersion
  • OperationName
  • Region
  • StatusCode
  • StreamType
  • UsageChannel

Resource logs

Esta seção lista os tipos de logs de recursos que você pode coletar para esse serviço. A seção extrai da lista de tipos de categoria todos os logs de recursos com suporte no Azure Monitor.

Logs de recursos com suporte para Microsoft. CognitiveServices/accounts

Category Nome de exibição de categoria Log table Dá suporte ao plano de log básico Dá suporte à transformação de tempo de ingestão Example queries Custos a serem exportados
Audit Audit Logs AzureDiagnostics

Logs de vários recursos de Azure.

No No No
AzureOpenAIRequestUsage Azure uso da solicitação OpenAI AzureDiagnostics

Logs de vários recursos de Azure.

No No Yes
RequestResponse Logs de solicitação e resposta AzureDiagnostics

Logs de vários recursos de Azure.

No No No
Trace Trace Logs AzureDiagnostics

Logs de vários recursos de Azure.

No No No

tabelas de logs de Azure Monitor

Esta seção lista as tabelas de logs de Azure Monitor relevantes para esse serviço, que estão disponíveis para consulta por Log Analytics usando consultas Kusto. As tabelas contêm dados de log de recursos e, possivelmente, mais dependendo do que é coletado e roteado para elas.

Azure OpenAI microsoft.cognitiveservices/accounts

Activity log

A tabela vinculada lista as operações que podem ser registradas no log de atividades desse serviço. Essas operações são um subconjunto de todas as operações possíveis do provedor de recursos no log de atividades.

Para obter mais informações sobre o esquema de entradas de log de atividades, consulte o esquema do Log de Atividades.