Registo de utilização de tokens, prompts e completações para APIs de modelos de linguagem

Neste artigo, aprende como configurar o registo do Azure Monitor para pedidos e respostas da API do modelo de linguagem no API Management do Azure.

O administrador de Gestão de APIs pode utilizar registos de pedidos e respostas dos modelos de linguagem juntamente com registos do gateway de Gestão de APIs para cenários tais como:

  • Calcula o uso para faturação. Calcule métricas de utilização para faturação com base no número de tokens consumidos por cada consumidor de aplicação ou API (por exemplo, segmentados por ID de subscrição ou endereço IP).

  • Inspecionar as mensagens. Inspecione e analise prompts e preenchimentos para ajudar na depuração, auditoria e avaliação de modelos.

Saiba mais sobre:

Pré-requisitos

  • Uma instância de Gerenciamento de API do Azure.
  • Uma API de conclusões de chat de modelo de linguagem gerida integrada com o API Management do Azure. Por exemplo, importar uma API do Microsoft Foundry.
  • Acesso a um espaço de trabalho do Azure Log Analytics.
  • Permissões apropriadas para definir configurações de diagnóstico e acessar logs no Gerenciamento de API.

Ativar configuração de diagnóstico para registos da API do modelo de linguagem

Habilite uma configuração de diagnóstico para registrar solicitações que o gateway processa para APIs REST de modelo de linguagem grande. Para cada pedido, o Azure Monitor recebe:

  • Dados sobre o uso de tokens, como tokens de prompt, tokens de conclusão e tokens totais

  • Nome do modelo utilizado

  • Opcionalmente, as mensagens de pedido e resposta: sinal e conclusão

    O Azure Monitor divide grandes pedidos e respostas em múltiplas entradas de registo com números de sequência para reconstrução posterior, se necessário.

Siga estes passos para ativar uma definição de diagnóstico que encaminhe os registos da API do modelo de linguagem para um espaço de trabalho do Log Analytics. Para obter mais informações, consulte Habilitar configuração de diagnóstico para logs do Azure Monitor.

  1. No portal do Azure, navegue até sua instância de Gerenciamento de API do Azure.

  2. No menu à esquerda, em Monitoramento, selecione Configurações de diagnóstico>+ Adicionar configuração de diagnóstico.

  3. Configure a definição para enviar registos de gateway de IA para um espaço de trabalho do Log Analytics:

    • Em Logs, selecione Logs relacionados com o gateway de IA generativa.
    • Em Detalhes do destino, selecione Enviar para o espaço de trabalho do Log Analytics.
  4. Revise ou defina outras configurações e faça alterações, se necessário.

  5. Selecione Guardar.

Captura de tela da configuração de diagnóstico para logs de gateway de IA no portal.

Permitir o registo de pedidos ou respostas para a API do modelo de linguagem

Você pode habilitar as configurações de diagnóstico para todas as APIs ou personalizar o registro em log para APIs específicas. Siga estes passos para registar tanto os pedidos do modelo de linguagem como as mensagens de resposta para uma API. Para obter mais informações, consulte Modificar configurações de log da API.

  1. No menu esquerdo da sua instância de Gestão de APIs, selecione APIs> e depois selecione o nome da API.
  2. Selecione Definições na barra superior.
  3. Desça até à secção Registos de Diagnóstico e selecione Azure Monitor.
  4. Em Registrar mensagens LLM, selecione Habilitado.
  5. Selecione Solicitações de log e insira um tamanho em bytes, como 32768.
  6. Selecione Concluir o log e insira um tamanho em bytes, como 32768.
  7. Revise outras configurações e faça alterações, se necessário. Selecione Guardar.

Captura de ecrã de ativar o registo de modelos de linguagem para uma API no portal.

Observação

Se ativar a coleta, mensagens de pedido ou de resposta de modelos de linguagem de até 32 KB são enviadas como uma única entrada. Mensagens superiores a 32 KB são divididas e registadas em blocos de 32 KB com números de sequência para reconstrução posterior. As mensagens de solicitação e as mensagens de resposta não podem exceder 2 MB cada.

Revisão do manual de análise para APIs de modelos de linguagem

O painel Analytics baseado em Azure Monitor fornece insights sobre a utilização da API do modelo de linguagem e o consumo de tokens, utilizando dados agregados num espaço de trabalho Log Analytics. Para mais informações, consulte Obtenha análises de API em API Management do Azure.

  1. No menu esquerdo da sua instância de Gerenciamento de API, selecione Monitoring>Analytics.
  2. Selecione a guia Modelos de idioma .
  3. Revise métricas e visualizações para o consumo e pedidos de tokens da API do modelo de linguagem num intervalo de tempo selecionado.

Captura de ecrã das análises para APIs de modelo de linguagem no portal.

Revise os logs do Azure Monitor para solicitações e respostas

Consulte o registo ApiManagementGatewayLlmLog para detalhes sobre pedidos e respostas de modelos de linguagem, incluindo consumo de tokens, implementação do modelo utilizado e outros detalhes em intervalos de tempo específicos.

Pedidos e respostas, incluindo mensagens em blocos para pedidos e respostas grandes, aparecem em entradas de registo separadas que pode correlacionar usando o CorrelationId campo.

Para fins de auditoria, use uma consulta Kusto semelhante à consulta a seguir para unir cada solicitação e resposta em um único registro. Ajuste a consulta para incluir os campos que pretende controlar.

ApiManagementGatewayLlmLog
| extend RequestArray = parse_json(RequestMessages)
| extend ResponseArray = parse_json(ResponseMessages)
| mv-expand RequestArray
| mv-expand ResponseArray
| project
    CorrelationId,
    RequestContent = tostring(RequestArray.content),
    ResponseContent = tostring(ResponseArray.content)
| summarize
    Input = strcat_array(make_list(RequestContent), " . "),
    Output = strcat_array(make_list(ResponseContent), " . ")
    by CorrelationId
| where isnotempty(Input) and isnotempty(Output)

Captura de ecrã dos resultados da consulta para registos de modelos de linguagem no portal.

Carregar dados para o Microsoft Foundry para avaliação de modelos

Pode exportar dados de registo de modelos de linguagem como um conjunto de dados para avaliação modelo no Microsoft Foundry. Com a avaliação de modelos, você pode avaliar o desempenho de seus modelos e aplicativos de IA generativa em relação a um modelo de teste ou conjunto de dados usando métricas de avaliação internas ou personalizadas.

Para usar registos de modelos de linguagem como conjunto de dados para avaliação de modelos:

  1. Junta as mensagens de pedido e resposta do modelo de linguagem num único registo para cada interação, como mostrado na secção anterior. Inclua os campos que você deseja usar para a avaliação do modelo.
  2. Exporte o conjunto de dados para formato CSV, que é compatível com o Microsoft Foundry.
  3. No portal Microsoft Foundry, crie uma nova avaliação para carregar e avaliar o conjunto de dados.

Para detalhes sobre como criar e executar uma avaliação de modelo no Microsoft Foundry, consulte Execute avaliações do portal Microsoft Foundry.