Opções de implementação de modelos para analisadores de Compreensão de Conteúdo

O Azure Content Understanding no Foundry Tools utiliza as implementações do seu modelo Foundry para todas as operações que requerem um modelo de IA generativa. Esta abordagem ajuda-o a maximizar a capacidade provisionada e a consolidar a capacidade em menos implantações, se necessário. Também pode escolher o modelo que melhor se adequa ao seu cenário em termos de preço e latência.

És faturado por todos os tokens (entrada e saída) processados pela implementação ligada, e o Content Understanding só te fatura pelos contadores específicos do Content Understanding. Consulte a explicação de preços para saber mais sobre o modelo de faturação.

O serviço requer um chat completion modelo e um embeddings modelo e suporta várias opções diferentes para cada um.

Modelos suportados

O serviço é periodicamente atualizado para adicionar suporte a mais modelos. Os modelos atualmente suportados estão listados em Limites de Serviço - Modelos generativos suportados.

Como funciona a seleção de modelos

Quando crias um analisador personalizado, especificas que modelo de conclusão de chat e modelo de embedding ele utiliza. Esta associação é feita usando um alias de implementação em vez de diretamente com um nome específico de implementação.

{
  "analyzerId": "myReceipt",
  "models": {
    // Specifies the completion and embedding models used by this analyzer.
    "completion": "gpt-4.1",
    "embedding": "text-embedding-ada-002"
  },
  "config": {

  }
  // Complete analyzer definition
}

Dica

O GPT-4.1 é um modelo recomendado para uso com a Foundry e o Studio. Pode usar qualquer modelo de conclusão de chat suportado que se ajuste aos seus objetivos de qualidade, latência e custo. Os modelos de embedding são usados quando se utilizam amostras rotuladas ou aprendizagem em contexto para melhorar a qualidade do analisador.

Duas formas de fornecer implementações de modelos

Como cliente, tens duas opções:

  • Opção 1: Defina as implementações padrão do modelo ao nível do recurso.
  • Opção 2: Passe os ponteiros de implementação do modelo em cada pedido de análise.

Se definires os padrões de recursos, ainda podes sobrepor esses valores para um único pedido ao incluir modelDeployments no pedido.

Opção 1: Definir implementações padrão ao nível dos recursos

Depois de definir as configurações padrão, pode-se omitir modelDeployments nos pedidos de análise. Escolha um dos seguintes métodos de configuração:

Use PATCH /contentunderstanding/defaults para definir os padrões de implementação do modelo ao nível do recurso.

PATCH /contentunderstanding/defaults
{
  // Specify default model deployments as "model name": "deployment name"
  "modelDeployments": {
    "gpt-4.1": "gpt-4.1-deployment",
    "gpt-4.1-mini": "gpt-4.1-mini",
    "text-embedding-3-large": "text-embedding-3-large-deployment",
    "text-embedding-ada-002": "text-embedding-ada-002"
  }
}

Exemplo de pedido de análise que usa os padrões de recursos:

POST /myReceipt:analyze
{
  // No modelDeployments needed - uses resource defaults
}

Opção 2: Aprovar implementações de modelos em cada pedido de análise

Use esta opção quando quiser que cada pedido aponte explicitamente para implementações de modelos, passando um modelDeployments objeto no pedido de análise. Esta abordagem dá-te máxima flexibilidade para usar diferentes implementações para diferentes pedidos e não requer predefinições de recursos.

POST /contentunderstanding/analyzers/prebuilt-invoice:analyze
{
  "inputs": [
    {
      "url": "https://github.com/Azure-Samples/azure-ai-content-understanding-python/raw/refs/heads/main/data/invoice.pdf"
    }
  ],
  // Specify the model deployments for this request
  "modelDeployments": {
    "gpt-4.1": "gpt-4.1",
    "text-embedding-3-large": "text-embedding-3-large"
  }
}

Os modelDeployments valores neste pedido de análise sobrepõem-se a quaisquer valores definidos ao nível do recurso.

Dados de utilização e faturação

As respostas de análise incluem uma propriedade usage. Esta propriedade indica o uso de tokens na sua implementação conectada e outros medidores de utilização de Compreensão de Conteúdo. Pode comparar estes valores com dados de utilização de implementação para correlacionar o consumo do Content Understanding com a implementação do seu modelo.

{
  "usage": {
    "documentPagesMinimal": 3, 
    "documentPagesBasic": 2, 
    "documentPagesStandard": 1, 
    "audioHours": 0.234,
    "videoHours": 0.123,
    "contextualizationToken": 1000,
    "tokens": {
      "gpt-4.1-input": 1234, /*Completion model Input and output tokens consumed*/
      "gpt-4.1-output": 2345,
      "text-embedding-3-large": 3456 /*Embedding tokens consumed*/
    }
  }
}

Para detalhes sobre como funciona a faturação para Compreensão de Conteúdos, consulte a explicação de preços.

Filtragem de conteúdos e Guardrails

Cada implementação do modelo Foundry tem uma instância Guardrails associada que avalia o conteúdo quanto à segurança. A compreensão de conteúdo apresenta a saída dos Guardrails diretamente na resposta de análise como um content_filters array. Se uma instância Guardrails bloquear conteúdo, a operação de análise retorna um erro; caso anote conteúdo, o resultado passa com metadados de filtro anexados.

Para ajustar os limiares do filtro de conteúdo ou mudar de bloqueio para anotação, atualize a configuração do Guardrails na implementação do modelo no seu projeto Azure AI Foundry. Para mais informações, consulte Filtragem de Conteúdo e Guardrails e a content_filters referência do objeto de resposta.