Opções de implantação de modelo para analisadores do Content Understanding

Azure Content Understanding nas Ferramentas Foundry usa suas implantações de modelos do Foundry para todas as operações que exigem um modelo de IA generativo. Essa abordagem ajuda você a maximizar a capacidade provisionada e consolidar a capacidade em menos implantações, se necessário. Você também pode escolher o modelo que melhor se ajusta ao seu cenário de preço e latência.

Você é cobrado por todos os tokens (entrada e saída) processados pela implantação conectada, e o Content Understanding cobra apenas pelas métricas específicas desse serviço. Consulte o explicador de preços para saber mais sobre o modelo de cobrança.

O serviço requer um chat completion modelo e um embeddings modelo e dá suporte a algumas opções diferentes para cada um.

Modelos com suporte

O serviço é atualizado periodicamente para adicionar suporte para mais modelos. Os modelos com suporte no momento estão listados em limites de serviço – modelos generativos com suporte.

Como funciona a seleção de modelo

Ao criar um analisador personalizado, especifique qual modelo de conclusão de chat e o modelo de inserção ele usa. Essa associação é feita usando um alias de implantação em vez de diretamente com um nome de implantação específico.

{
  "analyzerId": "myReceipt",
  "models": {
    // Specifies the completion and embedding models used by this analyzer.
    "completion": "gpt-4.1",
    "embedding": "text-embedding-ada-002"
  },
  "config": {

  }
  // Complete analyzer definition
}

Dica

GPT-4.1 é um modelo recomendado para uso com o Foundry e o Studio. Você pode usar qualquer modelo de conclusão de chat com suporte que atenda às suas metas de qualidade, latência e custo. Os modelos de incorporação são usados quando você utiliza exemplos rotulados ou aprendizado em contexto para melhorar a qualidade do analisador.

Duas maneiras de realizar implantações de modelos

Como cliente, você tem duas opções:

  • Opção 1: Defina implantações de modelo padrão no nível do recurso.
  • Opção 2: Passe os ponteiros de implantação do modelo em cada solicitação de análise.

Se você definir configurações padrão de recurso, ainda poderá substituí-las em uma única solicitação, incluindo modelDeployments nessa solicitação.

Opção 1: Definir implantações padrão no nível do recurso

Depois de definir padrões, as solicitações de análise podem omitir modelDeployments. Escolha um dos seguintes métodos de instalação:

Use PATCH /contentunderstanding/defaults para definir padrões de implantação de modelo no nível do recurso.

PATCH /contentunderstanding/defaults
{
  // Specify default model deployments as "model name": "deployment name"
  "modelDeployments": {
    "gpt-4.1": "gpt-4.1-deployment",
    "gpt-4.1-mini": "gpt-4.1-mini",
    "text-embedding-3-large": "text-embedding-3-large-deployment",
    "text-embedding-ada-002": "text-embedding-ada-002"
  }
}

Exemplo de solicitação de análise que utiliza configurações padrão de recurso:

POST /myReceipt:analyze
{
  // No modelDeployments needed - uses resource defaults
}

Opção 2: Enviar implantações de modelo em cada requisição de análise

Use essa opção quando quiser que cada solicitação aponte explicitamente para implantações de modelo passando um modelDeployments objeto na solicitação de análise. Essa abordagem oferece flexibilidade máxima para usar implantações diferentes para solicitações diferentes e não requer padrões de recursos.

POST /contentunderstanding/analyzers/prebuilt-invoice:analyze
{
  "inputs": [
    {
      "url": "https://github.com/Azure-Samples/azure-ai-content-understanding-python/raw/refs/heads/main/data/invoice.pdf"
    }
  ],
  // Specify the model deployments for this request
  "modelDeployments": {
    "gpt-4.1": "gpt-4.1",
    "text-embedding-3-large": "text-embedding-3-large"
  }
}

Os modelDeployments valores nesta solicitação de análise substituem todos os padrões que você configurou no nível do recurso.

Dados de uso e cobrança

A análise das respostas inclui uma propriedade usage. Essa propriedade reporta os usos de tokens para sua implementação conectada e outros medidores de uso do Content Understanding. Você pode comparar esses valores com dados de uso de implantação para correlacionar o consumo do Content Understanding com a implantação do modelo.

{
  "usage": {
    "documentPagesMinimal": 3, 
    "documentPagesBasic": 2, 
    "documentPagesStandard": 1, 
    "audioHours": 0.234,
    "videoHours": 0.123,
    "contextualizationToken": 1000,
    "tokens": {
      "gpt-4.1-input": 1234, /*Completion model Input and output tokens consumed*/
      "gpt-4.1-output": 2345,
      "text-embedding-3-large": 3456 /*Embedding tokens consumed*/
    }
  }
}

Para obter detalhes sobre como a cobrança funciona para o Content Understanding, consulte o explicador de preços.

Filtragem de conteúdo e Guardrails

Cada implantação de modelo do Foundry possui uma instância associada de Guardrails, que avalia o conteúdo quanto à segurança. A Compreensão de Conteúdo apresenta a saída de Guardrails diretamente na resposta de análise como uma content_filters matriz. Se uma instância do Guardrails bloquear o conteúdo, a operação de análise retornará um erro; se ele anotar conteúdo, o resultado passará com metadados de filtro anexados.

Para ajustar os limites de filtro de conteúdo ou alternar do bloqueio para a anotação, atualize a configuração do Guardrails na implantação do modelo em seu projeto de Fábrica de IA do Azure. Para obter mais informações, consulte Filtragem de conteúdo e Guardrails e a referência do content_filters objeto de resposta.