Modelo personalizado do Document Intelligence

Este conteúdo se aplica a:v4.0 (GA) | Versões anteriores:v3.1 (GA)v3.0 (desativação)v2.1 (desativação)

Este conteúdo se aplica a:v3.1 (GA) | Versão mais recente:v4.0 (GA) | Versões anteriores:v3.0v2.1

Este conteúdo se aplica a:v3.0 (desativação) | Versões mais recentes:v4.0 (GA)v3.1 | Versão anterior:v2.1 (desativação)

Esse conteúdo se aplica a:v2.1 | Versão mais recente:v4.0 (GA)

O modelo personalizado (antigo formulário personalizado) é um modelo de documento fácil de treinar que extrai com precisão pares chave-valor rotulados, marcas de seleção, tabelas, regiões e assinaturas de documentos. Os modelos de modelo usam indicações de layout para extrair valores de documentos e são adequados para extrair campos de documentos altamente estruturados com modelos visuais definidos.

Modelos de template personalizados compartilham o mesmo formato de etiquetagem e estratégia que modelos neurais personalizados, com suporte para mais tipos de campos e idiomas.

Funcionalidades do modelo

Modelos de modelo personalizados dão suporte a pares chave-valor, marcas de seleção, tabelas, campos de assinatura e regiões selecionadas.

Campos de formulário	Marcas de seleção	Campos tabulares (tabelas)	Assinatura	Regiões selecionadas	Campos sobrepostos
Suportado	Suportado	Suportado	Suportado	Suportado	Sem suporte

Campos tabulares

Com o lançamento das versões da API v3.0 e posteriores, os modelos personalizados adicionam suporte para campos tabulares entre páginas distintas (tabelas):

Para rotular uma tabela que abrange várias páginas, rotule cada linha da tabela entre as diferentes páginas em uma única tabela.
Como prática recomendada, verifique se o conjunto de dados contém alguns exemplos das variações esperadas. Por exemplo, inclua exemplos em que a tabela inteira está em uma única página e onde as tabelas abrangem duas ou mais páginas se você espera ver essas variações em documentos.

Campos tabulares também são úteis ao extrair informações recorrentes em um documento que não é reconhecido como uma tabela. Por exemplo, uma seção recorrente de experiências de trabalho em um currículo pode ser rotulada e extraída como um campo tabular.

Lidando com variações

Modelos de template se baseiam em um template visual definido; as alterações no template resultam em menor precisão. Nesses casos, divida seu conjunto de dados de treinamento para incluir pelo menos cinco amostras de cada modelo e treinar um modelo para cada uma das variações. Em seguida, você pode compor os modelos em um único ponto de extremidade. Para variações sutis, como documentos e imagens em PDF digitais, é melhor incluir pelo menos cinco exemplos de cada tipo no mesmo conjunto de dados de treinamento.

Requisitos de entrada

Para obter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade para cada documento.

Formatos de arquivo com suporte:

Modelo	PDF	Imagem: J`PEG/JPG`, `PNG`, `BMP`, `TIFF`, `HEIF`	Microsoft Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX) e HTML
Ler	✔	✔	✔
Layout	✔	✔	✔
Documento Geral	✔	✔
Pré-construídos	✔	✔
Personalizado	✔	✔

✱ atualmente, não há suporte para arquivos Microsoft Office para outros modelos ou versões.

Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de camada gratuita, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para analisar documentos é de 500 MB para a camada S0 paga e 4 MB gratuitamente (F0).
As dimensões de imagem devem ter entre 50 x 50 pixels e 10.000 px x 10.000 pixels.
Se seus PDFs estiverem bloqueados por senha, você deverá remover o bloqueio antes do envio.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Essa dimensão corresponde a um texto de cerca de 8 pontos a 150 pontos por polegada (DPI).
Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para treinamento personalizado de modelo de extração, o tamanho total dos dados de treinamento é de 50 MB para o modelo de template e 1 GB para o modelo neural.
Para treinamento de modelo de classificação personalizada, o tamanho total dos dados de treinamento é 1GB de no máximo 10.000 páginas.

Treinamento de um modelo

Modelos personalizados geralmente estão disponíveis a partir da API v2.0 e em versões posteriores. Se você estiver começando com um novo projeto ou tiver um conjunto de dados rotulado existente, use a API v3.1 ou v3.0 com o Document Intelligence Studio para treinar um modelo personalizado.

Modelo	API REST	SDK	Modelos de rótulo e teste
Modelo personalizado	API v3.1	Document Intelligence SDK	Document Intelligence Studio

Com as APIs v3.0 e posteriores, a operação de compilação para treinar modelo dá suporte a uma nova propriedade buildMode. Para treinar um modelo personalizado, defina buildModetemplate.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-11-30


{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Os modelos personalizados geralmente estão disponíveis com a API v3.1. Se você estiver começando com um novo projeto ou tiver um conjunto de dados rotulado existente, use a API v3.1 ou v3.0 com o Document Intelligence Studio para treinar um modelo personalizado.

Modelo	API REST	SDK	Modelos de rótulo e teste
Modelo personalizado	API v3.1	Document Intelligence SDK	Document Intelligence Studio

Com as APIs v3.0 e posteriores, a operação de build para treinar o modelo dá suporte a uma nova buildMode propriedade. Para treinar um modelo personalizado, defina o buildMode para template.

https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Idiomas e localidades com suporte

Consulte nossa página Suporte ao Idioma — modelos personalizados para obter uma lista completa de idiomas com suporte.

Modelos de template personalizados geralmente estão disponíveis com a API v2.1.

Modelo	API REST	SDK	Modelos de rótulo e teste
Modelo personalizado	Document Intelligence 2.1	Document Intelligence SDK	Ferramenta de exemplo de rotulagem do Document Intelligence

Próximas etapas

Saiba como criar e redigir modelos personalizados:

Criar um modelo personalizadoCompor modelos personalizados

Comentários

Esta página foi útil?

Last updated on 2026-05-08