Modelo de template personalizado de Inteligência de Documentos

Este conteúdo aplica-se a:checkmarkv4.0 (GA) | Versões anteriores:blue-checkmarkv3.1 (GA)red-checkmarkv3.0 (em retirada)red-checkmarkv2.1 (em retirada)

Este conteúdo aplica-se a:marca de verificaçãov3.1 (GA) | Última versão:marca de verificação roxav4.0 (GA) | Versões anteriores:marca de verificação azulv3.0marca de verificação azulv2.1

Este conteúdo aplica-se a:red-checkmarkv3.0 (em descontinuação) | Últimas versões:purple-checkmarkv4.0 (GA)purple-checkmarkv3.1 | Versão anterior:blue-checkmarkv2.1 (em descontinuação)

Este conteúdo aplica-se a:red-checkmarkv2.1 | Última versão:blue-checkmarkv4.0 (GA)

O modelo personalizado (anteriormente denominado custom form) é um modelo de documento fácil de treinar que extrai com precisão pares chave-valor com etiquetas, marcas de seleção, tabelas, regiões e assinaturas nos documentos. Os modelos template utilizam pistas de layout para extrair valores de documentos e são adequados para extrair campos de documentos altamente estruturados com templates visuais definidos.

Modelos de templates personalizados partilham o mesmo formato de rotulagem e estratégia que os modelos neurais personalizados, com suporte para mais tipos de campos e linguagens.

Capacidades do modelo

Modelos personalizados suportam pares chave-valor, marca de seleção, tabelas, campos de assinatura e regiões selecionadas.

Campos do formulário Marcas de seleção Campos tabulares (Tabelas) Assinatura Regiões selecionadas Campos sobrepostos
Apoiado Apoiado Apoiado Apoiado Apoiado Não suportado

Campos tabulares

Com o lançamento das versões da API v3.0 e subsequentes, os modelos de modelo personalizados adicionam suporte para campos tabulares entre páginas (tabelas):

  • Para rotular uma tabela que abrange várias páginas, rotule cada linha da tabela nas diferentes páginas de uma única tabela.
  • Como boa prática, certifique-se de que o seu conjunto de dados contém algumas amostras das variações esperadas. Por exemplo, inclua exemplos onde toda a tabela está numa única página e onde as tabelas ocupam duas ou mais páginas se esperar ver essas variações nos documentos.

Os campos tabulares também são úteis ao extrair informação repetida dentro de um documento que não é reconhecida como tabela. Por exemplo, uma secção repetida de experiências de trabalho num currículo pode ser rotulada e extraída como um campo tabular.

Lidar com variações

Os modelos template dependem de um template visual definido, as alterações ao template resultam numa menor precisão. Nesses casos, divida o seu conjunto de dados de treino para incluir pelo menos cinco amostras de cada modelo e treine um modelo para cada uma das variações. Pode então compor os modelos num único ponto final. Para variações subtis, como documentos e imagens digitais em PDF, é melhor incluir pelo menos cinco exemplos de cada tipo no mesmo conjunto de dados de treino.

Requisitos de entrada

  • Para melhores resultados, forneça uma fotografia clara ou uma digitalização de alta qualidade por documento.

  • Formatos de ficheiro suportados:

    Modelo PDF Imagem:
    JPEG/JPG, PNG, BMP, TIFF, , HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) e HTML
    Leia
    Disposição
    Documento Geral
    Pré-fabricado
    Personalizado

    ✱ Os ficheiros do Microsoft Office atualmente não são suportados para outros modelos ou versões.

  • Para PDF e TIFF, podem ser processadas até 2.000 páginas (com uma subscrição gratuita, apenas as duas primeiras páginas são processadas).

  • O tamanho do ficheiro para análise de documentos é de 500 MB para o nível pago (S0) e 4 MB para o nível gratuito (F0).

  • As dimensões da imagem devem estar entre 50 x 50 píxeis e 10.000 px x 10.000 píxeis.

  • Se os seus PDFs estiverem bloqueados por palavra-passe, deve remover o bloqueio antes de submeter.

  • A altura mínima do texto a extrair é de 12 píxeis para uma imagem de 1024 x 768 píxeis. Esta dimensão corresponde a cerca 8de um ponto de texto a 150 pontos por polegada (DPI).

  • Para a formação de modelos personalizados, o número máximo de páginas para dados de treino é 500 para o modelo personalizado e 50.000 para o modelo neural personalizado.

  • Para treino personalizado de modelos de extração, o tamanho total dos dados de treino é de 50 MB para o modelo modelo e 1G-MB para o modelo neural.

  • Para o treinamento de modelos de classificação personalizados, o tamanho total dos dados de treino é 1GB de um máximo de 10.000 páginas.

Treinar um modelo

Modelos de templates personalizados estão geralmente disponíveis a partir da API v2.0 e versões posteriores. Se estiver a começar com um novo projeto ou tiver um conjunto de dados já rotulado, use a API v3.1 ou v3.0 com o Document Intelligence Studio para treinar um modelo personalizado.

Modelo API REST SDK Modelos de Etiqueta e Teste
Modelo personalizado v3.1 API SDK de Inteligência Documental Estúdio de Inteligência Documental

Com as APIs v3.0 e posteriores, a operação de build para treinar o modelo suporta uma nova propriedade buildMode: para treinar um modelo personalizado, defina buildMode para template.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-11-30


{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Modelos de templates personalizados estão geralmente disponíveis com a API v3.1. Se estiver a começar com um novo projeto ou tiver um conjunto de dados já rotulado, use a API v3.1 ou v3.0 com o Document Intelligence Studio para treinar um modelo personalizado.

Modelo API REST SDK Modelos de Etiqueta e Teste
Modelo personalizado v3.1 API SDK de Inteligência Documental Estúdio de Inteligência Documental

Com as APIs v3.0 e posteriores, a operação de build para treinar o modelo suporta uma nova buildMode propriedade: para treinar um modelo personalizado, defina o buildMode para template.

https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "template",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Línguas e locais suportados

Consulte a nossa página de Suporte a Linguagens — modelos personalizados para uma lista completa das línguas suportadas.

Modelos personalizados estão geralmente disponíveis com a API v2.1.

Modelo API REST SDK Modelos de Etiqueta e Teste
Modelo personalizado (template) Inteligência Documental 2.1 SDK de Inteligência Documental Ferramenta de rotulagem de amostras de Inteligência de Documentos

Próximos passos

Aprenda a criar e compor modelos personalizados: