Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este conteúdo se aplica a:
v4.0 (GA) | Versões anteriores:
v3.1 (GA)
v3.0 (desativação)
v2.1 (desativação)
Este conteúdo se aplica a:
v3.0 (desativação) | Versões mais recentes:
v4.0 (GA)
v3.1 | Versão anterior:
v2.1 (desativação)
Esse conteúdo se aplica a:
v2.1 | Versão mais recente:
v4.0 (GA)
O modelo personalizado (antigo formulário personalizado) é um modelo de documento fácil de treinar que extrai com precisão pares chave-valor rotulados, marcas de seleção, tabelas, regiões e assinaturas de documentos. Os modelos de modelo usam indicações de layout para extrair valores de documentos e são adequados para extrair campos de documentos altamente estruturados com modelos visuais definidos.
Modelos de template personalizados compartilham o mesmo formato de etiquetagem e estratégia que modelos neurais personalizados, com suporte para mais tipos de campos e idiomas.
Funcionalidades do modelo
Modelos de modelo personalizados dão suporte a pares chave-valor, marcas de seleção, tabelas, campos de assinatura e regiões selecionadas.
| Campos de formulário | Marcas de seleção | Campos tabulares (tabelas) | Assinatura | Regiões selecionadas | Campos sobrepostos |
|---|---|---|---|---|---|
| Suportado | Suportado | Suportado | Suportado | Suportado | Sem suporte |
Campos tabulares
Com o lançamento das versões da API v3.0 e posteriores, os modelos personalizados adicionam suporte para campos tabulares entre páginas distintas (tabelas):
- Para rotular uma tabela que abrange várias páginas, rotule cada linha da tabela entre as diferentes páginas em uma única tabela.
- Como prática recomendada, verifique se o conjunto de dados contém alguns exemplos das variações esperadas. Por exemplo, inclua exemplos em que a tabela inteira está em uma única página e onde as tabelas abrangem duas ou mais páginas se você espera ver essas variações em documentos.
Campos tabulares também são úteis ao extrair informações recorrentes em um documento que não é reconhecido como uma tabela. Por exemplo, uma seção recorrente de experiências de trabalho em um currículo pode ser rotulada e extraída como um campo tabular.
Lidando com variações
Modelos de template se baseiam em um template visual definido; as alterações no template resultam em menor precisão. Nesses casos, divida seu conjunto de dados de treinamento para incluir pelo menos cinco amostras de cada modelo e treinar um modelo para cada uma das variações. Em seguida, você pode compor os modelos em um único ponto de extremidade. Para variações sutis, como documentos e imagens em PDF digitais, é melhor incluir pelo menos cinco exemplos de cada tipo no mesmo conjunto de dados de treinamento.
Requisitos de entrada
Para obter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade para cada documento.
Formatos de arquivo com suporte:
Modelo PDF Imagem:
JPEG/JPG,PNG,BMP,TIFF,HEIFMicrosoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX) e HTMLLer ✔ ✔ ✔ Layout ✔ ✔ ✔ Documento Geral ✔ ✔ Pré-construídos ✔ ✔ Personalizado ✔ ✔ ✱ atualmente, não há suporte para arquivos Microsoft Office para outros modelos ou versões.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de camada gratuita, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para analisar documentos é de 500 MB para a camada S0 paga e 4 MB gratuitamente (F0).
As dimensões de imagem devem ter entre 50 x 50 pixels e 10.000 px x 10.000 pixels.
Se seus PDFs estiverem bloqueados por senha, você deverá remover o bloqueio antes do envio.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Essa dimensão corresponde a um texto de cerca de
8pontos a 150 pontos por polegada (DPI).Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Para treinamento personalizado de modelo de extração, o tamanho total dos dados de treinamento é de 50 MB para o modelo de template e 1 GB para o modelo neural.
Para treinamento de modelo de classificação personalizada, o tamanho total dos dados de treinamento é
1GBde no máximo 10.000 páginas.
Treinamento de um modelo
Modelos personalizados geralmente estão disponíveis a partir da API v2.0 e em versões posteriores. Se você estiver começando com um novo projeto ou tiver um conjunto de dados rotulado existente, use a API v3.1 ou v3.0 com o Document Intelligence Studio para treinar um modelo personalizado.
| Modelo | API REST | SDK | Modelos de rótulo e teste |
|---|---|---|---|
| Modelo personalizado | API v3.1 | Document Intelligence SDK | Document Intelligence Studio |
Com as APIs v3.0 e posteriores, a operação de compilação para treinar modelo dá suporte a uma nova propriedade buildMode. Para treinar um modelo personalizado, defina buildModetemplate.
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-11-30
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Os modelos personalizados geralmente estão disponíveis com a API v3.1. Se você estiver começando com um novo projeto ou tiver um conjunto de dados rotulado existente, use a API v3.1 ou v3.0 com o Document Intelligence Studio para treinar um modelo personalizado.
| Modelo | API REST | SDK | Modelos de rótulo e teste |
|---|---|---|---|
| Modelo personalizado | API v3.1 | Document Intelligence SDK | Document Intelligence Studio |
Com as APIs v3.0 e posteriores, a operação de build para treinar o modelo dá suporte a uma nova buildMode propriedade. Para treinar um modelo personalizado, defina o buildMode para template.
https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Idiomas e localidades com suporte
Consulte nossa página Suporte ao Idioma — modelos personalizados para obter uma lista completa de idiomas com suporte.
Modelos de template personalizados geralmente estão disponíveis com a API v2.1.
| Modelo | API REST | SDK | Modelos de rótulo e teste |
|---|---|---|---|
| Modelo personalizado | Document Intelligence 2.1 | Document Intelligence SDK | Ferramenta de exemplo de rotulagem do Document Intelligence |
Próximas etapas
Saiba como criar e redigir modelos personalizados: