Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Este conteúdo aplica-se a:
v4.0 (GA) | Versões anteriores:
v3.1 (GA)
v3.0 (em retirada)
v2.1 (em retirada)
Este conteúdo aplica-se a:
v3.0 (em descontinuação) | Últimas versões:
v4.0 (GA)
v3.1 | Versão anterior:
v2.1 (em descontinuação)
Este conteúdo aplica-se a:
v2.1 | Última versão:
v4.0 (GA)
O modelo personalizado (anteriormente denominado custom form) é um modelo de documento fácil de treinar que extrai com precisão pares chave-valor com etiquetas, marcas de seleção, tabelas, regiões e assinaturas nos documentos. Os modelos template utilizam pistas de layout para extrair valores de documentos e são adequados para extrair campos de documentos altamente estruturados com templates visuais definidos.
Modelos de templates personalizados partilham o mesmo formato de rotulagem e estratégia que os modelos neurais personalizados, com suporte para mais tipos de campos e linguagens.
Capacidades do modelo
Modelos personalizados suportam pares chave-valor, marca de seleção, tabelas, campos de assinatura e regiões selecionadas.
| Campos do formulário | Marcas de seleção | Campos tabulares (Tabelas) | Assinatura | Regiões selecionadas | Campos sobrepostos |
|---|---|---|---|---|---|
| Apoiado | Apoiado | Apoiado | Apoiado | Apoiado | Não suportado |
Campos tabulares
Com o lançamento das versões da API v3.0 e subsequentes, os modelos de modelo personalizados adicionam suporte para campos tabulares entre páginas (tabelas):
- Para rotular uma tabela que abrange várias páginas, rotule cada linha da tabela nas diferentes páginas de uma única tabela.
- Como boa prática, certifique-se de que o seu conjunto de dados contém algumas amostras das variações esperadas. Por exemplo, inclua exemplos onde toda a tabela está numa única página e onde as tabelas ocupam duas ou mais páginas se esperar ver essas variações nos documentos.
Os campos tabulares também são úteis ao extrair informação repetida dentro de um documento que não é reconhecida como tabela. Por exemplo, uma secção repetida de experiências de trabalho num currículo pode ser rotulada e extraída como um campo tabular.
Lidar com variações
Os modelos template dependem de um template visual definido, as alterações ao template resultam numa menor precisão. Nesses casos, divida o seu conjunto de dados de treino para incluir pelo menos cinco amostras de cada modelo e treine um modelo para cada uma das variações. Pode então compor os modelos num único ponto final. Para variações subtis, como documentos e imagens digitais em PDF, é melhor incluir pelo menos cinco exemplos de cada tipo no mesmo conjunto de dados de treino.
Requisitos de entrada
Para melhores resultados, forneça uma fotografia clara ou uma digitalização de alta qualidade por documento.
Formatos de ficheiro suportados:
Modelo PDF Imagem:
JPEG/JPG,PNG,BMP,TIFF, ,HEIFMicrosoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX) e HTMLLeia ✔ ✔ ✔ Disposição ✔ ✔ ✔ Documento Geral ✔ ✔ Pré-fabricado ✔ ✔ Personalizado ✔ ✔ ✱ Os ficheiros do Microsoft Office atualmente não são suportados para outros modelos ou versões.
Para PDF e TIFF, podem ser processadas até 2.000 páginas (com uma subscrição gratuita, apenas as duas primeiras páginas são processadas).
O tamanho do ficheiro para análise de documentos é de 500 MB para o nível pago (S0) e 4 MB para o nível gratuito (F0).
As dimensões da imagem devem estar entre 50 x 50 píxeis e 10.000 px x 10.000 píxeis.
Se os seus PDFs estiverem bloqueados por palavra-passe, deve remover o bloqueio antes de submeter.
A altura mínima do texto a extrair é de 12 píxeis para uma imagem de 1024 x 768 píxeis. Esta dimensão corresponde a cerca
8de um ponto de texto a 150 pontos por polegada (DPI).Para a formação de modelos personalizados, o número máximo de páginas para dados de treino é 500 para o modelo personalizado e 50.000 para o modelo neural personalizado.
Para treino personalizado de modelos de extração, o tamanho total dos dados de treino é de 50 MB para o modelo modelo e 1G-MB para o modelo neural.
Para o treinamento de modelos de classificação personalizados, o tamanho total dos dados de treino é
1GBde um máximo de 10.000 páginas.
Treinar um modelo
Modelos de templates personalizados estão geralmente disponíveis a partir da API v2.0 e versões posteriores. Se estiver a começar com um novo projeto ou tiver um conjunto de dados já rotulado, use a API v3.1 ou v3.0 com o Document Intelligence Studio para treinar um modelo personalizado.
| Modelo | API REST | SDK | Modelos de Etiqueta e Teste |
|---|---|---|---|
| Modelo personalizado | v3.1 API | SDK de Inteligência Documental | Estúdio de Inteligência Documental |
Com as APIs v3.0 e posteriores, a operação de build para treinar o modelo suporta uma nova propriedade buildMode: para treinar um modelo personalizado, defina buildMode para template.
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-11-30
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Modelos de templates personalizados estão geralmente disponíveis com a API v3.1. Se estiver a começar com um novo projeto ou tiver um conjunto de dados já rotulado, use a API v3.1 ou v3.0 com o Document Intelligence Studio para treinar um modelo personalizado.
| Modelo | API REST | SDK | Modelos de Etiqueta e Teste |
|---|---|---|---|
| Modelo personalizado | v3.1 API | SDK de Inteligência Documental | Estúdio de Inteligência Documental |
Com as APIs v3.0 e posteriores, a operação de build para treinar o modelo suporta uma nova buildMode propriedade: para treinar um modelo personalizado, defina o buildMode para template.
https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Línguas e locais suportados
Consulte a nossa página de Suporte a Linguagens — modelos personalizados para uma lista completa das línguas suportadas.
Modelos personalizados estão geralmente disponíveis com a API v2.1.
| Modelo | API REST | SDK | Modelos de Etiqueta e Teste |
|---|---|---|---|
| Modelo personalizado (template) | Inteligência Documental 2.1 | SDK de Inteligência Documental | Ferramenta de rotulagem de amostras de Inteligência de Documentos |
Próximos passos
Aprenda a criar e compor modelos personalizados: