Modelos de processamento de documentos

Este conteúdo aplica-se a:checkmarkv4.0 (GA) | Versões anteriores:blue-checkmarkv3.1 (GA)red-checkmarkv3.0 (em retirada)red-checkmarkv2.1 (em retirada)

Este conteúdo aplica-se a:marca de verificaçãov3.1 (GA) | Última versão:marca de verificação roxav4.0 (GA) | Versões anteriores:marca de verificação azulv3.0marca de verificação azulv2.1

Este conteúdo aplica-se a:red-checkmarkv3.0 (em descontinuação) | Últimas versões:purple-checkmarkv4.0 (GA)purple-checkmarkv3.1 | Versão anterior:blue-checkmarkv2.1 (em descontinuação)

Este conteúdo aplica-se a:red-checkmarkv2.1 | Última versão:blue-checkmarkv4.0 (GA)

O Azure Document Intelligence no Foundry Tools suporta vários modelos que pode usar para adicionar processamento inteligente de documentos às suas aplicações e fluxos. Pode usar um modelo pré-construído específico de domínio ou treinar um modelo personalizado adaptado às suas necessidades e casos de uso específicos. Pode usar Document Intelligence com a API REST ou bibliotecas clientes de Python, C#, Java e JavaScript.

Nota

Projetos de processamento documental que envolvem dados financeiros, dados de saúde protegidos, dados pessoais ou dados altamente sensíveis exigem atenção cuidadosa. Certifique-se de cumprir todos os requisitos nacionais/regionais e específicos da indústria.

Visão geral do modelo

A tabela seguinte mostra os modelos geralmente disponíveis (GA) para cada API estável.

Tipo de modelo Modelo 2024-11-30 (GA) 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Modelos de análise documental Leia ✔️ ✔️ ✔️ Não disponível
Modelos de análise documental Layout ✔️ ✔️ ✔️ ✔️
Modelos de análise documental Documento geral** Compatível com
Modelo de esquema
✔️ ✔️ Não disponível
Modelos pré-construídos Cheque bancário ✔️ Não disponível Não disponível Não disponível
Modelos pré-construídos Extrato bancário ✔️ Não disponível Não disponível Não disponível
Modelos pré-construídos Recibo de vencimento ✔️ Não disponível Não disponível Não disponível
Modelos pré-construídos Contrato ✔️ ✔️ Não disponível Não disponível
Modelos pré-construídos Cartão de seguro de saúde ✔️ ✔️ ✔️ Não disponível
Modelos pré-construídos Documento de identificação ✔️ ✔️ ✔️ ✔️
Modelos pré-construídos Fatura ✔️ ✔️ ✔️ ✔️
Modelos pré-construídos Receção ✔️ ✔️ ✔️ ✔️
Modelos pré-construídos Imposto unificado dos EUA* ✔️ Não disponível Não disponível Não disponível
Modelos pré-construídos Imposto US 1040* ✔️ ✔️ Não disponível Não disponível
Modelos pré-construídos Imposto US 1095* ✔️ Não disponível Não disponível Não disponível
Modelos pré-construídos Imposto US 1098* ✔️ Não disponível Não disponível Não disponível
Modelos pré-construídos Imposto US 1099* ✔️ Não disponível Não disponível Não disponível
Modelos pré-construídos Imposto W2 dos EUA ✔️ ✔️ ✔️ Não disponível
Modelos pré-construídos Imposto W4 dos EUA ✔️ Não disponível Não disponível Não disponível
Modelos pré-construídos Hipoteca dos EUA 1003 URLA ✔️ Não disponível Não disponível Não disponível
Modelos pré-construídos Hipoteca dos EUA 1004 URAR ✔️ Não disponível Não disponível Não disponível
Modelos pré-construídos Hipoteca dos EUA 1005 ✔️ Não disponível Não disponível Não disponível
Modelos pré-construídos Resumo do US Mortgage 1008 ✔️ Não disponível Não disponível Não disponível
Modelos pré-construídos Divulgação do fecho da hipoteca nos EUA ✔️ Não disponível Não disponível Não disponível
Modelos pré-construídos Certidão de casamento ✔️ Não disponível Não disponível Não disponível
Modelos pré-construídos Cartão de crédito ✔️ Não disponível Não disponível Não disponível
Modelos pré-construídos Cartão de visita preterido ✔️ ✔️ ✔️
Modelo de classificação personalizada Classificador personalizado ✔️ ✔️ Não disponível Não disponível
Modelo de extração personalizado Neural personalizado ✔️ ✔️ ✔️ Não disponível
Modelo de extração personalizado Modelo personalizado ✔️ ✔️ ✔️ ✔️
Modelo de extração personalizado Composição personalizada ✔️ ✔️ ✔️ ✔️
Todos os modelos Capacidades adicionais ✔️ ✔️ Não disponível Não disponível

* Contém submodelos. Consulte a informação específica do modelo para variações e subtipos suportados.
** Todas as funcionalidades para o modelo geral do documento estão disponíveis no modelo de layout. O modelo geral já não é suportado.

Latência

Latência é o tempo que um servidor API demora a tratar e processar um pedido recebido e a entregar a resposta ao cliente. O tempo para analisar um documento depende do tamanho (por exemplo, número de páginas) e do conteúdo associado em cada página. A Inteligência de Documentos é um serviço assíncrono multiinquilino onde a latência para documentos semelhantes é comparável, mas nem sempre idêntica. Variabilidade ocasional na latência e desempenho é inerente a qualquer serviço sem estado baseado em microserviços que processe imagens e documentos grandes em grande escala. Embora estejamos continuamente a aumentar o hardware, a capacidade e as capacidades de escalabilidade, pode ainda ter problemas de latência em tempo de execução.

Capacidade adicional

As seguintes funcionalidades adicionais estão disponíveis para a Inteligência de Documentos. Para todos os modelos, exceto o modelo de cartão de visita, a Inteligência de Documentos agora suporta capacidades adicionais para permitir análises mais sofisticadas. Pode ativar e desativar estas capacidades opcionais dependendo do cenário da extração do documento. As seguintes funcionalidades adicionais estão disponíveis para a versão API de 2023-07-31 (GA) e posterior:

Capacidade adicional Extensão/Gratuito 30-11-2024 (GA) 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Extração de propriedades da fonte Complemento ✔️ ✔️ Não disponível Não disponível
Extração por fórmula Complemento ✔️ ✔️ Não disponível Não disponível
Extração de alta resolução Complemento ✔️ ✔️ Não disponível Não disponível
Extração por código de barras Gratuito ✔️ ✔️ Não disponível Não disponível
Deteção de linguagem Gratuito ✔️ ✔️ Não disponível Não disponível
Pares chave/valor Gratuito ✔️ Não disponível Não disponível Não disponível
Campos de consulta Adicional* ✔️ Não disponível Não disponível Não disponível
PDF pesquisável Adicional* ✔️ Não disponível Não disponível Não disponível

Características de análise de modelos

ID do modelo Extração de conteúdo Campos de consulta Parágrafos Funções dos parágrafos Marcas de seleção Tabelas Pares chave/valor Línguas Códigos de barras Análise documental Fórmulas* Fonte de estilo* Alta resolução* PDF pesquisável
prebuilt-read O O O O O O
prebuilt-layout O O O O O O
prebuilt-contract O O O O
prebuilt-healthInsuranceCard.us O O O O O
prebuilt-idDocument O O O O O
prebuilt-invoice O O O O O O
prebuilt-receipt O O O O O
prebuilt-marriageCertificate.us O O O O O
prebuilt-creditCard O O O O O
prebuilt-check.us O O O O O
prebuilt-payStub.us O O O O O
prebuilt-bankStatement O O O O O
prebuilt-mortgage.us.1003 O O O O O
prebuilt-mortgage.us.1004 O O O O O
prebuilt-mortgage.us.1005 O O O O O
prebuilt-mortgage.us.1008 O O O O O
prebuilt-mortgage.us.closingDisclosure O O O O O
prebuilt-tax.us O O O O O
prebuilt-tax.us.w2 O O O O O
prebuilt-tax.us.w4 O O O O O
prebuilt-tax.us.1040 (vários) O O O O O
prebuilt-tax.us.1095A O O O O O
prebuilt-tax.us.1095C O O O O O
prebuilt-tax.us.1098 O O O O O
prebuilt-tax.us.1098E O O O O O
prebuilt-tax.us.1098T O O O O O
prebuilt-tax.us.1099 (vários) O O O O O
prebuilt-tax.us.1099SSA O O O O O
{ customModelName } O O O O O

✓ - Ativado
O - Opcional
* - As funcionalidades premium acarretam custos adicionais

Os campos de consulta têm preços diferentes das outras funcionalidades adicionais. Para mais informações, consulte Preços.

Coordenadas de caixa delimitadora e polígonos

Uma caixa delimitadora (polygon na v3.0 e versões posteriores) é um retângulo abstrato que envolve elementos de texto num documento. Uma caixa delimitadora é usada como ponto de referência para a deteção de objetos:

  • A caixa delimitadora especifica a posição ao usar um plano de coordenadas x e y, apresentado em um array de quatro pares numéricos. Cada par representa um canto da caixa na seguinte ordem: superior esquerdo, superior direito, inferior direito, inferior esquerdo.
  • As coordenadas da imagem são apresentadas em pixels. Para um PDF, as coordenadas são apresentadas em polegadas.

Suporte linguístico

Os modelos universais em Inteligência de Documentos baseados em aprendizagem profunda suportam muitas línguas. Os modelos podem extrair texto multilíngue das suas imagens e documentos, incluindo linhas de texto com línguas mistas. O suporte à linguagem varia consoante a funcionalidade do serviço de Inteligência Documental. Para uma lista completa, consulte os seguintes artigos:

Disponibilidade regional

A Inteligência de Documentos é geralmente disponibilizada em muitas das mais de 60 regiões globais de infraestrutura do Azure.

Para ajudar a escolher a região que é melhor para si e para os seus clientes, consulte Azure geografias.

Detalhes do modelo

Esta secção descreve o resultado que pode esperar de cada modelo. Pode estender a saída da maioria dos modelos com funcionalidades adicionais.

Leia texto através de OCR

A Read API utiliza reconhecimento ótico de caracteres (OCR) para analisar e extrair linhas e palavras, as suas localizações, línguas detetadas e estilo de escrita, se detetado.

Este documento de exemplo foi processado utilizando o Document Intelligence Studio.

Captura de ecrã que mostra um documento de exemplo processado usando o Document Intelligence Studio Read.

Análise de layout

O modelo de análise de layout analisa e extrai texto, tabelas, marcas de seleção e outros elementos estruturais como títulos, cabeçalhos de secção, cabeçalhos de página e rodapés de página.

Este documento de exemplo foi processado utilizando o Document Intelligence Studio.

Captura de ecrã que mostra uma página de jornal de exemplo processada através do Document Intelligence Studio.

Cartão de seguro de saúde

O modelo de cartões de seguro de saúde combina poderosas capacidades de OCR com modelos de aprendizagem profunda para analisar e extrair informações-chave dos cartões de seguro de saúde dos EUA.

Este exemplo de cartão de seguro de saúde dos EUA foi processado através do Document Intelligence Studio.

Captura de ecrã que mostra um exemplo de análise de cartão de seguro de saúde dos EUA no Document Intelligence Studio.

Documentos fiscais dos EUA

Os modelos de documentos fiscais dos EUA analisam e extraem campos-chave e itens de linha de um grupo selecionado de documentos fiscais. A API suporta a análise de documentos fiscais dos EUA em inglês de vários formatos e qualidades, incluindo imagens captadas por telemóvel, documentos digitalizados e PDFs digitais. Os seguintes modelos são atualmente suportados:

Modelo Descrição ID do modelo
Declaração W-2 de imposto dos EUA Extrair os detalhes da compensação tributável. prebuilt-tax.us.w2
Formulário fiscal W-4 dos EUA Extrair os detalhes da compensação tributável. prebuilt-tax.us.w4
Imposto dos EUA Formulário 1040 Extrair detalhes sobre os juros da hipoteca. prebuilt-tax.us.1040 (variações)
Imposto dos EUA 1095 Extraia os detalhes do seguro de saúde. prebuilt-tax.us.1095 (variações)
Imposto dos EUA 1098 Extrair os detalhes dos juros da hipoteca. prebuilt-tax.us.1098 (variações)
Imposto dos EUA 1099 Extrair rendimentos recebidos de fontes que não sejam o empregador. prebuilt-tax.us.1099 (variações)

Este documento de exemplo W-2 foi processado utilizando o Document Intelligence Studio.

Captura de ecrã que mostra um documento W-2 de exemplo.

Documentos hipotecários nos EUA

Os modelos de documentos hipotecários dos EUA analisam e extraem campos-chave que incluem informações sobre mutuários, empréstimos e propriedades a partir de um grupo selecionado de documentos hipotecários. A API suporta a análise de documentos hipotecários dos EUA em língua inglesa de vários formatos e qualidades, incluindo imagens captadas por telemóvel, documentos digitalizados e PDFs digitais. Os seguintes modelos são atualmente suportados.

Modelo Descrição ID do modelo
Contrato de Licença 1003 End-User Extrair detalhes do empréstimo, do mutuário e da propriedade. prebuilt-mortgage.us.1003
Relatório Uniforme de Avaliação Residencial 1004 (URAR) Extrai o empréstimo, o mutuário, os detalhes da propriedade. prebuilt-mortgage.us.1004
1005 Verificação do emprego Extrair informações sobre o empréstimo, o mutuário e a propriedade. prebuilt-mortgage.us.1005
1008 Documento de resumo Extrair detalhes do mutuário, vendedor, propriedade, hipoteca e análise de crédito. prebuilt-mortgage.us.1008
Divulgação de Encerramento Extrair custos de encerramento, custos de transação e detalhes do empréstimo. prebuilt-mortgage.us.closingDisclosure

Este documento de Declaração de Fecho foi processado utilizando o Document Intelligence Studio.

Captura de ecrã que mostra um exemplo de declaração de encerramento.

Contrato

O modelo contratual analisa e extrai campos-chave e itens de linha dos acordos contratuais, incluindo partes, jurisdições, ID do contrato e título. Atualmente, o modelo suporta documentos contratuais em língua inglesa.

Este contrato de exemplo foi processado através do Document Intelligence Studio.

Captura de ecrã que mostra a extração do modelo contratual usando o Document Intelligence Studio.

Cheque bancário dos EUA

O modelo contratual analisa e extrai campos-chave dos cheques bancários dos EUA, incluindo detalhes de cheques, dados de contas, montantes e memorandos.

Esta amostra de cheque bancário foi processada através do Document Intelligence Studio.

Captura de ecrã que mostra a extração do modelo de cheques bancários usando o Document Intelligence Studio.

Extrato bancário dos EUA

O modelo de extrato bancário analisa e extrai campos-chave e itens de linha de extratos bancários dos EUA, como o número da conta, dados bancários, detalhes do extrato e detalhes das transações.

Este exemplo de extrato bancário foi processado utilizando o Document Intelligence Studio.

Captura de ecrã que mostra a extração do modelo de extrato bancário usando o Document Intelligence Studio.

Talão de vencimento

O modelo de folha de pagamento analisa e extrai campos e itens de linha chave de documentos e ficheiros com informações relacionadas com o processamento salarial.

Este exemplo de recibo de vencimento foi processado através do Document Intelligence Studio.

Captura de ecrã que mostra a extração do modelo de recibo de vencimento usando o Document Intelligence Studio.

Fatura

O modelo de fatura automatiza o processamento das faturas para extrair o nome do cliente, morada de faturação, data de vencimento, montante a pagar, itens de linha e outros dados-chave.

Esta fatura modelo foi processada através do Document Intelligence Studio.

Captura de ecrã que mostra uma fatura exemplar.

Recibo

Use o modelo de recibos para analisar recibos de venda para o nome do comerciante, datas, itens de linha, quantidades e totais a partir de recibos impressos e manuscritos. A versão v3.0 também suporta o processamento de recibos de hotel de página única.

Este exemplo de recibo foi processado através do Document Intelligence Studio.

Captura de ecrã que mostra um exemplo de recibo.

Documento de identidade

Use o modelo do documento de identidade (ID) para processar cartas de condução dos EUA (todos os 50 estados e Distrito de Columbia) e páginas biográficas de passaportes internacionais (excluindo vistos e outros documentos de viagem) para extrair campos chave.

Este exemplo de carta de condução dos EUA foi processado através do Document Intelligence Studio.

Captura de ecrã que mostra um exemplo de cartão de identificação.

Certidão de casamento

Utilize o modelo da certidão de casamento para processar certidões de casamento nos EUA e extrair os campos-chave, incluindo os indivíduos, data e localização.

Este exemplo de certidão de casamento dos EUA foi processado através do Document Intelligence Studio.

Captura de ecrã que mostra um exemplo de certidão de casamento.

Cartão de crédito

Use o modelo de cartão de crédito para processar cartões de crédito e débito para extrair campos-chave.

Este cartão de crédito de exemplo foi processado através do Document Intelligence Studio.

Captura de ecrã que mostra um exemplo de cartão de crédito.

Modelos personalizados

Os modelos personalizados são amplamente classificados em dois tipos. Modelos de classificação personalizados que suportam a classificação de um "tipo de documento" e modelos de extração personalizados que podem extrair um esquema definido de um tipo específico de documento.

Diagrama que mostra tipos de modelos personalizados e modos de construção de modelos associados.

Modelos de documentos personalizados analisam e extraem dados de formulários e documentos específicos do seu negócio. Eles reconhecem campos de formulário dentro do seu conteúdo distinto e extraem pares de chave/valor e dados de tabela. Basta um exemplo do tipo de formulário para começar.

A versão v3.0 e modelos personalizados posteriores suportam a deteção de assinaturas em modelos de template personalizados (formulários) e tabelas de página cruzada, tanto em modelos de template como em modelos neurais. A deteção de assinaturas procura a presença de uma assinatura, não a identidade da pessoa que assina o documento. Se o modelo devolver não assinado para deteção de assinatura, o modelo não encontrou assinatura no campo definido.

Este modelo personalizado de exemplo foi processado utilizando o Document Intelligence Studio.

Captura de ecrã que mostra a Inteligência de Documentos a analisar um formulário personalizado.

Extração personalizada

O modelo de extração personalizado existe em dois tipos: template personalizado e neural personalizado. Para criar um modelo de extração personalizado, rotule um conjunto de dados de documentos com os valores que pretende extrair e treine o modelo no conjunto de dados rotulado. Só precisa de cinco exemplos do mesmo formulário ou tipo de documento para começar.

Esta extração personalizada foi processada utilizando o Document Intelligence Studio.

Captura de ecrã que mostra análise personalizada do modelo de extração no Document Intelligence Studio.

Classificador personalizado

Com o modelo de classificação personalizado, pode identificar o tipo de documento antes de invocar o modelo de extração. O modelo de classificação está disponível a partir da API de 2023-07-31 (GA). Treinar um modelo de classificação personalizado requer pelo menos duas classes distintas e um mínimo de cinco amostras por classe.

Modelos compostos

Um modelo composto é criado ao reunir uma coleção de modelos personalizados e atribuí-los a um único modelo construído a partir de tipos de formulário. Podes atribuir múltiplos modelos personalizados a um modelo composto que são chamados com um único ID de modelo. Pode atribuir até 200 modelos personalizados treinados a um único modelo composto.

Este modelo composto de exemplo encontra-se no Document Intelligence Studio.

Captura de ecrã que mostra o painel de modelos personalizados do Document Intelligence Studio Compose.

Requisitos de entrada

São suportados os seguintes formatos de ficheiro.

Modelo PDF Imagem:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Leia
Disposição
Documento geral
Pré-fabricado
Extração personalizada
Classificação personalizada
  • Fotografias e digitalizações: Para melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
  • PDFs e TIFFs: Para PDFs e TIFFs, podem ser processadas até 2.000 páginas. (Com uma subscrição gratuita, apenas as duas primeiras páginas são processadas.)
  • Tamanho do ficheiro: O tamanho do ficheiro para análise de documentos é de 500 MB para o nível pago (S0) e 4 MB para o nível gratuito (F0).
  • Dimensões da imagem: As dimensões devem estar entre 50 pixels x 50 píxeis e 10.000 píxeis x 10.000 píxeis.
  • Bloqueios por palavra-passe: Se os seus PDFs estiverem bloqueados por palavra-passe, deve remover o bloqueio antes da submissão.
  • Altura do texto: A altura mínima do texto a extrair é de 12 píxeis para uma imagem de 1024 x 768 píxeis. Esta dimensão corresponde a cerca de texto de 8 pontos a 150 pontos por polegada.
  • Treino de modelos personalizados: O número máximo de páginas para dados de treino é 500 para o modelo modelo personalizado e 50.000 para o modelo neural personalizado.
  • Treino personalizado do modelo de extração: O tamanho total dos dados de treino é de 50 MB para o modelo modelo e 1 GB para o modelo neural.
  • Treino personalizado do modelo de classificação: O tamanho total dos dados de treino é de 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treino é de 2 GB com um máximo de 10.000 páginas.
  • Tipos de ficheiros Office (DOCX, XLSX, PPTX): O limite máximo de comprimento de string é de 8 milhões de caracteres.

Nota

A ferramenta de Etiquetagem de Exemplo não suporta o formato de ficheiro BMP. A limitação deriva da ferramenta e não do Serviço de Inteligência Documental.

Migração de versões

Aprenda a usar o Document Intelligence v3.0 nas suas aplicações seguindo os passos do guia de migração do Document Intelligence v3.1.

Modelo Descrição
Análise documental
Layout Extrair texto e informações de layout dos documentos.
Pré-fabricado
Fatura Extrair informações-chave de faturas em inglês e espanhol.
Receção Extrair informações-chave dos recibos em inglês.
Documento de identificação Extraia informações essenciais das cartas de condução dos EUA e passaportes internacionais.
Cartão de visita Extraia informações chave de cartões de visita em inglês.
Personalizado
Personalizado Extraia dados de formulários e documentos específicos do seu negócio. Modelos personalizados são treinados para os seus dados e casos de uso distintos.
Composição Compõe uma coleção de modelos personalizados e atribui-os a um único modelo construído a partir dos teus tipos de formulário.

Disposição

A API de Layout analisa e extrai texto, tabelas e cabeçalhos, marcas de seleção e informações estruturais dos documentos.

Este documento de exemplo foi processado utilizando a Sample Labeling tool.

Captura de ecrã que mostra a análise do layout usando a ferramenta de Etiquetagem de Exemplo.

Fatura

O modelo de fatura analisa e extrai informações-chave das faturas de venda. A API analisa faturas em vários formatos e extrai informações-chave como nome do cliente, morada de faturação, data de vencimento e montante devido.

Esta fatura de exemplo foi processada com a ferramenta de rotulagem de amostra.

Captura de ecrã que mostra uma análise de fatura de exemplo utilizando a ferramenta de Etiquetagem de Exemplos.

Recibo

O modelo de recibos analisa e extrai informações-chave de recibos de venda impressos e manuscritos.

Este recibo de amostra foi processado usando a ferramenta de Rotulagem de Amostras.

Captura de ecrã que mostra um exemplo de recibo.

Documento de identificação

O modelo de documentos ID analisa e extrai informações-chave dos seguintes documentos:

  • Cartas de condução dos EUA (todos os 50 estados e Distrito de Columbia)
  • Páginas biográficas de passaportes internacionais (excluindo vistos e outros documentos de viagem). A API analisa e extrai documentos de identidade.

Este exemplo de carta de condução dos Estados Unidos foi processado utilizando a ferramenta de etiquetagem de exemplo Sample Labeling tool.

Captura de ecrã que mostra um exemplo de cartão de identificação.

Cartão de visita

O modelo do cartão de visita analisa e extrai informações-chave das imagens dos cartões de visita.

Este cartão de visita de exemplo foi processado utilizando a ferramenta de rotulagem de amostras.

Captura de ecrã que mostra um exemplo de cartão de visita.

Personalizado

Modelos personalizados analisam e extraem dados de formulários e documentos específicos do seu negócio. A API é um programa de aprendizagem automática treinado para reconhecer campos de formulário dentro do seu conteúdo distinto e extrair pares chave/valor e dados de tabelas. Só precisas de cinco exemplos do mesmo tipo para começar. Pode treinar o seu modelo personalizado com ou sem conjuntos de dados rotulados.

Este modelo personalizado de exemplo foi processado utilizando a ferramenta de Etiquetagem de Exemplo.

Captura de ecrã que mostra a ferramenta Document Intelligence a analisar um painel de formulário personalizado.

Modelo personalizado composto

Um modelo composto é criado ao reunir uma coleção de modelos personalizados e atribuí-los a um único modelo construído a partir de tipos de formulário. Podes atribuir múltiplos modelos personalizados a um modelo composto que são chamados com um único ID de modelo. Pode atribuir até 100 modelos personalizados treinados a um único modelo composto.

Este painel de modelo composto foi processado usando a ferramenta de Etiquetagem de Exemplos.

Captura de ecrã que mostra o painel de modelos personalizados do Document Intelligence Studio Compose.

Extração de dados de modelos

Modelo Extração de texto Deteção de linguagem Marcas de seleção Tabelas Parágrafos Funções dos parágrafos Pares chave/valor Campos
Layout
Fatura
Receção
Documento de Identificação
Cartão de visita
Formulário Personalizado

Requisitos de entrada

São suportados os seguintes formatos de ficheiro.

Modelo PDF Imagem:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Leia
Disposição
Documento geral
Pré-fabricado
Extração personalizada
Classificação personalizada
  • Fotografias e digitalizações: Para melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
  • PDFs e TIFFs: Para PDFs e TIFFs, podem ser processadas até 2.000 páginas. (Com uma subscrição gratuita, apenas as duas primeiras páginas são processadas.)
  • Tamanho do ficheiro: O tamanho do ficheiro para análise de documentos é de 500 MB para o nível pago (S0) e 4 MB para o nível gratuito (F0).
  • Dimensões da imagem: As dimensões devem estar entre 50 pixels x 50 píxeis e 10.000 píxeis x 10.000 píxeis.
  • Bloqueios por palavra-passe: Se os seus PDFs estiverem bloqueados por palavra-passe, deve remover o bloqueio antes da submissão.
  • Altura do texto: A altura mínima do texto a extrair é de 12 píxeis para uma imagem de 1024 x 768 píxeis. Esta dimensão corresponde a cerca de texto de 8 pontos a 150 pontos por polegada.
  • Treino de modelos personalizados: O número máximo de páginas para dados de treino é 500 para o modelo modelo personalizado e 50.000 para o modelo neural personalizado.
  • Treino personalizado do modelo de extração: O tamanho total dos dados de treino é de 50 MB para o modelo modelo e 1 GB para o modelo neural.
  • Treino personalizado do modelo de classificação: O tamanho total dos dados de treino é de 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treino é de 2 GB com um máximo de 10.000 páginas.
  • Tipos de ficheiros Office (DOCX, XLSX, PPTX): O limite máximo de comprimento de string é de 8 milhões de caracteres.

Nota

A ferramenta de Etiquetagem de Exemplo não suporta o formato de ficheiro BMP. A limitação deriva da ferramenta e não da Inteligência de Documentos.

Migração de versões

Pode aprender a usar o Document Intelligence v3.0 nas suas aplicações seguindo os passos do guia de migração do Document Intelligence v3.1