Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Este conteúdo aplica-se a:
v4.0 (GA) | Versões anteriores:
v3.1 (GA)
v3.0 (em retirada)
v2.1 (em retirada)
Este conteúdo aplica-se a:
v3.0 (em descontinuação) | Últimas versões:
v4.0 (GA)
v3.1 | Versão anterior:
v2.1 (em descontinuação)
Este conteúdo aplica-se a:
v2.1 | Última versão:
v4.0 (GA)
O Azure Document Intelligence no Foundry Tools suporta vários modelos que pode usar para adicionar processamento inteligente de documentos às suas aplicações e fluxos. Pode usar um modelo pré-construído específico de domínio ou treinar um modelo personalizado adaptado às suas necessidades e casos de uso específicos. Pode usar Document Intelligence com a API REST ou bibliotecas clientes de Python, C#, Java e JavaScript.
Nota
Projetos de processamento documental que envolvem dados financeiros, dados de saúde protegidos, dados pessoais ou dados altamente sensíveis exigem atenção cuidadosa. Certifique-se de cumprir todos os requisitos nacionais/regionais e específicos da indústria.
Visão geral do modelo
A tabela seguinte mostra os modelos geralmente disponíveis (GA) para cada API estável.
| Tipo de modelo | Modelo | 2024-11-30 (GA) | 2023-07-31 (GA) | 2022-08-31 (GA) | v2.1 (GA) |
|---|---|---|---|---|---|
| Modelos de análise documental | Leia | ✔️ | ✔️ | ✔️ | Não disponível |
| Modelos de análise documental | Layout | ✔️ | ✔️ | ✔️ | ✔️ |
| Modelos de análise documental | Documento geral** | Compatível com Modelo de esquema |
✔️ | ✔️ | Não disponível |
| Modelos pré-construídos | Cheque bancário | ✔️ | Não disponível | Não disponível | Não disponível |
| Modelos pré-construídos | Extrato bancário | ✔️ | Não disponível | Não disponível | Não disponível |
| Modelos pré-construídos | Recibo de vencimento | ✔️ | Não disponível | Não disponível | Não disponível |
| Modelos pré-construídos | Contrato | ✔️ | ✔️ | Não disponível | Não disponível |
| Modelos pré-construídos | Cartão de seguro de saúde | ✔️ | ✔️ | ✔️ | Não disponível |
| Modelos pré-construídos | Documento de identificação | ✔️ | ✔️ | ✔️ | ✔️ |
| Modelos pré-construídos | Fatura | ✔️ | ✔️ | ✔️ | ✔️ |
| Modelos pré-construídos | Receção | ✔️ | ✔️ | ✔️ | ✔️ |
| Modelos pré-construídos | Imposto unificado dos EUA* | ✔️ | Não disponível | Não disponível | Não disponível |
| Modelos pré-construídos | Imposto US 1040* | ✔️ | ✔️ | Não disponível | Não disponível |
| Modelos pré-construídos | Imposto US 1095* | ✔️ | Não disponível | Não disponível | Não disponível |
| Modelos pré-construídos | Imposto US 1098* | ✔️ | Não disponível | Não disponível | Não disponível |
| Modelos pré-construídos | Imposto US 1099* | ✔️ | Não disponível | Não disponível | Não disponível |
| Modelos pré-construídos | Imposto W2 dos EUA | ✔️ | ✔️ | ✔️ | Não disponível |
| Modelos pré-construídos | Imposto W4 dos EUA | ✔️ | Não disponível | Não disponível | Não disponível |
| Modelos pré-construídos | Hipoteca dos EUA 1003 URLA | ✔️ | Não disponível | Não disponível | Não disponível |
| Modelos pré-construídos | Hipoteca dos EUA 1004 URAR | ✔️ | Não disponível | Não disponível | Não disponível |
| Modelos pré-construídos | Hipoteca dos EUA 1005 | ✔️ | Não disponível | Não disponível | Não disponível |
| Modelos pré-construídos | Resumo do US Mortgage 1008 | ✔️ | Não disponível | Não disponível | Não disponível |
| Modelos pré-construídos | Divulgação do fecho da hipoteca nos EUA | ✔️ | Não disponível | Não disponível | Não disponível |
| Modelos pré-construídos | Certidão de casamento | ✔️ | Não disponível | Não disponível | Não disponível |
| Modelos pré-construídos | Cartão de crédito | ✔️ | Não disponível | Não disponível | Não disponível |
| Modelos pré-construídos | Cartão de visita | preterido | ✔️ | ✔️ | ✔️ |
| Modelo de classificação personalizada | Classificador personalizado | ✔️ | ✔️ | Não disponível | Não disponível |
| Modelo de extração personalizado | Neural personalizado | ✔️ | ✔️ | ✔️ | Não disponível |
| Modelo de extração personalizado | Modelo personalizado | ✔️ | ✔️ | ✔️ | ✔️ |
| Modelo de extração personalizado | Composição personalizada | ✔️ | ✔️ | ✔️ | ✔️ |
| Todos os modelos | Capacidades adicionais | ✔️ | ✔️ | Não disponível | Não disponível |
* Contém submodelos. Consulte a informação específica do modelo para variações e subtipos suportados.
** Todas as funcionalidades para o modelo geral do documento estão disponíveis no modelo de layout. O modelo geral já não é suportado.
Latência
Latência é o tempo que um servidor API demora a tratar e processar um pedido recebido e a entregar a resposta ao cliente. O tempo para analisar um documento depende do tamanho (por exemplo, número de páginas) e do conteúdo associado em cada página. A Inteligência de Documentos é um serviço assíncrono multiinquilino onde a latência para documentos semelhantes é comparável, mas nem sempre idêntica. Variabilidade ocasional na latência e desempenho é inerente a qualquer serviço sem estado baseado em microserviços que processe imagens e documentos grandes em grande escala. Embora estejamos continuamente a aumentar o hardware, a capacidade e as capacidades de escalabilidade, pode ainda ter problemas de latência em tempo de execução.
Capacidade adicional
As seguintes funcionalidades adicionais estão disponíveis para a Inteligência de Documentos. Para todos os modelos, exceto o modelo de cartão de visita, a Inteligência de Documentos agora suporta capacidades adicionais para permitir análises mais sofisticadas. Pode ativar e desativar estas capacidades opcionais dependendo do cenário da extração do documento. As seguintes funcionalidades adicionais estão disponíveis para a versão API de 2023-07-31 (GA) e posterior:
ocrHighResolutionformulasstyleFontbarcodeslanguageskeyValuePairs-
queryFields(não disponível com os modelos fiscais dos EUA) -
searchablePDF(disponível apenas para o modelo de leitura)
| Capacidade adicional | Extensão/Gratuito | 30-11-2024 (GA) | 2023-07-31 (GA) | 2022-08-31 (GA) | v2.1 (GA) |
|---|---|---|---|---|---|
| Extração de propriedades da fonte | Complemento | ✔️ | ✔️ | Não disponível | Não disponível |
| Extração por fórmula | Complemento | ✔️ | ✔️ | Não disponível | Não disponível |
| Extração de alta resolução | Complemento | ✔️ | ✔️ | Não disponível | Não disponível |
| Extração por código de barras | Gratuito | ✔️ | ✔️ | Não disponível | Não disponível |
| Deteção de linguagem | Gratuito | ✔️ | ✔️ | Não disponível | Não disponível |
| Pares chave/valor | Gratuito | ✔️ | Não disponível | Não disponível | Não disponível |
| Campos de consulta | Adicional* | ✔️ | Não disponível | Não disponível | Não disponível |
| PDF pesquisável | Adicional* | ✔️ | Não disponível | Não disponível | Não disponível |
Características de análise de modelos
| ID do modelo | Extração de conteúdo | Campos de consulta | Parágrafos | Funções dos parágrafos | Marcas de seleção | Tabelas | Pares chave/valor | Línguas | Códigos de barras | Análise documental | Fórmulas* | Fonte de estilo* | Alta resolução* | PDF pesquisável |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
prebuilt-read |
✓ | ✓ | O | O | O | O | O | O | ||||||
prebuilt-layout |
✓ | ✓ | ✓ | ✓ | ✓ | ✓ | O | O | O | O | O | O | ||
prebuilt-contract |
✓ | ✓ | ✓ | ✓ | ✓ | O | O | ✓ | O | O | ||||
prebuilt-healthInsuranceCard.us |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-idDocument |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-invoice |
✓ | ✓ | ✓ | ✓ | O | O | O | ✓ | O | O | O | |||
prebuilt-receipt |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-marriageCertificate.us |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-creditCard |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-check.us |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-payStub.us |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-bankStatement |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-mortgage.us.1003 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-mortgage.us.1004 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-mortgage.us.1005 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-mortgage.us.1008 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-mortgage.us.closingDisclosure |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.w2 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.w4 |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-tax.us.1040 (vários) |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1095A |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-tax.us.1095C |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
prebuilt-tax.us.1098 |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1098E |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1098T |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1099 (vários) |
✓ | ✓ | ✓ | O | O | ✓ | O | O | O | |||||
prebuilt-tax.us.1099SSA |
✓ | ✓ | O | O | ✓ | O | O | O | ||||||
{ customModelName } |
✓ | ✓ | ✓ | ✓ | ✓ | ✓ | O | O | ✓ | O | O | O |
✓ - Ativado
O - Opcional
* - As funcionalidades premium acarretam custos adicionais
Os campos de consulta têm preços diferentes das outras funcionalidades adicionais. Para mais informações, consulte Preços.
Coordenadas de caixa delimitadora e polígonos
Uma caixa delimitadora (polygon na v3.0 e versões posteriores) é um retângulo abstrato que envolve elementos de texto num documento. Uma caixa delimitadora é usada como ponto de referência para a deteção de objetos:
- A caixa delimitadora especifica a posição ao usar um plano de coordenadas x e y, apresentado em um array de quatro pares numéricos. Cada par representa um canto da caixa na seguinte ordem: superior esquerdo, superior direito, inferior direito, inferior esquerdo.
- As coordenadas da imagem são apresentadas em pixels. Para um PDF, as coordenadas são apresentadas em polegadas.
Suporte linguístico
Os modelos universais em Inteligência de Documentos baseados em aprendizagem profunda suportam muitas línguas. Os modelos podem extrair texto multilíngue das suas imagens e documentos, incluindo linhas de texto com línguas mistas. O suporte à linguagem varia consoante a funcionalidade do serviço de Inteligência Documental. Para uma lista completa, consulte os seguintes artigos:
- Suporte linguístico: Modelos de análise documental
- Suporte de linguagem: Modelos pré-construídos
- Suporte de linguagem: Modelos personalizados
Disponibilidade regional
A Inteligência de Documentos é geralmente disponibilizada em muitas das mais de 60 regiões globais de infraestrutura do Azure.
Para ajudar a escolher a região que é melhor para si e para os seus clientes, consulte Azure geografias.
Detalhes do modelo
Esta secção descreve o resultado que pode esperar de cada modelo. Pode estender a saída da maioria dos modelos com funcionalidades adicionais.
Leia texto através de OCR
A Read API utiliza reconhecimento ótico de caracteres (OCR) para analisar e extrair linhas e palavras, as suas localizações, línguas detetadas e estilo de escrita, se detetado.
Este documento de exemplo foi processado utilizando o Document Intelligence Studio.
Análise de layout
O modelo de análise de layout analisa e extrai texto, tabelas, marcas de seleção e outros elementos estruturais como títulos, cabeçalhos de secção, cabeçalhos de página e rodapés de página.
Este documento de exemplo foi processado utilizando o Document Intelligence Studio.
Cartão de seguro de saúde
O modelo de cartões de seguro de saúde combina poderosas capacidades de OCR com modelos de aprendizagem profunda para analisar e extrair informações-chave dos cartões de seguro de saúde dos EUA.
Este exemplo de cartão de seguro de saúde dos EUA foi processado através do Document Intelligence Studio.
Documentos fiscais dos EUA
Os modelos de documentos fiscais dos EUA analisam e extraem campos-chave e itens de linha de um grupo selecionado de documentos fiscais. A API suporta a análise de documentos fiscais dos EUA em inglês de vários formatos e qualidades, incluindo imagens captadas por telemóvel, documentos digitalizados e PDFs digitais. Os seguintes modelos são atualmente suportados:
| Modelo | Descrição | ID do modelo |
|---|---|---|
| Declaração W-2 de imposto dos EUA | Extrair os detalhes da compensação tributável. | prebuilt-tax.us.w2 |
| Formulário fiscal W-4 dos EUA | Extrair os detalhes da compensação tributável. | prebuilt-tax.us.w4 |
| Imposto dos EUA Formulário 1040 | Extrair detalhes sobre os juros da hipoteca. |
prebuilt-tax.us.1040 (variações) |
| Imposto dos EUA 1095 | Extraia os detalhes do seguro de saúde. |
prebuilt-tax.us.1095 (variações) |
| Imposto dos EUA 1098 | Extrair os detalhes dos juros da hipoteca. |
prebuilt-tax.us.1098 (variações) |
| Imposto dos EUA 1099 | Extrair rendimentos recebidos de fontes que não sejam o empregador. |
prebuilt-tax.us.1099 (variações) |
Este documento de exemplo W-2 foi processado utilizando o Document Intelligence Studio.
Documentos hipotecários nos EUA
Os modelos de documentos hipotecários dos EUA analisam e extraem campos-chave que incluem informações sobre mutuários, empréstimos e propriedades a partir de um grupo selecionado de documentos hipotecários. A API suporta a análise de documentos hipotecários dos EUA em língua inglesa de vários formatos e qualidades, incluindo imagens captadas por telemóvel, documentos digitalizados e PDFs digitais. Os seguintes modelos são atualmente suportados.
| Modelo | Descrição | ID do modelo |
|---|---|---|
| Contrato de Licença 1003 End-User | Extrair detalhes do empréstimo, do mutuário e da propriedade. | prebuilt-mortgage.us.1003 |
| Relatório Uniforme de Avaliação Residencial 1004 (URAR) | Extrai o empréstimo, o mutuário, os detalhes da propriedade. | prebuilt-mortgage.us.1004 |
| 1005 Verificação do emprego | Extrair informações sobre o empréstimo, o mutuário e a propriedade. | prebuilt-mortgage.us.1005 |
| 1008 Documento de resumo | Extrair detalhes do mutuário, vendedor, propriedade, hipoteca e análise de crédito. | prebuilt-mortgage.us.1008 |
| Divulgação de Encerramento | Extrair custos de encerramento, custos de transação e detalhes do empréstimo. | prebuilt-mortgage.us.closingDisclosure |
Este documento de Declaração de Fecho foi processado utilizando o Document Intelligence Studio.
Contrato
O modelo contratual analisa e extrai campos-chave e itens de linha dos acordos contratuais, incluindo partes, jurisdições, ID do contrato e título. Atualmente, o modelo suporta documentos contratuais em língua inglesa.
Este contrato de exemplo foi processado através do Document Intelligence Studio.
Cheque bancário dos EUA
O modelo contratual analisa e extrai campos-chave dos cheques bancários dos EUA, incluindo detalhes de cheques, dados de contas, montantes e memorandos.
Esta amostra de cheque bancário foi processada através do Document Intelligence Studio.
Extrato bancário dos EUA
O modelo de extrato bancário analisa e extrai campos-chave e itens de linha de extratos bancários dos EUA, como o número da conta, dados bancários, detalhes do extrato e detalhes das transações.
Este exemplo de extrato bancário foi processado utilizando o Document Intelligence Studio.
Talão de vencimento
O modelo de folha de pagamento analisa e extrai campos e itens de linha chave de documentos e ficheiros com informações relacionadas com o processamento salarial.
Este exemplo de recibo de vencimento foi processado através do Document Intelligence Studio.
Fatura
O modelo de fatura automatiza o processamento das faturas para extrair o nome do cliente, morada de faturação, data de vencimento, montante a pagar, itens de linha e outros dados-chave.
Esta fatura modelo foi processada através do Document Intelligence Studio.
Recibo
Use o modelo de recibos para analisar recibos de venda para o nome do comerciante, datas, itens de linha, quantidades e totais a partir de recibos impressos e manuscritos. A versão v3.0 também suporta o processamento de recibos de hotel de página única.
Este exemplo de recibo foi processado através do Document Intelligence Studio.
Documento de identidade
Use o modelo do documento de identidade (ID) para processar cartas de condução dos EUA (todos os 50 estados e Distrito de Columbia) e páginas biográficas de passaportes internacionais (excluindo vistos e outros documentos de viagem) para extrair campos chave.
Este exemplo de carta de condução dos EUA foi processado através do Document Intelligence Studio.
Certidão de casamento
Utilize o modelo da certidão de casamento para processar certidões de casamento nos EUA e extrair os campos-chave, incluindo os indivíduos, data e localização.
Este exemplo de certidão de casamento dos EUA foi processado através do Document Intelligence Studio.
Cartão de crédito
Use o modelo de cartão de crédito para processar cartões de crédito e débito para extrair campos-chave.
Este cartão de crédito de exemplo foi processado através do Document Intelligence Studio.
Modelos personalizados
Os modelos personalizados são amplamente classificados em dois tipos. Modelos de classificação personalizados que suportam a classificação de um "tipo de documento" e modelos de extração personalizados que podem extrair um esquema definido de um tipo específico de documento.
Modelos de documentos personalizados analisam e extraem dados de formulários e documentos específicos do seu negócio. Eles reconhecem campos de formulário dentro do seu conteúdo distinto e extraem pares de chave/valor e dados de tabela. Basta um exemplo do tipo de formulário para começar.
A versão v3.0 e modelos personalizados posteriores suportam a deteção de assinaturas em modelos de template personalizados (formulários) e tabelas de página cruzada, tanto em modelos de template como em modelos neurais. A deteção de assinaturas procura a presença de uma assinatura, não a identidade da pessoa que assina o documento. Se o modelo devolver não assinado para deteção de assinatura, o modelo não encontrou assinatura no campo definido.
Este modelo personalizado de exemplo foi processado utilizando o Document Intelligence Studio.
Extração personalizada
O modelo de extração personalizado existe em dois tipos: template personalizado e neural personalizado. Para criar um modelo de extração personalizado, rotule um conjunto de dados de documentos com os valores que pretende extrair e treine o modelo no conjunto de dados rotulado. Só precisa de cinco exemplos do mesmo formulário ou tipo de documento para começar.
Esta extração personalizada foi processada utilizando o Document Intelligence Studio.
Classificador personalizado
Com o modelo de classificação personalizado, pode identificar o tipo de documento antes de invocar o modelo de extração. O modelo de classificação está disponível a partir da API de 2023-07-31 (GA). Treinar um modelo de classificação personalizado requer pelo menos duas classes distintas e um mínimo de cinco amostras por classe.
Modelos compostos
Um modelo composto é criado ao reunir uma coleção de modelos personalizados e atribuí-los a um único modelo construído a partir de tipos de formulário. Podes atribuir múltiplos modelos personalizados a um modelo composto que são chamados com um único ID de modelo. Pode atribuir até 200 modelos personalizados treinados a um único modelo composto.
Este modelo composto de exemplo encontra-se no Document Intelligence Studio.
Requisitos de entrada
São suportados os seguintes formatos de ficheiro.
| Modelo | Imagem: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Leia | ✔ | ✔ | ✔ |
| Disposição | ✔ | ✔ | ✔ |
| Documento geral | ✔ | ✔ | |
| Pré-fabricado | ✔ | ✔ | |
| Extração personalizada | ✔ | ✔ | |
| Classificação personalizada | ✔ | ✔ | ✔ |
- Fotografias e digitalizações: Para melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
- PDFs e TIFFs: Para PDFs e TIFFs, podem ser processadas até 2.000 páginas. (Com uma subscrição gratuita, apenas as duas primeiras páginas são processadas.)
- Tamanho do ficheiro: O tamanho do ficheiro para análise de documentos é de 500 MB para o nível pago (S0) e 4 MB para o nível gratuito (F0).
- Dimensões da imagem: As dimensões devem estar entre 50 pixels x 50 píxeis e 10.000 píxeis x 10.000 píxeis.
- Bloqueios por palavra-passe: Se os seus PDFs estiverem bloqueados por palavra-passe, deve remover o bloqueio antes da submissão.
- Altura do texto: A altura mínima do texto a extrair é de 12 píxeis para uma imagem de 1024 x 768 píxeis. Esta dimensão corresponde a cerca de texto de 8 pontos a 150 pontos por polegada.
- Treino de modelos personalizados: O número máximo de páginas para dados de treino é 500 para o modelo modelo personalizado e 50.000 para o modelo neural personalizado.
- Treino personalizado do modelo de extração: O tamanho total dos dados de treino é de 50 MB para o modelo modelo e 1 GB para o modelo neural.
- Treino personalizado do modelo de classificação: O tamanho total dos dados de treino é de 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treino é de 2 GB com um máximo de 10.000 páginas.
- Tipos de ficheiros Office (DOCX, XLSX, PPTX): O limite máximo de comprimento de string é de 8 milhões de caracteres.
Nota
A ferramenta de Etiquetagem de Exemplo não suporta o formato de ficheiro BMP. A limitação deriva da ferramenta e não do Serviço de Inteligência Documental.
Migração de versões
Aprenda a usar o Document Intelligence v3.0 nas suas aplicações seguindo os passos do guia de migração do Document Intelligence v3.1.
| Modelo | Descrição |
|---|---|
| Análise documental | |
| Layout | Extrair texto e informações de layout dos documentos. |
| Pré-fabricado | |
| Fatura | Extrair informações-chave de faturas em inglês e espanhol. |
| Receção | Extrair informações-chave dos recibos em inglês. |
| Documento de identificação | Extraia informações essenciais das cartas de condução dos EUA e passaportes internacionais. |
| Cartão de visita | Extraia informações chave de cartões de visita em inglês. |
| Personalizado | |
| Personalizado | Extraia dados de formulários e documentos específicos do seu negócio. Modelos personalizados são treinados para os seus dados e casos de uso distintos. |
| Composição | Compõe uma coleção de modelos personalizados e atribui-os a um único modelo construído a partir dos teus tipos de formulário. |
Disposição
A API de Layout analisa e extrai texto, tabelas e cabeçalhos, marcas de seleção e informações estruturais dos documentos.
Este documento de exemplo foi processado utilizando a Sample Labeling tool.
Fatura
O modelo de fatura analisa e extrai informações-chave das faturas de venda. A API analisa faturas em vários formatos e extrai informações-chave como nome do cliente, morada de faturação, data de vencimento e montante devido.
Esta fatura de exemplo foi processada com a ferramenta de rotulagem de amostra.
Recibo
O modelo de recibos analisa e extrai informações-chave de recibos de venda impressos e manuscritos.
Este recibo de amostra foi processado usando a ferramenta de Rotulagem de Amostras.
Documento de identificação
O modelo de documentos ID analisa e extrai informações-chave dos seguintes documentos:
- Cartas de condução dos EUA (todos os 50 estados e Distrito de Columbia)
- Páginas biográficas de passaportes internacionais (excluindo vistos e outros documentos de viagem). A API analisa e extrai documentos de identidade.
Este exemplo de carta de condução dos Estados Unidos foi processado utilizando a ferramenta de etiquetagem de exemplo Sample Labeling tool.
Cartão de visita
O modelo do cartão de visita analisa e extrai informações-chave das imagens dos cartões de visita.
Este cartão de visita de exemplo foi processado utilizando a ferramenta de rotulagem de amostras.
Personalizado
Modelos personalizados analisam e extraem dados de formulários e documentos específicos do seu negócio. A API é um programa de aprendizagem automática treinado para reconhecer campos de formulário dentro do seu conteúdo distinto e extrair pares chave/valor e dados de tabelas. Só precisas de cinco exemplos do mesmo tipo para começar. Pode treinar o seu modelo personalizado com ou sem conjuntos de dados rotulados.
Este modelo personalizado de exemplo foi processado utilizando a ferramenta de Etiquetagem de Exemplo.
Modelo personalizado composto
Um modelo composto é criado ao reunir uma coleção de modelos personalizados e atribuí-los a um único modelo construído a partir de tipos de formulário. Podes atribuir múltiplos modelos personalizados a um modelo composto que são chamados com um único ID de modelo. Pode atribuir até 100 modelos personalizados treinados a um único modelo composto.
Este painel de modelo composto foi processado usando a ferramenta de Etiquetagem de Exemplos.
Extração de dados de modelos
| Modelo | Extração de texto | Deteção de linguagem | Marcas de seleção | Tabelas | Parágrafos | Funções dos parágrafos | Pares chave/valor | Campos |
|---|---|---|---|---|---|---|---|---|
| Layout | ✓ | ✓ | ✓ | ✓ | ✓ | |||
| Fatura | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Receção | ✓ | ✓ | ✓ | |||||
| Documento de Identificação | ✓ | ✓ | ✓ | |||||
| Cartão de visita | ✓ | ✓ | ✓ | |||||
| Formulário Personalizado | ✓ | ✓ | ✓ | ✓ | ✓ |
Requisitos de entrada
São suportados os seguintes formatos de ficheiro.
| Modelo | Imagem: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Leia | ✔ | ✔ | ✔ |
| Disposição | ✔ | ✔ | ✔ |
| Documento geral | ✔ | ✔ | |
| Pré-fabricado | ✔ | ✔ | |
| Extração personalizada | ✔ | ✔ | |
| Classificação personalizada | ✔ | ✔ | ✔ |
- Fotografias e digitalizações: Para melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
- PDFs e TIFFs: Para PDFs e TIFFs, podem ser processadas até 2.000 páginas. (Com uma subscrição gratuita, apenas as duas primeiras páginas são processadas.)
- Tamanho do ficheiro: O tamanho do ficheiro para análise de documentos é de 500 MB para o nível pago (S0) e 4 MB para o nível gratuito (F0).
- Dimensões da imagem: As dimensões devem estar entre 50 pixels x 50 píxeis e 10.000 píxeis x 10.000 píxeis.
- Bloqueios por palavra-passe: Se os seus PDFs estiverem bloqueados por palavra-passe, deve remover o bloqueio antes da submissão.
- Altura do texto: A altura mínima do texto a extrair é de 12 píxeis para uma imagem de 1024 x 768 píxeis. Esta dimensão corresponde a cerca de texto de 8 pontos a 150 pontos por polegada.
- Treino de modelos personalizados: O número máximo de páginas para dados de treino é 500 para o modelo modelo personalizado e 50.000 para o modelo neural personalizado.
- Treino personalizado do modelo de extração: O tamanho total dos dados de treino é de 50 MB para o modelo modelo e 1 GB para o modelo neural.
- Treino personalizado do modelo de classificação: O tamanho total dos dados de treino é de 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treino é de 2 GB com um máximo de 10.000 páginas.
- Tipos de ficheiros Office (DOCX, XLSX, PPTX): O limite máximo de comprimento de string é de 8 milhões de caracteres.
Nota
A ferramenta de Etiquetagem de Exemplo não suporta o formato de ficheiro BMP. A limitação deriva da ferramenta e não da Inteligência de Documentos.
Migração de versões
Pode aprender a usar o Document Intelligence v3.0 nas suas aplicações seguindo os passos do guia de migração do Document Intelligence v3.1
Conteúdo relacionado
- Processe os seus próprios formulários e documentos com o Document Intelligence Studio.
- Termine um início rápido de Inteligência Documental e depois crie uma aplicação de processamento de documentos na linguagem de desenvolvimento que preferir.
- Processe os seus próprios formulários e documentos com a ferramenta Document Intelligence Sample Labeling.
- Conclua um guia rápido de Inteligência Documental e depois crie uma aplicação de processamento de documentos na linguagem de desenvolvimento que preferir.