Modelo de receção de inteligência documental

Este conteúdo aplica-se a:v4.0 (GA) | Versões anteriores:v3.1 (GA)v3.0 (em retirada)v2.1 (em retirada)

Este conteúdo aplica-se a:v3.1 (GA) | Última versão:v4.0 (GA) | Versões anteriores:v3.0v2.1

Este conteúdo aplica-se a:v3.0 (em descontinuação) | Últimas versões:v4.0 (GA)v3.1 | Versão anterior:v2.1 (em descontinuação)

Este conteúdo aplica-se a:v2.1 | Última versão:v4.0 (GA)

O modelo de receção de Inteligência de Documentos combina poderosas capacidades de Reconhecimento Óptico de Caracteres (OCR) com modelos de aprendizagem profunda para analisar e extrair informações-chave dos recibos de venda. Os recibos podem ter vários formatos e qualidade, incluindo recibos impressos e manuscritos. A API extrai informações-chave como nome do comerciante, número de telefone do comerciante, data da transação, impostos e total da transação, e devolve dados JSON estruturados. O modelo de recibos v4.0 (GA) suporta outros campos, incluindo ReceiptType, TaxDetails.NetAmount, TaxDetails.Description, TaxDetails.Rate e CountryRegion juntamente com a extração de tabela de IVA em recibos gerais de hotel.

Extração de dados de recibos

A digitalização dos recibos engloba a transformação de vários tipos de recibos, incluindo cópias digitalizadas, fotografadas e impressas, para um formato digital para um processamento simplificado a jusante. Exemplos incluem gestão de despesas, análise do comportamento do consumidor, automação fiscal, etc. Utilizar a Inteligência Documental com a tecnologia OCR (Reconhecimento Óptico de Caracteres) pode extrair e interpretar dados destes diversos formatos de recibos. O processamento de Inteligência de Documentos simplifica o processo de conversão, mas também reduz significativamente o tempo e o esforço necessários, facilitando assim a gestão e recuperação eficiente dos dados.

Exemplo de receção processada com o Document Intelligence Studio:

Exemplo de recibo processado com a ferramenta de Rotulagem de Exemplo da Inteligência Documental:

Captura de ecrã de um exemplo de recibo processado com a ferramenta Rotulagem de Exemplos de Formulário.

Opções de desenvolvimento

Document Intelligence v4.0: 2024-11-30 (GA) suporta as seguintes ferramentas, aplicações e bibliotecas:

Destaque	Recursos	ID do modelo
Modelo de recibo	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	recibo pré-configurado

O Document Intelligence v3.1 suporta as seguintes ferramentas, aplicações e bibliotecas:

Destaque	Recursos	ID do modelo
Modelo de recibo	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	recibo pré-configurado

O Document Intelligence v3.0 suporta as seguintes ferramentas, aplicações e bibliotecas:

Destaque	Recursos	ID do modelo
Modelo de recibo	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	recibo pré-fabricado

O Document Intelligence v2.1 suporta as seguintes ferramentas, aplicações e bibliotecas:

Destaque	Recursos
Modelo de recibo	• Ferramenta de • REST API • SDK de cliente de biblioteca • contentor Document Intelligence Docker

Requisitos de entrada

São suportados os seguintes formatos de ficheiro.

Modelo	PDF	Imagem: JPEG/JPG, PNG, BMP, TIFF, HEIF	Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Leia	✔	✔	✔
Disposição	✔	✔	✔
Documento geral	✔	✔
Pré-fabricado	✔	✔
Extração personalizada	✔	✔
Classificação personalizada	✔	✔	✔

Fotografias e digitalizações: Para melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
PDFs e TIFFs: Para PDFs e TIFFs, podem ser processadas até 2.000 páginas. (Com uma subscrição gratuita, apenas as duas primeiras páginas são processadas.)
Tamanho do ficheiro: O tamanho do ficheiro para análise de documentos é de 500 MB para o nível pago (S0) e 4 MB para o nível gratuito (F0).
Dimensões da imagem: As dimensões devem estar entre 50 pixels x 50 píxeis e 10.000 píxeis x 10.000 píxeis.
Bloqueios por palavra-passe: Se os seus PDFs estiverem bloqueados por palavra-passe, deve remover o bloqueio antes da submissão.
Altura do texto: A altura mínima do texto a extrair é de 12 píxeis para uma imagem de 1024 x 768 píxeis. Esta dimensão corresponde a cerca de texto de 8 pontos a 150 pontos por polegada.
Treino de modelos personalizados: O número máximo de páginas para dados de treino é 500 para o modelo modelo personalizado e 50.000 para o modelo neural personalizado.
Treino personalizado do modelo de extração: O tamanho total dos dados de treino é de 50 MB para o modelo modelo e 1 GB para o modelo neural.
Treino personalizado do modelo de classificação: O tamanho total dos dados de treino é de 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treino é de 2 GB com um máximo de 10.000 páginas.
Tipos de ficheiros Office (DOCX, XLSX, PPTX): O limite máximo de comprimento de string é de 8 milhões de caracteres.

Formatos de ficheiro suportados: JPEG, PNG, PDF e TIFF.
Limite de página suportado para PDF e TIFF: A Inteligência de Documentos pode processar até 2.000 páginas para subscritores de nível padrão ou apenas as duas primeiras páginas para subscritores de nível gratuito.
Tamanho do ficheiro suportado: menos de 50 MB; píxeis mínimos 50 x 50 px; píxeis máximos 10.000 x 10.000 px.

Extração de dados do modelo de receção

Veja como a Document Intelligence extrai dados, incluindo data e hora das transações, informações dos comerciantes e totais de montantes dos recibos. Precisa dos seguintes recursos:

Uma subscrição Azure — pode criar uma gratuitamente.
Uma instância Document Intelligence no portal Azure. Pode usar o escalão de preços gratuito (F0) para experimentar o serviço. Depois de o seu recurso ser implementado, selecione Ir para o recurso para obter a sua chave e endpoint.

Captura de ecrã das chaves e localização do endpoint no portal Azure.

Nota

O Document Intelligence Studio está disponível com APIs v3.1 e v3.0 e versões posteriores.

Na página inicial do Document Intelligence Studio, selecione Recibos.
Pode analisar o recibo de exemplo ou carregar os seus próprios ficheiros.
Selecione o botão Executar análise e, se necessário, configure as opções Analisar:

Experimenta o Document Intelligence Studio.

Ferramenta de Rotulagem de Amostras para Inteligência de Documentos

Navegue para a Ferramenta de Exemplo de Inteligência Documental.
Na página inicial da ferramenta de exemplo, selecione o bloco Usar modelo pré-definido para obter dados.
Selecione o Tipo de Formulário para analisar no menu suspenso.
Escolha uma URL para o ficheiro que gostaria de analisar a partir das opções abaixo:
No campo Fonte , selecione URL no menu suspenso, cole o URL selecionado e selecione o botão Buscar .
No campo endpoint do serviço Document Intelligence , cole o endpoint que obteve com a sua subscrição Document Intelligence.
No campo-chave , cole a chave que obteve do seu recurso de Inteligência Documental.
Selecione Executar análise. A ferramenta Document Intelligence Sample Labeling chama a API Analyze Prebuilt e analisa o documento.
Veja os resultados – veja os pares-chave-valor extraídos, itens de linha, texto destacado extraído e tabelas detetadas.

Nota

A ferramenta de Rotulagem de Exemplos não suporta o formato de ficheiro BMP. Isto é uma limitação da ferramenta, não do Serviço de Inteligência Documental.

Línguas e locais suportados

Para uma lista completa de linguagens suportadas, consulte a nossa página de suporte a linguagens modelos pré-construídas .

Extração de campo

Para campos de extração de documentos suportados, consulte a página do modelo de recibo no nosso GitHub de repositório de exemplos.

Nome	Tipo	Descrição	Saída padronizada
Tipo de Recibo	Corda	Tipo de recibo de venda	Listados
Nome Comercial	Corda	Nome do comerciante que emitiu o recibo
Número de Telefone do Comerciante	Número de telefone	Número de telefone listado do comerciante	+1 xxx xxx xxxx
Morada do Comerciante	Corda	Morada registada do comerciante
Data da Transação	Data	Data da emissão do recibo	yyyy-mm-dd
TransactionTime	Tempo	Hora em que o recibo foi emitido	hh-mm-ss (24 horas)
Total	Número (USD)	Total da transação do recibo	Flutuador de dois decimais
Subtotal	Número (USD)	Subtotal da receita, muitas vezes antes da aplicação dos impostos	Flutuador de dois decimais
Fiscalidade	Número (USD)	Imposto total sobre a receita (frequentemente imposto sobre vendas, ou equivalente). Renomeado para "TotalTax" na versão de 30-06-2022.	Flutuador de dois decimais
Dica	Número (USD)	Gorjeta incluída pelo comprador	Flutuador de dois decimais
Itens	Array de objetos	Itens extraídos, com nome, quantidade, preço unitário e preço total extraído
Nome	Corda	Descrição do item. Renomeado para "Descrição" na versão de 30/06/2022.
Quantidade	Número	Quantidade de cada item	Flutuador de dois decimais
Preço	Número	Preço individual de cada unidade de item	Flutuador de dois decimais
Preço Total	Número	Preço total do item	Flutuador de dois decimais

Guia de migração e API REST v3.1

Siga o nosso guia de migração Document Intelligence v3.1 para aprender a usar a versão v3.1 nas suas aplicações e fluxos de trabalho.

Próximos passos

Tente processar os seus próprios formulários e documentos com o Document Intelligence Studio.
Complete um guia de introdução à Inteligência Documental e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.

Encontre mais amostras em GitHub.

Encontre mais amostras em GitHub.

Tente processar os seus próprios formulários e documentos com a ferramenta Document Intelligence Sample Labeling.
Complete um guia de introdução à Inteligência Documental e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.

Comentários

Esta página foi útil?

Last updated on 2026-05-08