Modelo de recibo do Document Intelligence

Este conteúdo se aplica a:v4.0 (GA) | Versões anteriores:v3.1 (GA)v3.0 (desativação)v2.1 (desativação)

Este conteúdo se aplica a:v3.1 (GA) | Versão mais recente:v4.0 (GA) | Versões anteriores:v3.0v2.1

Este conteúdo se aplica a:v3.0 (desativação) | Versões mais recentes:v4.0 (GA)v3.1 | Versão anterior:v2.1 (desativação)

Esse conteúdo se aplica a:v2.1 | Versão mais recente:v4.0 (GA)

O modelo de recibo do Document Intelligence combina recursos avançados de OCR (Reconhecimento Óptico de Caracteres) com modelos de aprendizado profundo para analisar e extrair informações importantes de recibos de vendas. Os recibos podem ser de vários formatos e qualidade, incluindo recibos impressos e manuscritos. A API extrai informações importantes como nome do comerciante, número de telefone do comerciante, data da transação, imposto e total da transação e retorna dados JSON estruturados. O modelo de recibo v4.0 (GA) dá suporte a outros campos, incluindo ReceiptType, TaxDetails.NetAmount, TaxDetails.DescriptionTaxDetails.Rate e CountryRegion junto com a extração de tabela de IVA em recibos gerais de hotéis.

Extração de dados de um recibo

A digitalização de recibo abrange a transformação de vários tipos de recibos, incluindo cópias digitalizadas, fotografadas e impressas, em um formato digital para processamento downstream simplificado. Os exemplos incluem gerenciamento de despesas, análise de comportamento do consumidor, automação fiscal etc. Usar o Document Intelligence com a tecnologia OCR (Reconhecimento Óptico de Caracteres) pode extrair e interpretar dados desses diversos formatos de recebimento. O processamento do Document Intelligence simplifica o processo de conversão, mas também reduz significativamente o tempo e o esforço necessários, facilitando assim o gerenciamento e a recuperação de dados eficientes.

Exemplo de recibo processado com o Document Intelligence Studio:

Exemplo de recibo processado com a ferramenta de rotulagem de exemplo do Document Intelligence:

Captura de tela de um recibo de exemplo processado com a ferramenta de Rotulagem de Exemplo de Formulário.

Opções de desenvolvimento

O Document Intelligence v4.0: 2024-11-30 (GA) dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso	Recursos	ID do modelo
Modelo de recibo	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	confirmação predefinida

O Document Intelligence v3.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso	Recursos	ID do modelo
Modelo de recibo	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	recibo pré-fabricado

O Document Intelligence v3.0 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso	Recursos	ID do modelo
Modelo de recibo	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	confirmação predefinida

O Document Intelligence v2.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso	Recursos
Modelo de recibo	• Ferramenta de rotulagem do • REST API • SDK da biblioteca cliente• Contêiner do Docker do Document Intelligence

Requisitos de entrada

Há suporte para os seguintes formatos de arquivo.

Modelo	PDF	Imagem: JPEG/JPG, PNG, BMP, TIFF, HEIF	Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Ler	✔	✔	✔
Layout	✔	✔	✔
Documento geral	✔	✔
Pré-construídos	✔	✔
Extração personalizada	✔	✔
Classificação personalizada	✔	✔	✔

Fotos e verificações: para obter melhores resultados, forneça uma foto clara ou uma verificação de alta qualidade por documento.
PDFs e TIFFs: para PDFs e TIFFs, até 2.000 páginas podem ser processadas. (Com uma assinatura de camada livre, somente as duas primeiras páginas são processadas.)
Tamanho do arquivo: o tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
Dimensões da imagem: as dimensões devem ter entre 50 pixels x 50 pixels e 10.000 pixels x 10.000 pixels.
Bloqueios de senha: se os PDFs estiverem bloqueados por senha, você deverá remover o bloqueio antes do envio.
Altura do texto: a altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Essa dimensão corresponde a cerca de 8 pontos de texto a 150 pontos por polegada.
Treinamento de modelo personalizado: o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
Treinamento personalizado do modelo de extração: o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1 GB para o modelo neural.
Treinamento de modelo de classificação personalizada: o tamanho total dos dados de treinamento é de 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treinamento é de 2 GB com um máximo de 10.000 páginas.
Tipos de arquivo do Office (DOCX, XLSX, PPTX): o limite máximo de comprimento da cadeia de caracteres é de 8 milhões de caracteres.

Formatos de arquivo com suporte: JPEG, PNG, PDF e TIFF.
Cota de páginas suportadas para PDF e TIFF: o Document Intelligence pode processar até 2.000 páginas para assinantes do nível padrão ou apenas as duas primeiras páginas para assinantes da camada gratuita.
Tamanho do arquivo com suporte: menos de 50 MB; pixels mínimos 50 x 50 px; pixels máximos de 10.000 x 10.000 px.

Extração de dados do modelo de recibo

Veja como o Document Intelligence extrai dados, incluindo hora e data das transações, informações do estabelecimento e totais dos valores nos recibos. Você precisa dos seguintes recursos:

Uma assinatura Azure– você pode criar uma gratuitamente.
Uma instância do Document Intelligence no portal Azure. Você pode usar o tipo de preço gratuito (F0) para experimentar o serviço. Após a implantação do recurso, selecione Ir para o recurso para obter sua chave e ponto de extremidade.

Captura de tela de chaves e local do ponto de extremidade no portal do Azure.

Nota

O Document Intelligence Studio está disponível com APIs v3.1 e v3.0 e versões posteriores.

Na home page do Document Intelligence Studio, selecione Recibos.
Você pode analisar o recibo de exemplo ou carregar seus próprios arquivos.
Selecione o botão Executar análise e, se necessário, configure as opções Analisar:

Experimente o Document Intelligence Studio.

Ferramenta de Rotulagem de Exemplos do Document Intelligence

Navegue até a Ferramenta de Amostra de Inteligência Documental.
Na home page da ferramenta de exemplo, selecione Usar modelo predefinido para obter o bloco de dados.
Selecione o Tipo de Formulário a ser analisado no menu dropdown.
Escolha uma URL para o arquivo que você deseja analisar nas opções abaixo:
No campo Origem , selecione URL no menu suspenso, cole a URL selecionada e selecione o botão Buscar .
No campo de endpoint do serviço Document Intelligence, cole o endpoint obtido com sua assinatura do Document Intelligence.
No campo chave, cole a chave obtida no recurso de Inteligência de Documento.
Selecione Executar análise. A ferramenta de Rotulagem de Exemplo para Inteligência de Documentos chama a API Predefinida de Análise e analisa o documento.
Exibir os resultados – consulte os pares chave-valor extraídos, itens de linha, texto realçado extraído e tabelas detectadas.

Nota

A ferramenta de rotulagem de amostra não dá suporte ao formato de arquivo BMP. Essa é uma limitação da ferramenta, não do Serviço de Inteligência de Documento.

Idiomas e localidades com suporte

Para obter uma lista completa de idiomas com suporte, consulte nossa página de suporte à linguagem de modelos predefinidos .

Extração de campo

Para campos de extração de documentos com suporte, consulte a página receipt model schema em nosso repositório de exemplos do GitHub

Nome	Tipo	Descrição	Saída padronizada
TipoDeRecibo	String	Tipo de recibo de vendas	Listada
NomeDoComerciante	String	Nome do comerciante emitindo o recibo
NúmeroDeTelefoneDoComerciante	número de telefone	Número de telefone listado do comerciante	+1 xxx xxx xxxx
EndereçoDoComerciante	String	Endereço listado do comerciante
Data da Transação	Data	Data em que o recibo foi emitido	dd/mm/yyyy
TempoDeTransação	Tempo	Hora em que o recibo foi emitido	hh-mm-ss (24 horas)
Total	Número (USD)	Total completo de transação do recibo	Float de duas decimais
Subtotal	Número (USD)	Subtotal de recebimento, geralmente antes de os impostos serem aplicados	Float de duas decimais
Imposto	Número (USD)	Imposto total sobre o recebimento (geralmente imposto sobre vendas ou equivalente). Renomeado para "TotalTax" na versão 2022-06-30.	Número float com duas casas decimais
Dica	Número (USD)	Dica incluída pelo comprador	Float de duas decimais
Itens	Matriz de objetos	Itens de linha extraídos, com nome, quantidade, preço unitário e preço total extraído
Nome	String	Descrição do item. Renomeado como "Descrição" na versão 2022-06-30.
Quantidade	Número	Quantidade de cada item	Float de duas decimais
Preço	Número	Preço individual de cada unidade de item	Float de duas decimais
PreçoTotal	Número	Preço total do item de linha	Float de duas decimais

Guia de migração e API REST v3.1

Siga nosso guia de migração do Document Intelligence v3.1 para saber como usar a versão v3.1 em seus aplicativos e fluxos de trabalho.

Próximas etapas

Tente processar seus próprios formulários e documentos com o Document Intelligence Studio.
Conclua um início rápido do Document Intelligence e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.

Encontre mais amostras no GitHub.

Encontre mais amostras no GitHub.

Tente processar seus próprios formulários e documentos com a ferramenta de rotulagem de exemplo do Document Intelligence.
Conclua um início rápido do Document Intelligence e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.

Comentários

Esta página foi útil?

Last updated on 2026-05-08