Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este conteúdo se aplica a:
v4.0 (GA) | Versões anteriores:
v3.1 (GA)
v3.0 (desativação)
v2.1 (desativação)
Este conteúdo se aplica a:
v3.0 (desativação) | Versões mais recentes:
v4.0 (GA)
v3.1 | Versão anterior:
v2.1 (desativação)
Esse conteúdo se aplica a:
v2.1 | Versão mais recente:
v4.0 (GA)
O modelo de recibo do Document Intelligence combina recursos avançados de OCR (Reconhecimento Óptico de Caracteres) com modelos de aprendizado profundo para analisar e extrair informações importantes de recibos de vendas. Os recibos podem ser de vários formatos e qualidade, incluindo recibos impressos e manuscritos. A API extrai informações importantes como nome do comerciante, número de telefone do comerciante, data da transação, imposto e total da transação e retorna dados JSON estruturados. O modelo de recibo v4.0 (GA) dá suporte a outros campos, incluindo ReceiptType, TaxDetails.NetAmount, TaxDetails.DescriptionTaxDetails.Rate e CountryRegion junto com a extração de tabela de IVA em recibos gerais de hotéis.
Extração de dados de um recibo
A digitalização de recibo abrange a transformação de vários tipos de recibos, incluindo cópias digitalizadas, fotografadas e impressas, em um formato digital para processamento downstream simplificado. Os exemplos incluem gerenciamento de despesas, análise de comportamento do consumidor, automação fiscal etc. Usar o Document Intelligence com a tecnologia OCR (Reconhecimento Óptico de Caracteres) pode extrair e interpretar dados desses diversos formatos de recebimento. O processamento do Document Intelligence simplifica o processo de conversão, mas também reduz significativamente o tempo e o esforço necessários, facilitando assim o gerenciamento e a recuperação de dados eficientes.
Exemplo de recibo processado com o Document Intelligence Studio:
Exemplo de recibo processado com a ferramenta de rotulagem de exemplo do Document Intelligence:
Opções de desenvolvimento
O Document Intelligence v4.0: 2024-11-30 (GA) dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
| Recurso | Recursos | ID do modelo |
|---|---|---|
| Modelo de recibo | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
confirmação predefinida |
O Document Intelligence v3.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
| Recurso | Recursos | ID do modelo |
|---|---|---|
| Modelo de recibo | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
recibo pré-fabricado |
O Document Intelligence v3.0 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
| Recurso | Recursos | ID do modelo |
|---|---|---|
| Modelo de recibo | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
confirmação predefinida |
O Document Intelligence v2.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
| Recurso | Recursos |
|---|---|
| Modelo de recibo | • Ferramenta de rotulagem do • REST API • SDK da biblioteca cliente• Contêiner do Docker do Document Intelligence |
Requisitos de entrada
Há suporte para os seguintes formatos de arquivo.
| Modelo | Imagem: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Ler | ✔ | ✔ | ✔ |
| Layout | ✔ | ✔ | ✔ |
| Documento geral | ✔ | ✔ | |
| Pré-construídos | ✔ | ✔ | |
| Extração personalizada | ✔ | ✔ | |
| Classificação personalizada | ✔ | ✔ | ✔ |
- Fotos e verificações: para obter melhores resultados, forneça uma foto clara ou uma verificação de alta qualidade por documento.
- PDFs e TIFFs: para PDFs e TIFFs, até 2.000 páginas podem ser processadas. (Com uma assinatura de camada livre, somente as duas primeiras páginas são processadas.)
- Tamanho do arquivo: o tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
- Dimensões da imagem: as dimensões devem ter entre 50 pixels x 50 pixels e 10.000 pixels x 10.000 pixels.
- Bloqueios de senha: se os PDFs estiverem bloqueados por senha, você deverá remover o bloqueio antes do envio.
- Altura do texto: a altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Essa dimensão corresponde a cerca de 8 pontos de texto a 150 pontos por polegada.
- Treinamento de modelo personalizado: o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
- Treinamento personalizado do modelo de extração: o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1 GB para o modelo neural.
- Treinamento de modelo de classificação personalizada: o tamanho total dos dados de treinamento é de 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treinamento é de 2 GB com um máximo de 10.000 páginas.
- Tipos de arquivo do Office (DOCX, XLSX, PPTX): o limite máximo de comprimento da cadeia de caracteres é de 8 milhões de caracteres.
- Formatos de arquivo com suporte: JPEG, PNG, PDF e TIFF.
- Cota de páginas suportadas para PDF e TIFF: o Document Intelligence pode processar até 2.000 páginas para assinantes do nível padrão ou apenas as duas primeiras páginas para assinantes da camada gratuita.
- Tamanho do arquivo com suporte: menos de 50 MB; pixels mínimos 50 x 50 px; pixels máximos de 10.000 x 10.000 px.
Extração de dados do modelo de recibo
Veja como o Document Intelligence extrai dados, incluindo hora e data das transações, informações do estabelecimento e totais dos valores nos recibos. Você precisa dos seguintes recursos:
Uma assinatura Azure– você pode criar uma gratuitamente.
Uma instância do Document Intelligence no portal Azure. Você pode usar o tipo de preço gratuito (
F0) para experimentar o serviço. Após a implantação do recurso, selecione Ir para o recurso para obter sua chave e ponto de extremidade.
Nota
O Document Intelligence Studio está disponível com APIs v3.1 e v3.0 e versões posteriores.
Na home page do Document Intelligence Studio, selecione Recibos.
Você pode analisar o recibo de exemplo ou carregar seus próprios arquivos.
Selecione o botão Executar análise e, se necessário, configure as opções Analisar:
Ferramenta de Rotulagem de Exemplos do Document Intelligence
Navegue até a Ferramenta de Amostra de Inteligência Documental.
Na home page da ferramenta de exemplo, selecione Usar modelo predefinido para obter o bloco de dados.
Selecione o Tipo de Formulário a ser analisado no menu dropdown.
Escolha uma URL para o arquivo que você deseja analisar nas opções abaixo:
No campo Origem , selecione URL no menu suspenso, cole a URL selecionada e selecione o botão Buscar .
No campo de endpoint do serviço Document Intelligence, cole o endpoint obtido com sua assinatura do Document Intelligence.
No campo chave, cole a chave obtida no recurso de Inteligência de Documento.
Selecione Executar análise. A ferramenta de Rotulagem de Exemplo para Inteligência de Documentos chama a API Predefinida de Análise e analisa o documento.
Exibir os resultados – consulte os pares chave-valor extraídos, itens de linha, texto realçado extraído e tabelas detectadas.
Nota
A ferramenta de rotulagem de amostra não dá suporte ao formato de arquivo BMP. Essa é uma limitação da ferramenta, não do Serviço de Inteligência de Documento.
Idiomas e localidades com suporte
Para obter uma lista completa de idiomas com suporte, consulte nossa página de suporte à linguagem de modelos predefinidos .
Extração de campo
Para campos de extração de documentos com suporte, consulte a página receipt model schema em nosso repositório de exemplos do GitHub
| Nome | Tipo | Descrição | Saída padronizada |
|---|---|---|---|
| TipoDeRecibo | String | Tipo de recibo de vendas | Listada |
| NomeDoComerciante | String | Nome do comerciante emitindo o recibo | |
| NúmeroDeTelefoneDoComerciante | número de telefone | Número de telefone listado do comerciante | +1 xxx xxx xxxx |
| EndereçoDoComerciante | String | Endereço listado do comerciante | |
| Data da Transação | Data | Data em que o recibo foi emitido | dd/mm/yyyy |
| TempoDeTransação | Tempo | Hora em que o recibo foi emitido | hh-mm-ss (24 horas) |
| Total | Número (USD) | Total completo de transação do recibo | Float de duas decimais |
| Subtotal | Número (USD) | Subtotal de recebimento, geralmente antes de os impostos serem aplicados | Float de duas decimais |
| Imposto | Número (USD) | Imposto total sobre o recebimento (geralmente imposto sobre vendas ou equivalente). Renomeado para "TotalTax" na versão 2022-06-30. | Número float com duas casas decimais |
| Dica | Número (USD) | Dica incluída pelo comprador | Float de duas decimais |
| Itens | Matriz de objetos | Itens de linha extraídos, com nome, quantidade, preço unitário e preço total extraído | |
| Nome | String | Descrição do item. Renomeado como "Descrição" na versão 2022-06-30. | |
| Quantidade | Número | Quantidade de cada item | Float de duas decimais |
| Preço | Número | Preço individual de cada unidade de item | Float de duas decimais |
| PreçoTotal | Número | Preço total do item de linha | Float de duas decimais |
Guia de migração e API REST v3.1
- Siga nosso guia de migração do Document Intelligence v3.1 para saber como usar a versão v3.1 em seus aplicativos e fluxos de trabalho.
Próximas etapas
Tente processar seus próprios formulários e documentos com o Document Intelligence Studio.
Conclua um início rápido do Document Intelligence e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.
Tente processar seus próprios formulários e documentos com a ferramenta de rotulagem de exemplo do Document Intelligence.
Conclua um início rápido do Document Intelligence e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.