Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Este conteúdo aplica-se a:
v4.0 (GA) | Versões anteriores:
v3.1 (GA)
v3.0 (em retirada)
v2.1 (em retirada)
Este conteúdo aplica-se a:
v3.0 (em descontinuação) | Últimas versões:
v4.0 (GA)
v3.1 | Versão anterior:
v2.1 (em descontinuação)
Este conteúdo aplica-se a:
v2.1 | Última versão:
v4.0 (GA)
O modelo de receção de Inteligência de Documentos combina poderosas capacidades de Reconhecimento Óptico de Caracteres (OCR) com modelos de aprendizagem profunda para analisar e extrair informações-chave dos recibos de venda. Os recibos podem ter vários formatos e qualidade, incluindo recibos impressos e manuscritos. A API extrai informações-chave como nome do comerciante, número de telefone do comerciante, data da transação, impostos e total da transação, e devolve dados JSON estruturados. O modelo de recibos v4.0 (GA) suporta outros campos, incluindo ReceiptType, TaxDetails.NetAmount, TaxDetails.Description, TaxDetails.Rate e CountryRegion juntamente com a extração de tabela de IVA em recibos gerais de hotel.
Extração de dados de recibos
A digitalização dos recibos engloba a transformação de vários tipos de recibos, incluindo cópias digitalizadas, fotografadas e impressas, para um formato digital para um processamento simplificado a jusante. Exemplos incluem gestão de despesas, análise do comportamento do consumidor, automação fiscal, etc. Utilizar a Inteligência Documental com a tecnologia OCR (Reconhecimento Óptico de Caracteres) pode extrair e interpretar dados destes diversos formatos de recibos. O processamento de Inteligência de Documentos simplifica o processo de conversão, mas também reduz significativamente o tempo e o esforço necessários, facilitando assim a gestão e recuperação eficiente dos dados.
Exemplo de receção processada com o Document Intelligence Studio:
Opções de desenvolvimento
Document Intelligence v4.0: 2024-11-30 (GA) suporta as seguintes ferramentas, aplicações e bibliotecas:
| Destaque | Recursos | ID do modelo |
|---|---|---|
| Modelo de recibo | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
recibo pré-configurado |
O Document Intelligence v3.1 suporta as seguintes ferramentas, aplicações e bibliotecas:
| Destaque | Recursos | ID do modelo |
|---|---|---|
| Modelo de recibo | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
recibo pré-configurado |
O Document Intelligence v3.0 suporta as seguintes ferramentas, aplicações e bibliotecas:
| Destaque | Recursos | ID do modelo |
|---|---|---|
| Modelo de recibo | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
recibo pré-fabricado |
O Document Intelligence v2.1 suporta as seguintes ferramentas, aplicações e bibliotecas:
| Destaque | Recursos |
|---|---|
| Modelo de recibo | • Ferramenta de • REST API • SDK de cliente de biblioteca • contentor Document Intelligence Docker |
Requisitos de entrada
São suportados os seguintes formatos de ficheiro.
| Modelo | Imagem: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Leia | ✔ | ✔ | ✔ |
| Disposição | ✔ | ✔ | ✔ |
| Documento geral | ✔ | ✔ | |
| Pré-fabricado | ✔ | ✔ | |
| Extração personalizada | ✔ | ✔ | |
| Classificação personalizada | ✔ | ✔ | ✔ |
- Fotografias e digitalizações: Para melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
- PDFs e TIFFs: Para PDFs e TIFFs, podem ser processadas até 2.000 páginas. (Com uma subscrição gratuita, apenas as duas primeiras páginas são processadas.)
- Tamanho do ficheiro: O tamanho do ficheiro para análise de documentos é de 500 MB para o nível pago (S0) e 4 MB para o nível gratuito (F0).
- Dimensões da imagem: As dimensões devem estar entre 50 pixels x 50 píxeis e 10.000 píxeis x 10.000 píxeis.
- Bloqueios por palavra-passe: Se os seus PDFs estiverem bloqueados por palavra-passe, deve remover o bloqueio antes da submissão.
- Altura do texto: A altura mínima do texto a extrair é de 12 píxeis para uma imagem de 1024 x 768 píxeis. Esta dimensão corresponde a cerca de texto de 8 pontos a 150 pontos por polegada.
- Treino de modelos personalizados: O número máximo de páginas para dados de treino é 500 para o modelo modelo personalizado e 50.000 para o modelo neural personalizado.
- Treino personalizado do modelo de extração: O tamanho total dos dados de treino é de 50 MB para o modelo modelo e 1 GB para o modelo neural.
- Treino personalizado do modelo de classificação: O tamanho total dos dados de treino é de 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treino é de 2 GB com um máximo de 10.000 páginas.
- Tipos de ficheiros Office (DOCX, XLSX, PPTX): O limite máximo de comprimento de string é de 8 milhões de caracteres.
- Formatos de ficheiro suportados: JPEG, PNG, PDF e TIFF.
- Limite de página suportado para PDF e TIFF: A Inteligência de Documentos pode processar até 2.000 páginas para subscritores de nível padrão ou apenas as duas primeiras páginas para subscritores de nível gratuito.
- Tamanho do ficheiro suportado: menos de 50 MB; píxeis mínimos 50 x 50 px; píxeis máximos 10.000 x 10.000 px.
Extração de dados do modelo de receção
Veja como a Document Intelligence extrai dados, incluindo data e hora das transações, informações dos comerciantes e totais de montantes dos recibos. Precisa dos seguintes recursos:
Uma subscrição Azure — pode criar uma gratuitamente.
Uma instância Document Intelligence no portal Azure. Pode usar o escalão de preços gratuito (
F0) para experimentar o serviço. Depois de o seu recurso ser implementado, selecione Ir para o recurso para obter a sua chave e endpoint.
Nota
O Document Intelligence Studio está disponível com APIs v3.1 e v3.0 e versões posteriores.
Na página inicial do Document Intelligence Studio, selecione Recibos.
Pode analisar o recibo de exemplo ou carregar os seus próprios ficheiros.
Selecione o botão Executar análise e, se necessário, configure as opções Analisar:
Ferramenta de Rotulagem de Amostras para Inteligência de Documentos
Navegue para a Ferramenta de Exemplo de Inteligência Documental.
Na página inicial da ferramenta de exemplo, selecione o bloco Usar modelo pré-definido para obter dados.
Selecione o Tipo de Formulário para analisar no menu suspenso.
Escolha uma URL para o ficheiro que gostaria de analisar a partir das opções abaixo:
No campo Fonte , selecione URL no menu suspenso, cole o URL selecionado e selecione o botão Buscar .
No campo endpoint do serviço Document Intelligence , cole o endpoint que obteve com a sua subscrição Document Intelligence.
No campo-chave , cole a chave que obteve do seu recurso de Inteligência Documental.
Selecione Executar análise. A ferramenta Document Intelligence Sample Labeling chama a API Analyze Prebuilt e analisa o documento.
Veja os resultados – veja os pares-chave-valor extraídos, itens de linha, texto destacado extraído e tabelas detetadas.
Nota
A ferramenta de Rotulagem de Exemplos não suporta o formato de ficheiro BMP. Isto é uma limitação da ferramenta, não do Serviço de Inteligência Documental.
Línguas e locais suportados
Para uma lista completa de linguagens suportadas, consulte a nossa página de suporte a linguagens modelos pré-construídas .
Extração de campo
Para campos de extração de documentos suportados, consulte a página do modelo de recibo no nosso GitHub de repositório de exemplos.
| Nome | Tipo | Descrição | Saída padronizada |
|---|---|---|---|
| Tipo de Recibo | Corda | Tipo de recibo de venda | Listados |
| Nome Comercial | Corda | Nome do comerciante que emitiu o recibo | |
| Número de Telefone do Comerciante | Número de telefone | Número de telefone listado do comerciante | +1 xxx xxx xxxx |
| Morada do Comerciante | Corda | Morada registada do comerciante | |
| Data da Transação | Data | Data da emissão do recibo | yyyy-mm-dd |
| TransactionTime | Tempo | Hora em que o recibo foi emitido | hh-mm-ss (24 horas) |
| Total | Número (USD) | Total da transação do recibo | Flutuador de dois decimais |
| Subtotal | Número (USD) | Subtotal da receita, muitas vezes antes da aplicação dos impostos | Flutuador de dois decimais |
| Fiscalidade | Número (USD) | Imposto total sobre a receita (frequentemente imposto sobre vendas, ou equivalente). Renomeado para "TotalTax" na versão de 30-06-2022. | Flutuador de dois decimais |
| Dica | Número (USD) | Gorjeta incluída pelo comprador | Flutuador de dois decimais |
| Itens | Array de objetos | Itens extraídos, com nome, quantidade, preço unitário e preço total extraído | |
| Nome | Corda | Descrição do item. Renomeado para "Descrição" na versão de 30/06/2022. | |
| Quantidade | Número | Quantidade de cada item | Flutuador de dois decimais |
| Preço | Número | Preço individual de cada unidade de item | Flutuador de dois decimais |
| Preço Total | Número | Preço total do item | Flutuador de dois decimais |
Guia de migração e API REST v3.1
- Siga o nosso guia de migração Document Intelligence v3.1 para aprender a usar a versão v3.1 nas suas aplicações e fluxos de trabalho.
Próximos passos
Tente processar os seus próprios formulários e documentos com o Document Intelligence Studio.
Complete um guia de introdução à Inteligência Documental e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.
Tente processar os seus próprios formulários e documentos com a ferramenta Document Intelligence Sample Labeling.
Complete um guia de introdução à Inteligência Documental e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.