Modelo de fatura de Inteligência de Documentos

Este conteúdo aplica-se a:v4.0 (GA) | Versões anteriores:v3.1 (GA)v3.0 (em retirada)v2.1 (em retirada)

::: fim do moniker

Este conteúdo aplica-se a:v3.1 (GA) | Última versão:v4.0 (GA) | Versões anteriores:v3.0v2.1

Este conteúdo aplica-se a:v3.0 (em descontinuação) | Últimas versões:v4.0 (GA)v3.1 | Versão anterior:v2.1 (em descontinuação)

Este conteúdo aplica-se a:v2.1 | Última versão:v4.0 (GA)

O modelo de faturação Document Intelligence utiliza poderosas capacidades de Reconhecimento Óptico de Caracteres (OCR) para analisar e extrair campos-chave e itens de linha de faturas de venda, faturas de serviços públicos e ordens de compra. As faturas podem ser de vários formatos e qualidades, incluindo imagens captadas por telemóvel, documentos digitalizados e PDFs digitais. A API analisa o texto das faturas; extrai informações-chave como nome do cliente, morada de faturação, data de vencimento e montante a dezer; e retorna uma representação estruturada de dados JSON. Atualmente, o modelo suporta faturas em 27 idiomas.

Tipos de documentos suportados:

Faturas
Faturas de serviços públicos
Ordens de venda
Ordens de compra

Processamento automatizado de faturas

O processamento automatizado de faturas é o processo de extração de campos-chave accounts payable dos documentos da conta de faturação. Os dados extraídos incluem linhas de itens de faturas, que estão integradas nos seus fluxos de trabalho de contas a pagar (AP) para análise e pagamentos. Historicamente, o processo de contas a pagar é realizado manualmente e, por isso, muito demorado. A extração precisa de dados chave das faturas é tipicamente a primeira e uma das etapas mais críticas no processo de automação de faturas.

Exemplo de fatura processada com o Document Intelligence Studio:

Exemplo de fatura processada com a ferramenta de Etiquetagem de Exemplo de Inteligência Documental:

Captura de ecrã de uma fatura modelo.

Opções de desenvolvimento

Document Intelligence v4.0: 2024-11-30 (GA) suporta as seguintes ferramentas, aplicações e bibliotecas:

Destaque	Recursos	ID do modelo
Modelo de fatura	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	Fatura pré-formatada

O Document Intelligence v3.1 suporta as seguintes ferramentas, aplicações e bibliotecas:

Destaque	Recursos	ID do modelo
Modelo de fatura	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	Fatura pré-definida

O Document Intelligence v3.0 suporta as seguintes ferramentas, aplicações e bibliotecas:

Destaque	Recursos	ID do modelo
Modelo de fatura	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	Fatura pré-configurada

O Document Intelligence v2.1 suporta as seguintes ferramentas, aplicações e bibliotecas:

Destaque	Recursos
Modelo de fatura	• Ferramenta de • REST API • SDK de cliente de biblioteca • contentor Document Intelligence Docker

Requisitos de entrada

São suportados os seguintes formatos de ficheiro.

Modelo	PDF	Imagem: JPEG/JPG, PNG, BMP, TIFF, HEIF	Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Leia	✔	✔	✔
Disposição	✔	✔	✔
Documento geral	✔	✔
Pré-fabricado	✔	✔
Extração personalizada	✔	✔
Classificação personalizada	✔	✔	✔

Fotografias e digitalizações: Para melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
PDFs e TIFFs: Para PDFs e TIFFs, podem ser processadas até 2.000 páginas. (Com uma subscrição gratuita, apenas as duas primeiras páginas são processadas.)
Tamanho do ficheiro: O tamanho do ficheiro para análise de documentos é de 500 MB para o nível pago (S0) e 4 MB para o nível gratuito (F0).
Dimensões da imagem: As dimensões devem estar entre 50 pixels x 50 píxeis e 10.000 píxeis x 10.000 píxeis.
Bloqueios por palavra-passe: Se os seus PDFs estiverem bloqueados por palavra-passe, deve remover o bloqueio antes da submissão.
Altura do texto: A altura mínima do texto a extrair é de 12 píxeis para uma imagem de 1024 x 768 píxeis. Esta dimensão corresponde a cerca de texto de 8 pontos a 150 pontos por polegada.
Treino de modelos personalizados: O número máximo de páginas para dados de treino é 500 para o modelo modelo personalizado e 50.000 para o modelo neural personalizado.
Treino personalizado do modelo de extração: O tamanho total dos dados de treino é de 50 MB para o modelo modelo e 1 GB para o modelo neural.
Treino personalizado do modelo de classificação: O tamanho total dos dados de treino é de 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treino é de 2 GB com um máximo de 10.000 páginas.
Tipos de ficheiros Office (DOCX, XLSX, PPTX): O limite máximo de comprimento de string é de 8 milhões de caracteres.

Formatos de ficheiro suportados: JPEG, PNG, PDF e TIFF.
Formatos suportados: PDF e TIFF, até 2.000 páginas são processadas. Para subscritores da franquia gratuita, apenas as duas primeiras páginas são processadas.
O tamanho do ficheiro suportado deve ser inferior a 50 MB e as dimensões devem ser pelo menos 50 x 50 píxeis, e no máximo 10.000 x 10.000 píxeis.

Extração de dados do modelo de fatura

Veja como os dados, incluindo informações do cliente, detalhes do fornecedor e itens de linha, são extraídos das faturas. Precisa dos seguintes recursos:

Uma subscrição Azure — pode criar uma gratuitamente.
Uma instância Document Intelligence no portal Azure. Pode usar o escalão de preços gratuito (F0) para experimentar o serviço. Depois de o seu recurso ser implementado, selecione Ir para o recurso para obter a sua chave e endpoint.

Captura de ecrã das chaves e localização do endpoint no portal Azure.

Na página inicial do Document Intelligence Studio, selecione Faturas.
Pode analisar a fatura modelo ou carregar os seus próprios ficheiros.
Selecione o botão Executar análise e, se necessário, configure as opções Analisar :

Experimente o Document Intelligence Studio

Ferramenta de Rotulagem de Amostras para Inteligência de Documentos

Navegue para a Ferramenta de Exemplo de Inteligência Documental.
Na página inicial da ferramenta de exemplo, selecione o bloco Usar modelo pré-definido para obter dados.
Selecione o Tipo de Formulário para analisar no menu suspenso.
Escolha uma URL para o ficheiro que gostaria de analisar a partir das opções abaixo:
No campo Fonte , selecione URL no menu suspenso, cole o URL selecionado e selecione o botão Buscar .
No campo endpoint do serviço Document Intelligence , cole o endpoint que obteve com a sua subscrição Document Intelligence.
No campo-chave , cole a chave que obteve do seu recurso de Inteligência Documental.
Selecione Executar análise. A ferramenta Document Intelligence Sample Labeling chama a API Analyze Prebuilt e analisa o documento.
Veja os resultados – veja os pares-chave-valor extraídos, itens de linha, texto destacado extraído e tabelas detetadas.

Nota

A ferramenta de Rotulagem de Exemplos não suporta o formato de ficheiro BMP. Isto é uma limitação da ferramenta, não do Serviço de Inteligência Documental.

Línguas e locais suportados

Para uma lista completa de linguagens suportadas, consulte a nossa página de suporte a linguagens modelo pré-construídas .

Extração de campo

Para campos de extração de documentos suportados, veja a página bill model schema no nosso repositório de exemplos de GitHub.
Os pares chave-valor da fatura e os itens de linha extraídos encontram-se na seção documentResults da saída JSON.

Os pares chave-valor

O modelo de fatura pré-configurado suporta o retorno opcional de pares chave-valor. Por padrão, a devolução dos pares chave-valor está desativada. Pares chave-valor são intervalos específicos dentro da fatura que identificam uma etiqueta ou chave e a sua resposta ou valor associado. Numa fatura, esses pares podem ser a etiqueta e o valor que o utilizador introduziu para esse campo ou número de telefone. O modelo de IA é treinado para extrair chaves e valores identificáveis com base numa grande variedade de tipos, formatos e estruturas de documentos.

As chaves também podem existir isoladamente quando o modelo deteta a existência de uma chave, sem valor associado ou ao processar campos opcionais. Por exemplo, um campo do nome do meio pode ficar em branco num formulário em algumas ocasiões. Pares de chave-valor são sempre trechos de texto contidos no documento. Para documentos onde o mesmo valor é descrito de formas diferentes, por exemplo, cliente/utilizador, a chave associada é cliente ou utilizador (com base no contexto).

Saída JSON

A saída JSON tem três partes:

"readResults" O nó contém todo o texto reconhecido e todas as marcas de seleção. O texto está organizado por página, depois por linha, depois por palavras individuais.
"pageResults" nó contém as tabelas e células extraídas com caixas delimitadoras, nível de confiança, e uma referência às linhas e palavras em readResults.
"documentResults" O nó contém os valores e linhas específicos da fatura que o modelo descobriu. É onde se encontram todos os campos da fatura, como ID da fatura, destinatário, remetente, cliente, total, linhas de itens e muito mais.

Guia de migração

Siga o nosso guia de migração Document Intelligence v3.1 para aprender a usar a versão v3.0 nas suas aplicações e fluxos de trabalho.