Modelo de fatura de Inteligência de Documentos

Este conteúdo aplica-se a:checkmarkv4.0 (GA) | Versões anteriores:blue-checkmarkv3.1 (GA)red-checkmarkv3.0 (em retirada)red-checkmarkv2.1 (em retirada)

::: fim do moniker

Este conteúdo aplica-se a:marca de verificaçãov3.1 (GA) | Última versão:marca de verificação roxav4.0 (GA) | Versões anteriores:marca de verificação azulv3.0marca de verificação azulv2.1

Este conteúdo aplica-se a:red-checkmarkv3.0 (em descontinuação) | Últimas versões:purple-checkmarkv4.0 (GA)purple-checkmarkv3.1 | Versão anterior:blue-checkmarkv2.1 (em descontinuação)

Este conteúdo aplica-se a:red-checkmarkv2.1 | Última versão:blue-checkmarkv4.0 (GA)

O modelo de faturação Document Intelligence utiliza poderosas capacidades de Reconhecimento Óptico de Caracteres (OCR) para analisar e extrair campos-chave e itens de linha de faturas de venda, faturas de serviços públicos e ordens de compra. As faturas podem ser de vários formatos e qualidades, incluindo imagens captadas por telemóvel, documentos digitalizados e PDFs digitais. A API analisa o texto das faturas; extrai informações-chave como nome do cliente, morada de faturação, data de vencimento e montante a dezer; e retorna uma representação estruturada de dados JSON. Atualmente, o modelo suporta faturas em 27 idiomas.

Tipos de documentos suportados:

  • Faturas
  • Faturas de serviços públicos
  • Ordens de venda
  • Ordens de compra

Processamento automatizado de faturas

O processamento automatizado de faturas é o processo de extração de campos-chave accounts payable dos documentos da conta de faturação. Os dados extraídos incluem linhas de itens de faturas, que estão integradas nos seus fluxos de trabalho de contas a pagar (AP) para análise e pagamentos. Historicamente, o processo de contas a pagar é realizado manualmente e, por isso, muito demorado. A extração precisa de dados chave das faturas é tipicamente a primeira e uma das etapas mais críticas no processo de automação de faturas.

Exemplo de fatura processada com o Document Intelligence Studio:

Captura de ecrã de uma fatura de exemplo analisada no Document Intelligence Studio.

Exemplo de fatura processada com a ferramenta de Etiquetagem de Exemplo de Inteligência Documental:

Captura de ecrã de uma fatura modelo.

Opções de desenvolvimento

Document Intelligence v4.0: 2024-11-30 (GA) suporta as seguintes ferramentas, aplicações e bibliotecas:

Destaque Recursos ID do modelo
Modelo de fatura Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
Fatura pré-formatada

O Document Intelligence v3.1 suporta as seguintes ferramentas, aplicações e bibliotecas:

Destaque Recursos ID do modelo
Modelo de fatura Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
Fatura pré-definida

O Document Intelligence v3.0 suporta as seguintes ferramentas, aplicações e bibliotecas:

Destaque Recursos ID do modelo
Modelo de fatura Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
Fatura pré-configurada

O Document Intelligence v2.1 suporta as seguintes ferramentas, aplicações e bibliotecas:

Destaque Recursos
Modelo de fatura • Ferramenta de
REST API
SDK
de cliente de biblioteca • contentor Document Intelligence Docker

Requisitos de entrada

São suportados os seguintes formatos de ficheiro.

Modelo PDF Imagem:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Leia
Disposição
Documento geral
Pré-fabricado
Extração personalizada
Classificação personalizada
  • Fotografias e digitalizações: Para melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
  • PDFs e TIFFs: Para PDFs e TIFFs, podem ser processadas até 2.000 páginas. (Com uma subscrição gratuita, apenas as duas primeiras páginas são processadas.)
  • Tamanho do ficheiro: O tamanho do ficheiro para análise de documentos é de 500 MB para o nível pago (S0) e 4 MB para o nível gratuito (F0).
  • Dimensões da imagem: As dimensões devem estar entre 50 pixels x 50 píxeis e 10.000 píxeis x 10.000 píxeis.
  • Bloqueios por palavra-passe: Se os seus PDFs estiverem bloqueados por palavra-passe, deve remover o bloqueio antes da submissão.
  • Altura do texto: A altura mínima do texto a extrair é de 12 píxeis para uma imagem de 1024 x 768 píxeis. Esta dimensão corresponde a cerca de texto de 8 pontos a 150 pontos por polegada.
  • Treino de modelos personalizados: O número máximo de páginas para dados de treino é 500 para o modelo modelo personalizado e 50.000 para o modelo neural personalizado.
  • Treino personalizado do modelo de extração: O tamanho total dos dados de treino é de 50 MB para o modelo modelo e 1 GB para o modelo neural.
  • Treino personalizado do modelo de classificação: O tamanho total dos dados de treino é de 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treino é de 2 GB com um máximo de 10.000 páginas.
  • Tipos de ficheiros Office (DOCX, XLSX, PPTX): O limite máximo de comprimento de string é de 8 milhões de caracteres.
  • Formatos de ficheiro suportados: JPEG, PNG, PDF e TIFF.
  • Formatos suportados: PDF e TIFF, até 2.000 páginas são processadas. Para subscritores da franquia gratuita, apenas as duas primeiras páginas são processadas.
  • O tamanho do ficheiro suportado deve ser inferior a 50 MB e as dimensões devem ser pelo menos 50 x 50 píxeis, e no máximo 10.000 x 10.000 píxeis.

Extração de dados do modelo de fatura

Veja como os dados, incluindo informações do cliente, detalhes do fornecedor e itens de linha, são extraídos das faturas. Precisa dos seguintes recursos:

  • Uma subscrição Azure — pode criar uma gratuitamente.

  • Uma instância Document Intelligence no portal Azure. Pode usar o escalão de preços gratuito (F0) para experimentar o serviço. Depois de o seu recurso ser implementado, selecione Ir para o recurso para obter a sua chave e endpoint.

Captura de ecrã das chaves e localização do endpoint no portal Azure.

  1. Na página inicial do Document Intelligence Studio, selecione Faturas.

  2. Pode analisar a fatura modelo ou carregar os seus próprios ficheiros.

  3. Selecione o botão Executar análise e, se necessário, configure as opções Analisar :

    Captura de ecrã dos botões Executar análise e Analisar opções no Document Intelligence Studio.

Ferramenta de Rotulagem de Amostras para Inteligência de Documentos

  1. Navegue para a Ferramenta de Exemplo de Inteligência Documental.

  2. Na página inicial da ferramenta de exemplo, selecione o bloco Usar modelo pré-definido para obter dados.

    Captura de ecrã do processo de análise dos resultados do modelo de layout.

  3. Selecione o Tipo de Formulário para analisar no menu suspenso.

  4. Escolha uma URL para o ficheiro que gostaria de analisar a partir das opções abaixo:

  5. No campo Fonte , selecione URL no menu suspenso, cole o URL selecionado e selecione o botão Buscar .

    Captura de ecrã do menu suspenso da localização da origem.

  6. No campo endpoint do serviço Document Intelligence , cole o endpoint que obteve com a sua subscrição Document Intelligence.

  7. No campo-chave , cole a chave que obteve do seu recurso de Inteligência Documental.

    Captura de ecrã a mostrar o menu suspenso de seleção do tipo de formulário.

  8. Selecione Executar análise. A ferramenta Document Intelligence Sample Labeling chama a API Analyze Prebuilt e analisa o documento.

  9. Veja os resultados – veja os pares-chave-valor extraídos, itens de linha, texto destacado extraído e tabelas detetadas.

    Captura de ecrã dos resultados da operação de análise do modelo de layout.

Nota

A ferramenta de Rotulagem de Exemplos não suporta o formato de ficheiro BMP. Isto é uma limitação da ferramenta, não do Serviço de Inteligência Documental.

Línguas e locais suportados

Para uma lista completa de linguagens suportadas, consulte a nossa página de suporte a linguagens modelo pré-construídas .

Extração de campo

  • Para campos de extração de documentos suportados, veja a página bill model schema no nosso repositório de exemplos de GitHub.

  • Os pares chave-valor da fatura e os itens de linha extraídos encontram-se na seção documentResults da saída JSON.

Os pares chave-valor

O modelo de fatura pré-configurado suporta o retorno opcional de pares chave-valor. Por padrão, a devolução dos pares chave-valor está desativada. Pares chave-valor são intervalos específicos dentro da fatura que identificam uma etiqueta ou chave e a sua resposta ou valor associado. Numa fatura, esses pares podem ser a etiqueta e o valor que o utilizador introduziu para esse campo ou número de telefone. O modelo de IA é treinado para extrair chaves e valores identificáveis com base numa grande variedade de tipos, formatos e estruturas de documentos.

As chaves também podem existir isoladamente quando o modelo deteta a existência de uma chave, sem valor associado ou ao processar campos opcionais. Por exemplo, um campo do nome do meio pode ficar em branco num formulário em algumas ocasiões. Pares de chave-valor são sempre trechos de texto contidos no documento. Para documentos onde o mesmo valor é descrito de formas diferentes, por exemplo, cliente/utilizador, a chave associada é cliente ou utilizador (com base no contexto).

Saída JSON

A saída JSON tem três partes:

  • "readResults" O nó contém todo o texto reconhecido e todas as marcas de seleção. O texto está organizado por página, depois por linha, depois por palavras individuais.
  • "pageResults" nó contém as tabelas e células extraídas com caixas delimitadoras, nível de confiança, e uma referência às linhas e palavras em readResults.
  • "documentResults" O nó contém os valores e linhas específicos da fatura que o modelo descobriu. É onde se encontram todos os campos da fatura, como ID da fatura, destinatário, remetente, cliente, total, linhas de itens e muito mais.

Guia de migração

::: fim do moniker

Próximos passos