Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este conteúdo se aplica a:
v4.0 (GA) | Versões anteriores:
v3.1 (GA)
v3.0 (desativação)
v2.1 (desativação)
::: moniker-end
Este conteúdo se aplica a:
v3.0 (desativação) | Versões mais recentes:
v4.0 (GA)
v3.1 | Versão anterior:
v2.1 (desativação)
Esse conteúdo se aplica a:
v2.1 | Versão mais recente:
v4.0 (GA)
O modelo de fatura do Document Intelligence usa recursos avançados de OCR (Reconhecimento Óptico de Caracteres) para analisar e extrair campos de chave e itens de linha de faturas de vendas, contas de serviços públicos e pedidos de compra. As faturas podem ser de vários formatos e qualidade, incluindo imagens capturadas por telefone, documentos verificados e PDFs digitais. A API analisa o texto da fatura; extrai informações importantes, como nome do cliente, endereço de cobrança, data de conclusão e valor devido; e retorna uma representação de dados JSON estruturada. Atualmente, o modelo dá suporte a faturas em 27 idiomas.
Tipos de documento com suporte:
- Facturas
- Contas de serviços públicos
- Pedidos de vendas
- Pedidos de Compra
Processamento automatizado de faturas
O processamento automatizado de faturas é o processo de extração de campos de chave accounts payable de documentos de conta de cobrança. Os dados extraídos incluem itens de linha de faturas integradas aos fluxos de trabalho ap (contas a pagar) para revisões e pagamentos. Historicamente, o processo de pagamento de contas é executado manualmente e, portanto, muito demorado. A extração precisa de dados importantes de faturas normalmente é a primeira e uma das etapas mais críticas no processo de automação da fatura.
Exemplo de fatura processada com o Document Intelligence Studio:
Exemplo de fatura processada com a ferramenta de rotulagem de exemplo do Document Intelligence:
Opções de desenvolvimento
O Document Intelligence v4.0: 2024-11-30 (GA) dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
| Recurso | Recursos | ID do modelo |
|---|---|---|
| Modelo de fatura | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
fatura predefinida |
O Document Intelligence v3.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
| Recurso | Recursos | ID do modelo |
|---|---|---|
| Modelo de fatura | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
fatura predefinida |
O Document Intelligence v3.0 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
| Recurso | Recursos | ID do modelo |
|---|---|---|
| Modelo de fatura | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
fatura predefinida |
O Document Intelligence v2.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:
| Recurso | Recursos |
|---|---|
| Modelo de fatura | • Ferramenta de rotulagem do • REST API • SDK da biblioteca cliente• Contêiner do Docker do Document Intelligence |
Requisitos de entrada
Há suporte para os seguintes formatos de arquivo.
| Modelo | Imagem: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Ler | ✔ | ✔ | ✔ |
| Layout | ✔ | ✔ | ✔ |
| Documento geral | ✔ | ✔ | |
| Pré-construídos | ✔ | ✔ | |
| Extração personalizada | ✔ | ✔ | |
| Classificação personalizada | ✔ | ✔ | ✔ |
- Fotos e verificações: para obter melhores resultados, forneça uma foto clara ou uma verificação de alta qualidade por documento.
- PDFs e TIFFs: para PDFs e TIFFs, até 2.000 páginas podem ser processadas. (Com uma assinatura de camada livre, somente as duas primeiras páginas são processadas.)
- Tamanho do arquivo: o tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
- Dimensões da imagem: as dimensões devem ter entre 50 pixels x 50 pixels e 10.000 pixels x 10.000 pixels.
- Bloqueios de senha: se os PDFs estiverem bloqueados por senha, você deverá remover o bloqueio antes do envio.
- Altura do texto: a altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Essa dimensão corresponde a cerca de 8 pontos de texto a 150 pontos por polegada.
- Treinamento de modelo personalizado: o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
- Treinamento personalizado do modelo de extração: o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1 GB para o modelo neural.
- Treinamento de modelo de classificação personalizada: o tamanho total dos dados de treinamento é de 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treinamento é de 2 GB com um máximo de 10.000 páginas.
- Tipos de arquivo do Office (DOCX, XLSX, PPTX): o limite máximo de comprimento da cadeia de caracteres é de 8 milhões de caracteres.
- Formatos de arquivo com suporte: JPEG, PNG, PDF e TIFF.
- Com suporte em PDF e TIFF, até 2.000 páginas são processadas. Para assinantes de camada gratuita, somente as duas primeiras páginas são processadas.
- O tamanho do arquivo com suporte deve ter menos de 50 MB e dimensões de pelo menos 50 x 50 pixels e no máximo 10.000 x 10.000 pixels.
Extração de dados do modelo de fatura
Veja como os dados, incluindo informações do cliente, detalhes do fornecedor e itens de linha, são extraídos de faturas. Você precisa dos seguintes recursos:
Uma assinatura Azure– você pode criar uma gratuitamente.
Uma instância do Document Intelligence no portal Azure. Você pode usar o tipo de preço gratuito (
F0) para experimentar o serviço. Após a implantação do recurso, selecione Ir para o recurso para obter sua chave e ponto de extremidade.
Na home page do Document Intelligence Studio, selecione Faturas.
Você pode analisar a fatura de exemplo ou carregar seus próprios arquivos.
Selecione o botão Executar análise e, se necessário, configure as opções Analisar :
Ferramenta de Rotulagem de Exemplos do Document Intelligence
Navegue até a Ferramenta de Amostra de Inteligência Documental.
Na home page da ferramenta de exemplo, selecione Usar modelo predefinido para obter o bloco de dados.
Selecione o Tipo de Formulário a ser analisado no menu dropdown.
Escolha uma URL para o arquivo que você deseja analisar nas opções abaixo:
No campo Origem , selecione URL no menu suspenso, cole a URL selecionada e selecione o botão Buscar .
No campo de endpoint do serviço Document Intelligence, cole o endpoint obtido com sua assinatura do Document Intelligence.
No campo chave, cole a chave obtida no recurso de Inteligência de Documento.
Selecione Executar análise. A ferramenta de Rotulagem de Exemplo para Inteligência de Documentos chama a API Predefinida de Análise e analisa o documento.
Exibir os resultados – consulte os pares chave-valor extraídos, itens de linha, texto realçado extraído e tabelas detectadas.
Nota
A ferramenta de rotulagem de amostra não dá suporte ao formato de arquivo BMP. Essa é uma limitação da ferramenta, não do Serviço de Inteligência de Documento.
Idiomas e localidades com suporte
Para obter uma lista completa de idiomas com suporte, consulte nossa página de suporte à linguagem de modelo predefinida .
Extração de campo
Para campos de extração de documentos com suporte, consulte a página invoice model schema no nosso repositório de exemplos no GitHub.
Os pares chave-valor da fatura e os itens de linha extraídos estão na
documentResultsseção da saída JSON.
Pares chave-valor
O modelo de fatura predefinido dá suporte ao retorno opcional de pares chave-valor. Por padrão, o retorno de pares chave-valor está desabilitado. Pares chave-valor são intervalos específicos na fatura que identificam um rótulo ou chave e sua resposta ou valor associados. Em uma fatura, esses pares podem ser o rótulo e o valor que o usuário inseriu para esse campo ou número de telefone. O modelo de IA é treinado para extrair chaves e valores identificáveis com base em uma ampla variedade de tipos de documentos, formatos e estruturas.
As chaves também podem existir isoladamente quando o modelo detecta que existe uma chave, sem valor associado ou ao processar campos opcionais. Por exemplo, um campo de nome do meio pode ser deixado em branco em um formulário em alguns casos. Pares chave-valor são sempre intervalos de texto contidos no documento. Para documentos em que o mesmo valor é descrito de maneiras diferentes, por exemplo, cliente/usuário, a chave associada é cliente ou usuário (com base no contexto).
Saída JSON
A saída JSON tem três partes:
-
"readResults"O nó contém todo o texto reconhecido e marcas de seleção. O texto é organizado por página, depois por linha e, em seguida, por palavras individuais. -
"pageResults"O nó contém as tabelas e células extraídas com suas caixas delimitadoras, confiança, assim como uma referência às linhas e palavras em readResults. -
"documentResults"O nó contém os valores específicos da fatura e os itens de linha que o modelo descobriu. É onde encontrar todos os campos da fatura, como ID da fatura, envio para, cobrança para, cliente, total, itens de linha e muito mais.
Guia de migração
- Siga nosso guia de migração do Document Intelligence v3.1 para saber como usar a versão v3.0 em seus aplicativos e fluxos de trabalho.
::: moniker-end
Próximas etapas
Tente processar seus próprios formulários e documentos com o Document Intelligence Studio.
Conclua um início rápido do Document Intelligence e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.
Tente processar seus próprios formulários e documentos com a ferramenta de rotulagem de exemplo do Document Intelligence.
Conclua um início rápido do Document Intelligence e comece a criar um aplicativo de processamento de documentos na linguagem de desenvolvimento de sua escolha.