Modelos personalizados do Document Intelligence

Este conteúdo se aplica a:checkmarkv4.0 (GA) | Versões anteriores:blue-checkmarkv3.1 (GA)red-checkmarkv3.0 (desativação)red-checkmarkv2.1 (desativação)

Este conteúdo se aplica a:checkmarkv3.1 (GA) | Versão mais recente:purple-checkmarkv4.0 (GA) | Versões anteriores:blue-checkmarkv3.0blue-checkmarkv2.1

Este conteúdo se aplica a:marca de seleção vermelhav3.0 (descontinuada) | Versões mais recentes:marca de seleção púrpurav4.0 (GA)marca de seleção púrpurav3.1 | Versão anterior:marca de seleção azulv2.1 (descontinuada)

Esse conteúdo se aplica a:red-checkmarkv2.1 | Versão mais recente:blue-checkmarkv4.0 (GA)

O Document Intelligence usa tecnologia avançada de machine learning para identificar documentos, detectar e extrair informações de formulários e documentos e retornar os dados extraídos em uma saída JSON estruturada. Com o Document Intelligence, você pode usar modelos de análise de documentos, pré-criados/pré-treinados ou seus modelos personalizados autônomos treinados.

Os modelos personalizados agora incluem modelos de classificação personalizados para cenários em que você precisa identificar o tipo de documento antes de invocar o modelo de extração. Os modelos de classificador estão disponíveis a partir da 2023-07-31 (GA) API. Um modelo de classificação pode ser emparelhado com um modelo de extração personalizado para analisar e extrair campos de formulários e documentos específicos para sua empresa. Modelos autônomos de extração personalizada podem ser combinados para criar modelos compostos.

Tipos de modelo de documento personalizado

Modelos de documentos personalizados podem ser de dois tipos: modelo personalizado ou formulário personalizado e modelo neural personalizado ou modelo de documento personalizado. O processo de rotulagem e treinamento para ambos os modelos é idêntico, mas os modelos diferem da seguinte maneira:

Modelos de extração personalizados

Para criar um modelo de extração personalizado, rotule um conjunto de dados de documentos com os valores que você deseja extrair e treine o modelo no conjunto de dados rotulado. Você só precisa de cinco exemplos do mesmo formulário ou tipo de documento para começar.

Modelo neural personalizado

Importante

A API do Document Intelligence v4.0 2024-11-30 (GA) oferece suporte a modelo neural personalizado para campos sobrepostos, detecção de assinatura e confiança no nível de tabela, linha e célula.

O modelo neural personalizado (documento personalizado) usa modelos de aprendizado profundo e modelo base treinados em uma grande coleção de documentos. Esse modelo é ajustado ou adaptado aos seus dados quando você treina o modelo com um conjunto de dados rotulado. Os modelos neurais personalizados dão suporte à extração de campos de dados chave de documentos estruturados, semiestruturados e não estruturados. Quando você estiver escolhendo entre os dois tipos de modelo, comece com um modelo neural para determinar se ele atende às suas necessidades funcionais. Com a V4.0, o modelo neural personalizado dá suporte à detecção de assinatura, à confiança da tabela e aos campos sobrepostos. Consulte modelos neurais para saber mais sobre modelos de documentos personalizados.

Modelo personalizado

O modelo personalizado ou modelo de formulário personalizado depende de um modelo visual consistente para extrair os dados rotulados. As variações na estrutura visual de seus documentos afetam a precisão do modelo. Formulários estruturados, como questionários ou aplicativos, são exemplos de modelos visuais consistentes.

Seu conjunto de treinamento consiste em documentos estruturados em que a formatação e o layout são estáticos e constantes de uma instância de documento para a próxima. Os modelos personalizados dão suporte a pares chave-valor, marcas de seleção, tabelas, campos de assinatura e regiões. Modelos de template e podem ser treinados em documentos em todos os idiomas compatíveis. Para obter mais informações, consultemodelos de templates personalizados.

Se a linguagem dos seus documentos e dos cenários de extração for compatível com modelos neurais personalizados, recomendamos que você use modelos neurais personalizados em vez de modelos de template para maior precisão.

Dica

Para confirmar se os documentos de treinamento apresentam um modelo visual consistente, remova todos os dados inseridos pelo usuário de cada formulário no conjunto. Se os formulários em branco forem idênticos na aparência, eles representarão um modelo visual consistente.

Para obter mais informações, consulteInterpretar e melhorar a precisão e a confiança para modelos personalizados.

Requisitos de entrada

  • Para obter melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade para cada documento.

  • Formatos de arquivo com suporte:

    Modelo PDF Image,:
    jpeg/jpg, png, bmp, tiff, heif
    Microsoft Office:
    Word (docx), Excel (xlsx), PowerPoint (pptx)
    Ler
    Layout
    Documento Geral
    Pré-construídos
    Extração personalizada
    Classificação personalizada

    ✱ atualmente, não há suporte para arquivos Microsoft Office para outros modelos ou versões.

  • Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de camada gratuita, apenas as duas primeiras páginas são processadas).

  • O tamanho do arquivo para analisar documentos é 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).

  • As dimensões de imagem devem ter entre 50 x 50 pixels e 10.000 pixels x 10.000 pixels.

  • Se seus PDFs estiverem bloqueados por senha, você deverá remover o bloqueio antes do envio.

  • A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Essa dimensão corresponde a cerca de 8 pontos de texto a 150 dpi.

  • Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.

  • Para o treinamento personalizado do modelo de extração, o tamanho total dos dados de treinamento é 50 MB para o modelo de template e 1 GB para o modelo neural.

  • Para treinamento de modelo de classificação personalizada, o tamanho total dos dados de treinamento é 1 GB de no máximo 10.000 páginas.

Dados de treinamento ideais

Os dados de entrada de treinamento são a base de qualquer modelo de machine learning. Ele determina a qualidade, a precisão e o desempenho do modelo. Portanto, é crucial criar os melhores dados de entrada de treinamento possíveis para seu projeto do Document Intelligence. Ao usar o modelo personalizado do Document Intelligence, você fornece seus próprios dados de treinamento. Aqui estão algumas dicas para ajudar a treinar seus modelos efetivamente:

  • Use PDFs baseados em texto em vez de PDFs baseados em imagem, quando possível. Uma maneira de identificar um PDF baseado em imagem*é tentar selecionar um texto específico no documento. Se você puder selecionar apenas a imagem inteira do texto, o documento será baseado em imagem, não em texto.

  • Organize seus documentos de treinamento usando uma subpasta para cada formato (JPEG/JPG, PNG, BMP, PDF ou TIFF).

  • Use formulários que tenham todos os campos disponíveis concluídos.

  • Use formulários com valores diferentes em cada campo.

  • Use um conjunto de dados maior (mais de cinco documentos de treinamento) se suas imagens forem de baixa qualidade.

  • Determine se você precisa usar um único modelo ou vários modelos compostos em um único modelo.

  • Considere segmentar seu conjunto de dados em pastas, em que cada pasta é um modelo exclusivo. Treine um modelo por pasta e componha os modelos resultantes em um único ponto de extremidade. A precisão do modelo pode diminuir quando você tem formatos diferentes analisados com um único modelo.

  • Considere segmentar seu conjunto de dados para treinar vários modelos se o formulário tiver variações com formatos e quebras de página. Os formulários personalizados dependem de um modelo visual consistente.

  • Verifique se você tem um conjunto de dados equilibrado contabilizando formatos, tipos de documento e estrutura.

Modo de compilação

A build custom model operação adiciona suporte para o template e para modelos personalizados de rede neural. As versões anteriores da API REST e das bibliotecas de cliente só dão suporte a um único modo de build que agora é conhecido como o modo de modelo .

  • Os modelos de modelo aceitam apenas documentos que têm a mesma estrutura de página básica — uma aparência visual uniforme — ou o mesmo posicionamento relativo de elementos dentro do documento.

  • Os modelos neurais dão suporte a documentos que têm as mesmas informações, mas estruturas de página diferentes. Exemplos desses documentos incluem formulários W2 dos Estados Unidos, que compartilham as mesmas informações, mas variam em aparência entre as empresas.

Esta tabela fornece links para as referências do SDK da linguagem de programação do modo de compilação e exemplos de código no GitHub:

Linguagem de programação Referência do SDK Exemplo de código
C#/.NET DocumentBuildMode Struct Sample_BuildCustomModelAsync
Java Classe DocumentBuildMode BuildDocumentModel
JavaScript Tipo DocumentBuildMode buildModel.js
Python Enum DocumentBuildMode

Comparar características do modelo

A tabela a seguir compara o modelo personalizado e os recursos neurais personalizados:

Recurso Modelo personalizado (formulário) Rede neural personalizada (documento)
Estrutura do documento Modelo, formulário e estrutura Estruturado, semiestruturado e não estruturado
Tempo de treinamento 1 a 5 minutos 30 minutos a 12 horas*
Extração de dados Pares chave-valor, tabelas, marcas de seleção, coordenadas e assinaturas Pares chave-valor, marcas de seleção e tabelas
Campos sobrepostos Sem suporte Suportado
Variações de documento Requer um modelo por cada variação Usa um único modelo para todas as variações
Suporte ao idioma Modelo personalizado de suporte à linguagem Suporte de idioma para rede neural personalizada

*-O tempo de treinamento padrão é de 30 minutos, ative o treinamento pago para treinar um modelo por mais de 30 minutos. Verificar mais detalhes em suporte de treinamento para redes neurais personalizadas

Modelo de classificação personalizada

A classificação de documentos é um novo cenário habilitado pelo Document Intelligence com a API 2023-07-31 (v3.1 GA). A API do classificador de documento dá suporte a cenários de classificação e divisão. Treine um modelo de classificação para identificar os diferentes tipos de documentos aos quais seu aplicativo dá suporte. O arquivo de entrada do modelo de classificação pode conter vários documentos e classifica cada documento dentro de um intervalo de páginas associado. Para saber mais, confira os modelos de classificação personalizados.

Nota

O v4.0 2024-11-30 (GA) modelo de classificação de documento dá suporte a tipos de documento do Office para classificação. Essa versão da API também apresenta o treinamento incremental para o modelo de classificação.

Ferramentas de modelo personalizadas

Os modelos de Informação de Documentos v3.1 e posteriores dão suporte às seguintes ferramentas, aplicativos e bibliotecas, programas e bibliotecas:

Recurso Recursos ID do modelo
Modelo personalizado Document Intelligence Studio
REST API
C# SDK
Python SDK
custom-model-id

Ciclo de vida do modelo personalizado

O ciclo de vida de um modelo personalizado depende da versão da API usada para treiná-lo. Se a versão da API for uma versão ga (disponibilidade geral), o modelo personalizado terá o mesmo ciclo de vida que essa versão. O modelo personalizado não está disponível para inferência quando a versão da API é preterida. Se a versão da API for uma versão prévia, o modelo personalizado terá o mesmo ciclo de vida que a versão prévia da API.

O Document Intelligence v2.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Nota

Os tipos de modelo de personalização neural e modelo personalizado estão disponíveis com as APIs de Informação de Documentos versão v3.1 e v3.0.

Recurso Recursos
Modelo personalizado Ferramenta de rotulagem do Document Intelligence
REST API
SDK do cliente
Contêiner do Docker do Document Intelligence

Criar um modelo personalizado

Extraia dados de seus documentos específicos ou exclusivos usando modelos personalizados. Você precisa dos seguintes recursos:

  • Uma assinatura Azure. Você pode criar um gratuitamente.

  • Uma instância do Document Intelligence no portal Azure. Você pode usar o tipo de preço gratuito (F0) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter a chave e o ponto de extremidade.

    Captura de tela que mostra as chaves e o local do ponto de extremidade no portal do Azure.

Ferramenta de rotulagem de exemplo

Dica

  • Para obter uma experiência aprimorada e qualidade avançada do modelo, experimente o Document Intelligence v3.0 Studio.
  • O Estúdio v3.0 dá suporte a qualquer modelo treinado usando os dados rotulados da versão v2.1.
  • Você pode consultar o guia de migração de API para obter informações detalhadas sobre como migrar da v2.1 para a v3.0.
  • Consulte nossa API REST ou C#, Java, JavaScript ou Python SDK em /quickstarts para começar com a versão v3.0.
  • A ferramenta de Rotulagem de Amostra de Informação de Documentos é uma ferramenta de código aberto que permite testar os recursos mais recentes da Informação de Documentos e os recursos de Reconhecimento Óptico de Caracteres (OCR).

  • Experimente o Guia de Início Rápido da Ferramenta de Rotulagem de Exemplos para começar a criar e usar um modelo personalizado.

Document Intelligence Studio

Nota

O Document Intelligence Studio está disponível com APIs v3.1 e v3.0.

  1. Na home page do Document Intelligence Studio , selecione modelos de extração personalizados.

  2. Em Meus Projetos, selecione Criar um projeto.

  3. Conclua os campos de detalhes do projeto.

  4. Configure o recurso de serviço adicionando sua conta de Armazenamento e o contêiner de Blob para conectar sua fonte de dados de treinamento.

  5. Examine e crie seu projeto.

  6. Adicione seus documentos de exemplo para rotular, compilar e testar seu modelo personalizado.

Para obter um passo a passo detalhado para criar seu primeiro modelo de extração personalizado, consulteComo criar um modelo de extração personalizado.

Resumo da extração de modelo personalizado

Esta tabela compara as áreas de extração de dados com suporte:

Modelo Campos de formulário Marcas de seleção Campos estruturados (tabelas) Assinatura Rotulagem de região Campos sobrepostos
Modelo personalizado n/a
Neural personalizado *

Símbolos de tabela:
✔ — Com suporte
**n/a— atualmente indisponível;
*-Comporta-se de forma diferente dependendo do modelo. Com modelos de template, dados sintéticos são gerados durante o treinamento. Com modelos neurais, o texto existente reconhecido na região é selecionado.

Dica

Para escolher entre os dois tipos de modelo, comece com um modelo neural personalizado se ele atender às suas necessidades funcionais. Consulte modelos neurais personalizados para saber mais sobre modelos neurais personalizados.

Opções de desenvolvimento de modelo personalizado

A tabela a seguir descreve os recursos disponíveis com as ferramentas e bibliotecas de cliente associadas. Como prática recomendada, certifique-se de usar as ferramentas compatíveis listadas aqui.

Tipo de documento API REST SDK Modelos de rótulo e teste
Modelo personalizado v 4.0 v3.1 v3.0 Document Intelligence 3.1 Document Intelligence SDK Document Intelligence Studio
Neural personalizado v4.0 v3.1 v3.0 Document Intelligence 3.1 Document Intelligence SDK Document Intelligence Studio
Formulário personalizado v2.1 Document Intelligence 2.1 GA API Document Intelligence SDK Ferramenta de rotulagem de exemplo

Nota

Os modelos de modelo personalizados treinados com a API 3.0 têm algumas melhorias em relação à API 2.1, decorrentes de melhorias no mecanismo OCR. Os conjuntos de dados usados para treinar um modelo de modelo personalizado usando a API 2.1 ainda podem ser usados para treinar um novo modelo usando a API 3.0.

  • Uma foto clara ou uma digitalização de alta qualidade deve ser fornecida por documento para obter melhores resultados.

  • Os formatos de arquivo com suporte são JPEG/JPG, PNG, BMP, TIFF e PDF (texto embutido ou digitalizados). PDFs inseridos em texto são melhores para eliminar a possibilidade de erro na extração e localização do caractere.

  • Arquivos PDF e TIFF, até 2.000 páginas, podem ser processados. Com um plano gratuito, somente as duas primeiras páginas são processadas.

  • O tamanho do arquivo deve ter menos de 500 MB para a camada S0 paga e 4 MB gratuitamente (F0).

  • As dimensões de imagem devem ter entre 50 x 50 pixels e 10.000 x 10.000 pixels.

  • As dimensões de PDF têm até 17 x 17 polegadas, correspondentes ao tamanho de papel Legal ou A3 ou menor.

  • O tamanho total dos dados de treinamento é de 500 páginas ou menos.

  • Os PDFs bloqueados por senha devem ter o bloqueio de senha removido antes do envio.

    Dica

    Dados de treinamento:

    • Se possível, use documentos PDF baseados em texto em vez de documentos baseados em imagem. PDFs digitalizados são tratados como imagens.
    • Forneça apenas uma única instância do formulário por documento.
    • Para formulários preenchidos, use exemplos que tenham todos os campos preenchidos.
    • Use formulários com valores diferentes em cada campo.
    • Se suas imagens de formulário forem de qualidade inferior, use um conjunto de dados maior. Por exemplo, use de 10 a 15 imagens.

Idiomas e localidades com suporte

Consulte nossa página Suporte ao Idioma — modelos personalizados para obter uma lista completa de idiomas com suporte.

Próximas etapas