Modelo de documento de identidade do Document Intelligence

Este conteúdo se aplica a:checkmarkv4.0 (GA) | Versões anteriores:blue-checkmarkv3.1 (GA)red-checkmarkv3.0 (desativação)red-checkmarkv2.1 (desativação)

::: moniker-end

Este conteúdo se aplica a:checkmarkv3.1 (GA) | Versão mais recente:purple-checkmarkv4.0 (GA) | Versões anteriores:blue-checkmarkv3.0blue-checkmarkv2.1

Este conteúdo se aplica a:red-checkmarkv3.0 (desativação) | Versões mais recentes:purple-checkmarkv4.0 (GA)purple-checkmarkv3.1 | Versão anterior:blue-checkmarkv2.1 (desativação)

Esse conteúdo se aplica a:red-checkmarkv2.1 | Versão mais recente:blue-checkmarkv4.0 (GA)

Nota

A API de Inteligência de Documentos v4.0 2024-11-30 (GA) para o modelo predefinido de documento de identidade agora dá suporte a documentos de identificação de todas as regiões do mundo, incluindo cobertura expandida na América do Norte, América do Sul, Ásia, Europa, África e Oceania.

O modelo de documento de identidade do Document Intelligence (ID) combina o OCR (Reconhecimento Óptico de Caracteres) com modelos de aprendizado profundo para analisar e extrair informações importantes de documentos de identidade. A API analisa documentos de identidade (incluindo os seguintes) e retorna uma representação de dados JSON estruturada.

Região Tipos de documento
Mundial Livro de passaportes, cartão de passaporte
Estados Unidos Carteira de Habilitação, Cartão de Identificação, Autorização de Residência (Green card), CPF, ID Militar
Índia Carteira de Habilitação, Cartão PAN, Cartão Aadhaar
Austrália Carteira de Habilitação, Cartão de Identificação com Foto, Passe de Acesso ou Identificação (incluindo versão digital)
Outros Carteira de Motorista, Cartão de Identificação, Autorização de Residência

O Document Intelligence pode analisar e extrair informações de IDs (documentos de identificação) emitidos pelo governo usando seu modelo de IDs predefinidos. Ele combina nossos poderosos recursos de OCR (Reconhecimento Óptico de Caracteres) com recursos de reconhecimento de ID para extrair informações importantes de Passaportes Mundiais e Carteiras de Motorista dos EUA (todos os 50 estados e D.C.). A API de IDs extrai informações importantes desses documentos de identidade, como nome, sobrenome, data de nascimento, número do documento e muito mais. Essa API está disponível no Document Intelligence v2.1 como um serviço de nuvem.

Processamento de documento de identidade

O processamento de documentos de identidade envolve a extração de dados de documentos de identidade manualmente ou usando a tecnologia baseada em OCR. O processamento de documentos de ID é uma etapa importante em qualquer operação de negócios que exija prova de identidade. Exemplos incluem verificação de clientes em bancos e outras instituições financeiras, aplicativos hipotecários, visitas médicas, processamento de declarações, setor de hospitalidade e muito mais. Os indivíduos fornecem alguma prova de sua identidade por meio de carteiras de motorista, passaportes e outros documentos semelhantes para que a empresa possa verificá-los com eficiência antes de fornecer serviços e benefícios.

Exemplo de Carteira de Habilitação dos EUA processada com o Document Intelligence Studio

Imagem de uma carteira de motorista de exemplo.

Extração de dados

O serviço de IDs predefinidas extrai os principais valores de passaportes de todo o mundo e carteiras de motorista dos EUA e os retorna em uma resposta JSON estruturada e organizada.

Exemplo de carteira de motorista

Exemplo de Carteira de Habilitação

Exemplo de passaporte

Passaporte de exemplo

Opções de desenvolvimento

O Document Intelligence v4.0: 2024-11-30 (GA) dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso Recursos ID do modelo
Modelo de documento de ID Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-idDocument

O Document Intelligence v3.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso Recursos ID do modelo
Modelo de documento de ID Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-idDocument

O Document Intelligence v3.0 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso Recursos ID do modelo
Modelo de documento de ID Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-idDocument

O Document Intelligence v2.1 dá suporte às seguintes ferramentas, aplicativos e bibliotecas:

Recurso Recursos
Modelo de documento de ID • Ferramenta de rotulagem do
REST API
• SDK da biblioteca cliente• Contêiner do Docker do Document Intelligence

Requisitos de entrada

Há suporte para os seguintes formatos de arquivo.

Modelo PDF Imagem:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Ler
Layout
Documento geral
Pré-construídos
Extração personalizada
Classificação personalizada
  • Fotos e verificações: para obter melhores resultados, forneça uma foto clara ou uma verificação de alta qualidade por documento.
  • PDFs e TIFFs: para PDFs e TIFFs, até 2.000 páginas podem ser processadas. (Com uma assinatura de camada livre, somente as duas primeiras páginas são processadas.)
  • Tamanho do arquivo: o tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
  • Dimensões da imagem: as dimensões devem ter entre 50 pixels x 50 pixels e 10.000 pixels x 10.000 pixels.
  • Bloqueios de senha: se os PDFs estiverem bloqueados por senha, você deverá remover o bloqueio antes do envio.
  • Altura do texto: a altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Essa dimensão corresponde a cerca de 8 pontos de texto a 150 pontos por polegada.
  • Treinamento de modelo personalizado: o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
  • Treinamento personalizado do modelo de extração: o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1 GB para o modelo neural.
  • Treinamento de modelo de classificação personalizada: o tamanho total dos dados de treinamento é de 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treinamento é de 2 GB com um máximo de 10.000 páginas.
  • Tipos de arquivo do Office (DOCX, XLSX, PPTX): o limite máximo de comprimento da cadeia de caracteres é de 8 milhões de caracteres.
  • Formatos de arquivo com suporte: JPEG, PNG, PDF e TIFF.

  • Número de páginas com suporte para arquivos PDF e TIFF: até 2.000 páginas ou apenas as duas primeiras páginas para assinantes de camada livre.

  • Tamanho do arquivo com suporte: menor que 50 MB TOTAL; pixels mínimos: 50 x 50 px; pixels máximos de 10.000 x 10.000 px.

Extração de dados do modelo de documento de ID

Extraia dados, incluindo nome, data de nascimento e data de validade, de documentos de ID. Você precisa dos seguintes recursos:

  • Uma assinatura Azure– você pode criar uma gratuitamente.

  • Uma instância do Document Intelligence no portal Azure. Você pode usar o tipo de preço gratuito (F0) para experimentar o serviço. Após a implantação do recurso, selecione Ir para o recurso para obter sua chave e ponto de extremidade.

Captura de tela de chaves e local do ponto de extremidade no portal do Azure.

Nota

O Document Intelligence Studio está disponível com APIs v3.1 e v3.0 e versões posteriores.

  1. Na home page do Document Intelligence Studio, selecione documentos de identidade.

  2. Você pode analisar a fatura de exemplo ou carregar seus próprios arquivos.

  3. Selecione o botão Executar análise e, se necessário, configure as opções Analisar:

    Captura de tela dos botões Executar análise e analisar opções no Document Intelligence Studio.

Ferramenta de Rotulagem de Exemplos do Document Intelligence

  1. Navegue até a Ferramenta de Amostra de Inteligência Documental.

  2. Na home page da ferramenta de exemplo, selecione Usar modelo predefinido para obter o bloco de dados.

    Captura de tela da operação de análise dos resultados do modelo de layout.

  3. Selecione o Tipo de Formulário a ser analisado no menu dropdown.

  4. Escolha uma URL para o arquivo que você deseja analisar nas opções abaixo:

  5. No campo Origem , selecione URL no menu suspenso, cole a URL selecionada e selecione o botão Buscar .

    Captura de tela do menu suspenso local de origem.

  6. No campo de endpoint do serviço Document Intelligence, cole o endpoint obtido com sua assinatura do Document Intelligence.

  7. No campo chave, cole a chave obtida no recurso de Inteligência de Documento.

    Captura de tela do menu suspenso para selecionar tipo de documento.

  8. Selecione Executar análise. A ferramenta de Rotulagem de Amostras da Inteligência de Documentos chama a API Predefinida de Análise e analisa o documento.

  9. Exibir os resultados – consulte os pares chave-valor extraídos, itens de linha, texto realçado extraído e tabelas detectadas.

    Captura de tela dos resultados da operação de análise do modelo de identidade.

  10. Baixe o arquivo de saída JSON para exibir os resultados detalhados.

    • O nó "readResults" contém cada linha de texto com seu respectivo posicionamento de caixa delimitadora na página.
    • O nó "selectionMarks" mostra cada marca de seleção (caixa de seleção, marca de rádio) e se seu status está selecionado ou não selecionado.
    • A seção "pageResults" inclui as tabelas extraídas. Para cada tabela, o Document Intelligence extrai o texto, índice de linha e coluna, extensão de linha e coluna, caixa delimitadora e muito mais.
    • O campo "documentResults" contém informações de pares chave/valor e informações de itens de linha para as partes mais relevantes do documento.

Nota

A ferramenta de rotulagem de exemplo não dá suporte ao formato de arquivo BMP. Essa restrição é uma limitação da ferramenta e não do Serviço de Inteligência de Documento.

Extrações de campo

Para campos de extração de documentos com suporte, consulte a página do esquema do modelo de documento de ID em nosso repositório de exemplo no GitHub.

Tipos de documento com suporte

O modelo de documento de ID atualmente dá suporte à extração de carteiras de motorista dos EUA e da página biográfica de passaportes internacionais, excluindo vistos e outros documentos de viagem.

Campos extraídos

Nome Tipo Descrição Valor
País País Código do país em conformidade com o padrão ISO 3166 "EUA"
DataDeNascimento Data Data de Nascimento no formato YYYY-MM-DD "1980-01-01"
DataDeExpiração Data Data de validade no formato YYYY-MM-DD "2019-05-05"
Número do Documento cadeia Número relevante do passaporte, número da carteira de motorista etc. "340020013"
Nome cadeia Nome fornecido extraído e inicial intermediária, se aplicável "JENNIFER"
Sobrenome cadeia Sobrenome extraído "BROOKS"
Nacionalidade País Código do país em conformidade com o padrão ISO 3166 "EUA"
Sexo Gênero Os valores possíveis extraídos incluem "M" "F" "X" "F"
Zona de Leitura por Máquina objeto Passaporte extraído MRZ incluindo duas linhas de 44 caracteres cada "P<USABROOKS<<JENNIFER<<<<<<<<<<<<<<<<<<<<<<< 3400200135USA8001014F1905054710000307<715816"
Documenttype cadeia Tipo de documento, por exemplo, Passport, Carteira de Habilitação passaporte
Endereço cadeia Endereço extraído (somente carteira de motorista) RUA 123, SUA CIDADE, WA 99999-1234
Região cadeia Região, estado, província extraída (somente CNH) "Washington"

Guia de migração

Próximas etapas