Modelo de documento de identidade da Inteligência de Documentos

Este conteúdo aplica-se a:checkmarkv4.0 (GA) | Versões anteriores:blue-checkmarkv3.1 (GA)red-checkmarkv3.0 (em retirada)red-checkmarkv2.1 (em retirada)

::: fim do moniker

Este conteúdo aplica-se a:marca de verificaçãov3.1 (GA) | Última versão:marca de verificação roxav4.0 (GA) | Versões anteriores:marca de verificação azulv3.0marca de verificação azulv2.1

Este conteúdo aplica-se a:red-checkmarkv3.0 (em descontinuação) | Últimas versões:purple-checkmarkv4.0 (GA)purple-checkmarkv3.1 | Versão anterior:blue-checkmarkv2.1 (em descontinuação)

Este conteúdo aplica-se a:red-checkmarkv2.1 | Última versão:blue-checkmarkv4.0 (GA)

Nota

A API de Inteligência v4.0 2024-11-30 (GA) de Documentos para o modelo pré-construído de documento de identidade (ID) suporta agora documentos de identificação de todas as regiões do mundo, incluindo cobertura alargada na América do Norte, América do Sul, Ásia, Europa, África e Oceânia.

O modelo de documento de identidade (ID) de Inteligência Documental combina Reconhecimento Ótico de Caracteres (OCR) com modelos de aprendizagem profunda para analisar e extrair informações-chave de documentos de identidade. A API analisa documentos de identidade (incluindo os seguintes) e devolve uma representação estruturada de dados JSON.

Região Tipos de documentos
Mundialmente Livro de Passaportes, Cartão de Passaporte
Estados Unidos Carta de Condução, Cartão de Identificação, Autorização de Residência (Green Card), Cartão de Segurança Social, Identificação Militar
Índia Carta de Condução, Cartão PAN, Cartão Aadhaar
Austrália Carta de condução, Cartão com Foto, Cartão de Chave (incluindo versão digital)
Outros Carta de Condução, Cartão de Identificação, Autorização de Residência

A Inteligência de Documentos pode analisar e extrair informações de documentos de identificação (IDs) emitidos pelo governo utilizando o seu modelo de IDs pré-construído. Combina as nossas poderosas capacidades de Reconhecimento Óptico de Caracteres (OCR) com capacidades de reconhecimento de identificação para extrair informações-chave de passaportes mundiais e cartas de condução dos EUA (todos os 50 estados e D.C.). A API IDs extrai informações-chave destes documentos de identidade, como primeiro nome, apelido, data de nascimento, número do documento e mais. Esta API está disponível no Document Intelligence v2.1 como um serviço na cloud.

Processamento de documentos de identidade

O processamento de documentos de identidade envolve extrair dados de documentos de identidade, seja manualmente ou utilizando tecnologia baseada em OCR. O processamento de documentos de identificação é um passo importante em qualquer operação empresarial que exija prova de identidade. Exemplos incluem verificação de clientes em bancos e outras instituições financeiras, pedidos de hipoteca, consultas médicas, processamento de sinistros, indústria da hotelaria, entre outros. Os indivíduos fornecem alguma prova da sua identidade através de cartas de condução, passaportes e outros documentos semelhantes, para que a empresa possa verificá-los de forma eficiente antes de prestar serviços e benefícios.

Exemplo de Carta de Condução dos EUA processada com o Document Intelligence Studio

Imagem de uma carta de condução de exemplo.

Extração de dados

O serviço de identidades predefinidas extrai os valores-chave de passaportes de todo o mundo e cartas de condução dos EUA e retorna-os numa resposta JSON estruturada e organizada.

Exemplo de carta de condução

Exemplo de Carta de Condução

Exemplo de passaporte

Exemplar de Passaporte

Opções de desenvolvimento

Document Intelligence v4.0: 2024-11-30 (GA) suporta as seguintes ferramentas, aplicações e bibliotecas:

Destaque Recursos ID do modelo
Modelo de documento de identificação Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
idDocument predefinido

O Document Intelligence v3.1 suporta as seguintes ferramentas, aplicações e bibliotecas:

Destaque Recursos ID do modelo
Modelo de documento de identificação Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
idDocument pré-configurado

O Document Intelligence v3.0 suporta as seguintes ferramentas, aplicações e bibliotecas:

Destaque Recursos ID do modelo
Modelo de documento de identificação Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
idDocument predefinido

O Document Intelligence v2.1 suporta as seguintes ferramentas, aplicações e bibliotecas:

Destaque Recursos
Modelo de documento de identificação • Ferramenta de
REST API
SDK
de cliente de biblioteca • contentor Document Intelligence Docker

Requisitos de entrada

São suportados os seguintes formatos de ficheiro.

Modelo PDF Imagem:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Leia
Disposição
Documento geral
Pré-fabricado
Extração personalizada
Classificação personalizada
  • Fotografias e digitalizações: Para melhores resultados, forneça uma foto clara ou uma digitalização de alta qualidade por documento.
  • PDFs e TIFFs: Para PDFs e TIFFs, podem ser processadas até 2.000 páginas. (Com uma subscrição gratuita, apenas as duas primeiras páginas são processadas.)
  • Tamanho do ficheiro: O tamanho do ficheiro para análise de documentos é de 500 MB para o nível pago (S0) e 4 MB para o nível gratuito (F0).
  • Dimensões da imagem: As dimensões devem estar entre 50 pixels x 50 píxeis e 10.000 píxeis x 10.000 píxeis.
  • Bloqueios por palavra-passe: Se os seus PDFs estiverem bloqueados por palavra-passe, deve remover o bloqueio antes da submissão.
  • Altura do texto: A altura mínima do texto a extrair é de 12 píxeis para uma imagem de 1024 x 768 píxeis. Esta dimensão corresponde a cerca de texto de 8 pontos a 150 pontos por polegada.
  • Treino de modelos personalizados: O número máximo de páginas para dados de treino é 500 para o modelo modelo personalizado e 50.000 para o modelo neural personalizado.
  • Treino personalizado do modelo de extração: O tamanho total dos dados de treino é de 50 MB para o modelo modelo e 1 GB para o modelo neural.
  • Treino personalizado do modelo de classificação: O tamanho total dos dados de treino é de 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treino é de 2 GB com um máximo de 10.000 páginas.
  • Tipos de ficheiros Office (DOCX, XLSX, PPTX): O limite máximo de comprimento de string é de 8 milhões de caracteres.
  • Formatos de ficheiro suportados: JPEG, PNG, PDF e TIFF.

  • Número suportado de páginas para ficheiros PDF e TIFF: até 2.000 páginas ou apenas as duas primeiras páginas para subscritores gratuitos.

  • Tamanho de ficheiro suportado: menos de 50 MB TOTAL; píxeis mínimos: 50 x 50 px; píxeis máximos 10.000 x 10.000 px.

Extração de dados de modelos de documentos ID

Extrair dados, incluindo nome, data de nascimento e data de validade, dos documentos de identificação. Precisa dos seguintes recursos:

  • Uma subscrição Azure — pode criar uma gratuitamente.

  • Uma instância Document Intelligence no portal Azure. Pode usar o escalão de preços gratuito (F0) para experimentar o serviço. Depois de o seu recurso ser implementado, selecione Ir para o recurso para obter a sua chave e endpoint.

Captura de ecrã das chaves e localização do endpoint no portal Azure.

Nota

O Document Intelligence Studio está disponível com APIs v3.1 e v3.0 e versões posteriores.

  1. Na página inicial do Document Intelligence Studio, selecione Documentos de Identidade.

  2. Pode analisar a fatura modelo ou carregar os seus próprios ficheiros.

  3. Selecione o botão Executar análise e, se necessário, configure as opções Analisar:

    Captura de ecrã dos botões Executar análise e Analisar opções no Document Intelligence Studio.

Ferramenta de Rotulagem de Amostras para Inteligência de Documentos

  1. Navegue para a Ferramenta de Exemplo de Inteligência Documental.

  2. Na página inicial da ferramenta de exemplo, selecione o bloco Usar modelo pré-definido para obter dados.

    Captura de ecrã dos resultados da operação de análise do modelo de layout.

  3. Selecione o Tipo de Formulário para analisar no menu suspenso.

  4. Escolha uma URL para o ficheiro que gostaria de analisar a partir das opções abaixo:

  5. No campo Fonte , selecione URL no menu suspenso, cole o URL selecionado e selecione o botão Buscar .

    Captura de ecrã do menu suspenso da localização da origem.

  6. No campo endpoint do serviço Document Intelligence , cole o endpoint que obteve com a sua subscrição Document Intelligence.

  7. No campo-chave , cole a chave que obteve do seu recurso de Inteligência Documental.

    Captura de ecrã do menu suspenso de seleção de tipo de documento.

  8. Selecione Executar análise. A ferramenta Document Intelligence Sample Labeling chama a API Analyze Prebuilt e analisa o documento.

  9. Veja os resultados – veja os pares-chave-valor extraídos, itens de linha, texto destacado extraído e tabelas detetadas.

    Captura de ecrã da operação de análise de resultados do modelo de identidade.

  10. Descarregue o ficheiro de saída JSON para ver os resultados detalhados.

    • O nó "readResults" contém cada linha de texto com a respetiva posição da caixa delimitadora na página.
    • O nó "selectionMarks" mostra todas as marcas de seleção (caixa de seleção, marca de rádio) e se o seu estado está selecionado ou não selecionado.
    • A secção "pageResults" inclui as tabelas extraídas. Para cada tabela, a Inteligência de Documentos extrai o texto, o índice de linhas e colunas, a extensão de linhas e colunas, a caixa delimitadora e mais.
    • O campo "documentResults" contém informações de pares-chave/valor e informações de itens de linha para as partes mais relevantes do documento.

Nota

A ferramenta de Etiquetagem de Exemplo não suporta o formato de ficheiro BMP. Esta restrição é uma limitação da ferramenta e não do Serviço de Inteligência Documental.

Extrações de campo

Para campos de extração de documentos suportados, veja a página de esquema de modelo de documento ID no nosso repositório de exemplos de GitHub.

Tipos de documentos suportados

O modelo de documento de identificação suporta atualmente a extração de cartas de condução dos EUA e da página biográfica de passaportes internacionais (excluindo vistos e outros documentos de viagem).

Campos extraídos

Nome Tipo Descrição Valor
País País Código de país compatível com a norma ISO 3166 "EUA"
DataDeNascimento Data Data de nascimento em formato YYYY-MM-DD "1980-01-01"
DataDeExpiração Data Data de validade no formato YYYY-MM-DD "2019-05-05"
Número do Documento cadeia (de caracteres) Número de passaporte relevante, número da carta de condução, etc. "340020013"
Primeiro Nome cadeia (de caracteres) Nome próprio extraído e inicial do meio, se aplicável "JENNIFER"
Apelido cadeia (de caracteres) Apelido extraído "BROOKS"
Nacionalidade País Código de país compatível com a norma ISO 3166 "EUA"
Sexo Género Os possíveis valores extraídos incluem "M", "F", "X" "F"
Zona Legível por Máquina objecto Passaporte MRZ extraído incluindo duas linhas de 44 caracteres cada P<USABROOKS<<JENNIFER<<<<<<<<<<<<<<<<<<<<<<< 3400200135USA8001014F1905054710000307<715816
Tipo de Documento cadeia (de caracteres) Tipo de documento, por exemplo, Passaporte, Carta de Condução "passaporte"
Endereço cadeia (de caracteres) Endereço extraído (apenas carta de condução) "123 RUA MORADA A SUA CIDADE WA 99999-1234"
Região cadeia (de caracteres) Região extraída, estado, província, etc. (apenas carta de condução) "Washington"

Guia de migração

Próximos passos