Modelos de procesamiento de documentos

Este contenido se aplica a:checkmarkv4.0 (GA) | Versiones anteriores:blue-checkmarkv3.1 (GA)red-checkmarkv3.0 (retirada)red-checkmarkv2.1 (retirada)

Este contenido se aplica a:checkmarkv3.1 (GA) | Versión más reciente:purple-checkmarkv4.0 (GA) | Versiones anteriores:blue-checkmarkv3.0blue-checkmarkv2.1

Este contenido se aplica a:red-checkmarkv3.0 (retirada) | Versiones más recientes:purple-checkmarkv4.0 (GA)purple-checkmarkv3.1 | Versión anterior:blue-checkmarkv2.1 (retirada)

Este contenido se aplica a:red-checkmarkv2.1 | Versión más reciente:blue-checkmarkv4.0 (GA)

Azure Inteligencia de documentos en Foundry Tools admite varios modelos que puede usar para agregar procesamiento inteligente de documentos a sus aplicaciones y flujos. Puede usar un modelo específico del dominio creado previamente o entrenar un modelo personalizado adaptado a sus necesidades empresariales y casos de uso específicos. Puede usar La inteligencia de documentos con la API REST o las bibliotecas de cliente de Python, C#, Java y JavaScript.

Nota

Los proyectos de procesamiento de documentos que implican datos financieros, datos de salud protegidos, datos personales o datos altamente confidenciales requieren atención cuidadosa. Asegúrese de cumplir todos los requisitos nacionales o regionales y específicos del sector.

Introducción al modelo

En la tabla siguiente se muestran los modelos disponibles con carácter general para cada API estable.

Tipo de modelo Modelo 2024-11-30 (GA) 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Modelos de análisis de documentos Lectura ✔️ ✔️ ✔️ No disponible
Modelos de análisis de documentos Diseño ✔️ ✔️ ✔️ ✔️
Modelos de análisis de documentos Documento general** Soportado en
modelo de diseño
✔️ ✔️ No disponible
Modelos precompilados Cheque bancario ✔️ No disponible No disponible No disponible
Modelos precompilados Estado de cuenta ✔️ No disponible No disponible No disponible
Modelos precompilados payStub ✔️ No disponible No disponible No disponible
Modelos precompilados Contrato ✔️ ✔️ No disponible No disponible
Modelos precompilados Tarjeta de seguro de salud ✔️ ✔️ ✔️ No disponible
Modelos precompilados Documento de identificador ✔️ ✔️ ✔️ ✔️
Modelos precompilados Factura ✔️ ✔️ ✔️ ✔️
Modelos precompilados Recibo ✔️ ✔️ ✔️ ✔️
Modelos precompilados Impuestos unificados de EE. UU. * ✔️ No disponible No disponible No disponible
Modelos precompilados Impuestos de EE. UU. 1040* ✔️ ✔️ No disponible No disponible
Modelos precompilados Impuestos de EE. UU. 1095* ✔️ No disponible No disponible No disponible
Modelos precompilados Impuestos de EE. UU. 1098* ✔️ No disponible No disponible No disponible
Modelos precompilados Impuestos de EE. UU. 1099* ✔️ No disponible No disponible No disponible
Modelos precompilados Formulario W2 de impuestos de EE. UU. ✔️ ✔️ ✔️ No disponible
Modelos precompilados Impuestos W4 de EE. UU. ✔️ No disponible No disponible No disponible
Modelos precompilados US mortgage 1003 URLA ✔️ No disponible No disponible No disponible
Modelos precompilados Hipoteca estadounidense 1004 URAR ✔️ No disponible No disponible No disponible
Modelos precompilados Hipoteca estadounidense 1005 ✔️ No disponible No disponible No disponible
Modelos precompilados Resumen de la hipoteca estadounidense 1008 ✔️ No disponible No disponible No disponible
Modelos precompilados Divulgación de cierre de hipotecas estadounidenses ✔️ No disponible No disponible No disponible
Modelos precompilados Certificado de matrimonio ✔️ No disponible No disponible No disponible
Modelos precompilados Tarjeta de crédito ✔️ No disponible No disponible No disponible
Modelos precompilados Tarjeta de presentación obsoleto ✔️ ✔️ ✔️
Modelo de clasificación personalizado Clasificador personalizado ✔️ ✔️ No disponible No disponible
Modelo de extracción personalizado Neural personalizada ✔️ ✔️ ✔️ No disponible
Modelo de extracción personalizado Plantilla personalizada ✔️ ✔️ ✔️ ✔️
Modelo de extracción personalizado Compuesto personalizado ✔️ ✔️ ✔️ ✔️
Todos los modelos Funcionalidades de complementos ✔️ ✔️ No disponible No disponible

* Contiene submodelos. Consulte la información específica del modelo para ver las variaciones y subtipos admitidos.
** Todas las funcionalidades del modelo de documento general están disponibles en el modelo de diseño. Ya no se admite el modelo general.

Latencia

La latencia es la cantidad de tiempo que tarda un servidor de API en controlar y procesar una solicitud entrante y entregar la respuesta saliente al cliente. El tiempo para analizar un documento depende del tamaño (por ejemplo, el número de páginas) y el contenido asociado en cada página. La inteligencia de documentos es un servicio asincrónico multiinquilino en el que la latencia de documentos similares es comparable, pero no siempre idéntica. La variabilidad ocasional en la latencia y el rendimiento son inherentes a cualquier servicio sin estado basado en microservicios que procese imágenes y documentos grandes a gran escala. Aunque estamos escalando continuamente las funcionalidades de hardware y capacidad y escalado, es posible que todavía tenga problemas de latencia en tiempo de ejecución.

Capacidad del complemento

Las siguientes funcionalidades de complemento están disponibles para La inteligencia de documentos. Para todos los modelos excepto el modelo de tarjeta de presentación, Document Intelligence ahora admite funcionalidades de complemento para permitir un análisis más sofisticado. Puede habilitar y deshabilitar estas funcionalidades opcionales en función del escenario de la extracción de documentos. Las siguientes funcionalidades de complemento están disponibles para la versión de API 2023-07-31 (GA) y versiones posteriores de la API:

Funcionalidad del complemento Complemento/Gratis 2024-11-30 (GA) 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Extracción de propiedades de fuente Complemento ✔️ ✔️ No disponible No disponible
Extracción de fórmulas Extensión ✔️ ✔️ No disponible No disponible
Extracción de alta resolución Complemento ✔️ ✔️ No disponible No disponible
Extracción de códigos de barras Gratis ✔️ ✔️ No disponible No disponible
Detección de idioma Gratis ✔️ ✔️ No disponible No disponible
Pares clave-valor Gratis ✔️ No disponible No disponible No disponible
Campos de consulta Complemento* ✔️ No disponible No disponible No disponible
PDF con capacidad de búsqueda Complemento* ✔️ No disponible No disponible No disponible

Características de análisis de modelos

Id. de modelo Extracción de contenido Campos de consulta Párrafos Roles de párrafo Marcas de selección Tablas Pares clave-valor Idiomas Códigos de barras Análisis de documentos Fórmulas* Fuente de estilo* Alta resolución* PDF buscable
prebuilt-read O O O O O O
prebuilt-layout O O O O O O
prebuilt-contract O O O O
prebuilt-healthInsuranceCard.us O O O O O
prebuilt-idDocument O O O O O
prebuilt-invoice O O O O O O
prebuilt-receipt O O O O O
prebuilt-marriageCertificate.us O O O O O
prebuilt-creditCard O O O O O
prebuilt-check.us O O O O O
prebuilt-payStub.us O O O O O
prebuilt-bankStatement O O O O O
prebuilt-mortgage.us.1003 O O O O O
prebuilt-mortgage.us.1004 O O O O O
prebuilt-mortgage.us.1005 O O O O O
prebuilt-mortgage.us.1008 O O O O O
prebuilt-mortgage.us.closingDisclosure O O O O O
prebuilt-tax.us O O O O O
prebuilt-tax.us.w2 O O O O O
prebuilt-tax.us.w4 O O O O O
prebuilt-tax.us.1040 (varios) O O O O O
prebuilt-tax.us.1095A O O O O O
prebuilt-tax.us.1095C O O O O O
prebuilt-tax.us.1098 O O O O O
prebuilt-tax.us.1098E O O O O O
prebuilt-tax.us.1098T O O O O O
prebuilt-tax.us.1099 (varios) O O O O O
prebuilt-tax.us.1099SSA O O O O O
{ customModelName } O O O O O

✓ - Habilitado
O - Opcional
* - Las características Premium incurren en costos adicionales

Los campos de consulta tienen un precio diferente a las otras características del complemento. Para obtener más información, consulte Precios.

Coordenadas de cuadro delimitador y polígono

Un rectángulo delimitador (polygon en v3.0 y versiones posteriores) es un rectángulo abstracto que rodea los elementos de texto de un documento. Una caja delimitadora se usa como punto de referencia para la detección de objetos.

  • La caja delimitadora especifica la posición mediante un plano de coordenadas x e y presentado en una matriz de cuatro pares numéricos. Cada par representa una esquina de la caja en el orden siguiente: superior izquierda, superior derecha, inferior derecha, inferior izquierda.
  • Las coordenadas de imagen se presentan en píxeles. Para un PDF, las coordenadas se presentan en pulgadas.

Compatibilidad con idiomas

Los modelos universales de La inteligencia de documentos que se basan en el aprendizaje profundo admiten muchos lenguajes. Los modelos pueden extraer texto multilingüe de sus imágenes y documentos, incluidas las líneas de texto con idiomas mixtos. La compatibilidad con idiomas varía según la funcionalidad del servicio Document Intelligence. Para obtener una lista completa, consulte los siguientes artículos:

Disponibilidad regional

La inteligencia de documentos está generalmente disponible en muchas de las más de 60 regiones de infraestructura global de Azure.

Para ayudar a elegir la región más adecuada para usted y sus clientes, consulte Azure geographies.

Detalles del modelo

En esta sección se describe la salida que puede esperar de cada modelo. Puede ampliar la salida de la mayoría de los modelos con funcionalidades adicionales.

Lectura de OCR

Read API usa el reconocimiento óptico de caracteres (OCR) para analizar y extraer líneas y palabras, sus ubicaciones, idiomas detectados y estilo de escritura a mano, si se detecta.

Este documento de ejemplo se procesó mediante Document Intelligence Studio.

Captura de pantalla que muestra un documento de ejemplo procesado mediante Document Intelligence Studio Read.

Análisis de diseño

El modelo de análisis de diseño analiza y extrae texto, tablas, marcas de selección y otros elementos de estructura, como títulos, encabezados de sección, encabezados de página y pies de página.

Este documento de ejemplo se procesó mediante Document Intelligence Studio.

Captura de pantalla que muestra una página de periódico de ejemplo procesada mediante Document Intelligence Studio.

Tarjeta de seguro de salud

El modelo de tarjetas de seguro de salud combina eficaces funcionalidades de OCR con modelos de aprendizaje profundo para analizar y extraer información clave de las tarjetas de seguro médico de EE. UU.

Este ejemplo de tarjeta de seguro médico de EE. UU. se procesó mediante Document Intelligence Studio.

Captura de pantalla que muestra un ejemplo de análisis de tarjetas de seguro de salud de EE. UU. en Document Intelligence Studio.

Documentos fiscales de EE. UU.

Los modelos de documentos fiscales de Estados Unidos analizan y extraen campos clave y elementos de línea de un grupo seleccionado de documentos fiscales. La API admite el análisis de documentos fiscales estadounidenses en inglés de diversos formatos y calidad, incluidas imágenes capturadas por teléfono, documentos escaneados y PDF digitales. Actualmente se admiten los siguientes modelos:

Modelo Descripción Id. de modelo
Formulario W-2 de EE. UU. Extraiga los detalles de compensación gravable. prebuilt-tax.us.w2
Formulario W-4 de Impuestos de EE. UU. Extraiga los detalles de compensación gravable. prebuilt-tax.us.w4
Impuestos estadounidenses 1040 Extraiga los detalles de los intereses hipotecarios. prebuilt-tax.us.1040 (variaciones)
Impuestos estadounidenses 1095 Extraiga los detalles del seguro de salud. prebuilt-tax.us.1095 (variaciones)
Impuestos estadounidenses 1098 Extraiga los detalles de los intereses hipotecarios. prebuilt-tax.us.1098 (variaciones)
Impuestos estadounidenses 1099 Extraiga los ingresos recibidos de fuentes distintas del empleador. prebuilt-tax.us.1099 (variaciones)

Este documento W-2 de ejemplo se procesó mediante Document Intelligence Studio.

Captura de pantalla que muestra un documento W-2 de ejemplo.

Documentos de hipoteca de EE. UU.

Los modelos de documentos de hipotecas estadounidenses analizan y extraen campos clave que incluyen información sobre prestatarios, préstamos y propiedades de un grupo seleccionado de documentos hipotecas. La API admite el análisis de documentos de hipotecas en inglés de EE. UU. de diversos formatos y calidad, incluidas imágenes capturadas por teléfono, documentos escaneados y PDF digitales. Actualmente se admiten los siguientes modelos.

Modelo Descripción Id. de modelo
1003 Contrato de licencia de usuario final Extraer préstamo, prestatario, detalles de la propiedad. prebuilt-mortgage.us.1003
1004 Informe uniforme de valoración residencial (URAR) Extraer préstamo, prestatario, detalles de la propiedad. prebuilt-mortgage.us.1004
1005 Comprobación del empleo Extraer préstamo, prestatario, detalles de la propiedad. prebuilt-mortgage.us.1005
Documento de resumen 1008 Extraiga detalles de prestatario, vendedor, propiedad, hipoteca y evaluación de riesgos. prebuilt-mortgage.us.1008
Declaración de cierre Extraiga detalles de cierre, costos de transacción y préstamo. prebuilt-mortgage.us.closingDisclosure

Este documento de divulgación de cierre de ejemplo se procesó mediante Document Intelligence Studio.

Captura de pantalla que muestra un ejemplo de divulgación de cierre.

Contrato

El modelo de contrato analiza y extrae campos clave y elementos de línea de acuerdos contractuales, incluidas partes, jurisdicciones, identificador de contrato y título. El modelo admite actualmente documentos de contrato en inglés.

Este contrato de ejemplo se procesó mediante Document Intelligence Studio.

Captura de pantalla que muestra la extracción de modelos de contrato mediante Document Intelligence Studio.

Cheque bancario de EE. UU.

El modelo de contrato analiza y extrae campos clave de cheques bancarios estadounidenses, incluidos los detalles de la comprobación, los detalles de la cuenta, la cantidad y el memo.

Este ejemplo de cheque bancario se procesó mediante Document Intelligence Studio.

Captura de pantalla que muestra la extracción de modelos de comprobación bancaria mediante Document Intelligence Studio.

Declaración bancaria de EE. UU.

El modelo de extracto bancario analiza y extrae campos clave y elementos de línea de los estados bancarios estadounidenses, incluyendo el número de cuenta, los detalles bancarios, los detalles del extracto y los detalles de la transacción.

Este extracto bancario de ejemplo se procesó mediante Document Intelligence Studio.

Captura de pantalla que muestra la extracción del modelo de extracto bancario mediante Document Intelligence Studio.

payStub

El modelo payStub analiza y extrae campos clave y elementos de línea de documentos y archivos con información relacionada con nóminas.

Este talón de pago de ejemplo se procesó mediante Document Intelligence Studio.

Captura de pantalla que muestra la extracción de modelos payStub mediante Document Intelligence Studio.

Factura

El modelo de factura automatiza el procesamiento de facturas para extraer el nombre del cliente, la dirección de facturación, la fecha de vencimiento, el importe vencido, los elementos de línea y otros datos clave.

Esta factura de ejemplo se procesó mediante Document Intelligence Studio.

Captura de pantalla que muestra una factura de ejemplo.

Recibo

Utilice el modelo de recibos para escanear los recibos de ventas de el nombre del comerciante, las fechas, los artículos de línea, las cantidades y los totales de recibos impresos y manuscritos. La versión v3.0 también admite el procesamiento de recibos de hotel de página única.

Este recibo de ejemplo se procesó mediante Document Intelligence Studio.

Captura de pantalla que muestra un recibo de ejemplo.

Documento de identidad

Use el modelo de documento de identidad (ID) para procesar las licencias de conducir de EE. UU. (todos los 50 estados y distrito de Columbia) y las páginas biográficas de pasaportes internacionales (excepto visa y otros documentos de viaje) para extraer campos clave.

Este ejemplo de licencia de conducir de EE. UU. se procesó mediante Document Intelligence Studio.

Captura de pantalla que muestra una tarjeta de identificación de ejemplo.

Certificado de matrimonio

Use el modelo de certificado de matrimonio para procesar certificados de matrimonio estadounidenses para extraer campos clave, incluidos los individuos, la fecha y la ubicación.

Este certificado de matrimonio estadounidense de ejemplo se procesó mediante Document Intelligence Studio.

Captura de pantalla que muestra un certificado de matrimonio de ejemplo.

Tarjeta de crédito

Use el modelo de tarjeta de crédito para procesar tarjetas de crédito y débito para extraer campos clave.

Esta tarjeta de crédito de ejemplo se procesó mediante Document Intelligence Studio.

Captura de pantalla que muestra una tarjeta de crédito de ejemplo.

Modelos personalizados

Los modelos personalizados se clasifican ampliamente en dos tipos. Modelos de clasificación personalizados que admiten la clasificación de un "tipo de documento" y modelos de extracción personalizados que pueden extraer un esquema definido de un tipo de documento específico.

Diagrama que muestra los tipos de modelos personalizados y los modos de compilación de modelos asociados.

Los modelos de documentos personalizados analizan y extraen datos de formularios y documentos específicos de su empresa. Reconocen campos de formulario dentro de su contenido distinto y extraen pares clave-valor y datos de tabla. Solo necesita un ejemplo del tipo de formulario para empezar.

La versión v3.0 y los modelos personalizados posteriores admiten la detección de firmas en plantillas personalizadas (formulario) y tablas entre páginas en modelos neuronales y de plantilla. La detección de firmas busca la presencia de una firma, no la identidad de la persona que firma el documento. Si el modelo devuelve unsigned para la detección de firmas, el modelo no encontró una firma en el campo definido.

Esta plantilla personalizada de ejemplo se procesó mediante Document Intelligence Studio.

Captura de pantalla que muestra Document Intelligence analizando un formulario personalizado.

Extracción personalizada

El modelo de extracción personalizado incluye dos tipos: plantilla personalizada y neuronal personalizada. Para crear un modelo de extracción personalizado, etiquete un conjunto de datos de documentos con los valores que desea extraer y entrenar el modelo en el conjunto de datos etiquetado. Solo necesita cinco ejemplos del mismo tipo de formulario o documento para empezar.

Esta extracción personalizada de ejemplo se procesó mediante Document Intelligence Studio.

Captura de pantalla que muestra el análisis de modelos de extracción personalizado en Document Intelligence Studio.

Clasificador personalizado

Con el modelo de clasificación personalizado, puede identificar el tipo de documento antes de invocar el modelo de extracción. El modelo de clasificación está disponible a partir de la API 2023-07-31 (GA). El entrenamiento de un modelo de clasificación personalizado requiere al menos dos clases distintas y un mínimo de cinco ejemplos por clase.

Modelos compuestos

Para crear un modelo compuesto, se toma una colección de modelos personalizados y se asignan a un único modelo creado a partir de los tipos de formulario. Puede asignar varios modelos personalizados a un modelo compuesto al que se llama con un identificador de modelo único. Puede asignar hasta 200 modelos personalizados entrenados a un único modelo compuesto.

Este modelo compuesto de ejemplo está en Document Intelligence Studio.

Captura de pantalla que muestra el panel Modelo personalizado de Document Intelligence Studio Compose.

Requisitos de entrada

Se admiten los siguientes formatos de archivo.

Modelo PDF Imagen:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Lectura
Diseño
Documento general
Prefabricado
Extracción personalizada
Clasificación personalizada
  • Fotos y escaneos: Para obtener mejores resultados, proporcione una foto clara o un escaneo de alta calidad por documento.
  • ARCHIVOS PDF y TIFF: para archivos PDF y TIFF, se pueden procesar hasta 2000 páginas. (Con una suscripción de nivel gratuito, solo se procesan las dos primeras páginas).
  • Tamaño del archivo: el tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y 4 MB para el nivel gratis (F0).
  • Dimensiones de imagen: las dimensiones deben estar entre 50 píxeles x 50 píxeles y 10 000 píxeles x 10 000 píxeles.
  • Bloqueos de contraseña: si los archivos PDF están bloqueados con contraseña, debe quitar el bloqueo antes del envío.
  • Alto del texto: el alto mínimo del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde a aproximadamente texto de 8 puntos a 150 puntos por pulgada.
  • Entrenamiento de modelos personalizados: el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizado y 50 000 para el modelo neuronal personalizado.
  • Entrenamiento del modelo de extracción personalizada: el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 GB para el modelo neuronal.
  • Entrenamiento del modelo de clasificación personalizada: el tamaño total de los datos de entrenamiento es de 1 GB con un máximo de 10 000 páginas. Para 2024-11-30 (GA), el tamaño total de los datos de entrenamiento es de 2 GB con un máximo de 10 000 páginas.
  • Tipos de archivo de Office (DOCX, XLSX, PPTX): el límite máximo de longitud de cadena es de 8 millones de caracteres.

Nota

La herramienta de etiquetado de ejemplo no admite el formato de archivo BMP. La limitación se deriva de la herramienta y no del servicio de inteligencia de documentos.

Migración de versiones

Aprenda a usar Document Intelligence v3.0 en las aplicaciones siguiendo los pasos de la guía de migración de Document Intelligence v3.1.

Modelo Descripción
Análisis de documentos
Diseño Extraiga información de texto y diseño de los documentos.
Prefabricado
Factura Extraiga información clave de las facturas de idioma inglés y español.
Recibo Extraiga información clave de recibos en inglés.
Documento de identificador Extraiga información clave de los pasaportes internacionales y las licencias de conducir de EE. UU.
Tarjeta de presentación Extraiga información clave de las tarjetas de presentación en inglés.
Personalizado
Personalizado Extraiga datos de formularios y documentos específicos de su empresa. Los modelos personalizados se entrenan para los distintos datos y casos de uso.
Compuesto Cree una colección de modelos personalizados y asígnelos a un único modelo creado a partir de los tipos de formulario.

Diseño

La API layout analiza y extrae texto, tablas y encabezados, marcas de selección e información de estructura de documentos.

Este documento de ejemplo se procesó mediante la herramienta Etiquetado de ejemplo.

Captura de pantalla que muestra el análisis de diseño mediante la herramienta de etiquetado de muestras.

Factura

El modelo de factura analiza y extrae información clave de las facturas de ventas. La API analiza las facturas en varios formatos y extrae información clave, como el nombre del cliente, la dirección de facturación, la fecha de vencimiento y el importe vencido.

Esta factura de ejemplo se procesó mediante la herramienta Etiquetado de ejemplo.

Captura de pantalla que muestra un análisis de facturas mediante la herramienta de etiquetado de ejemplo.

Recibo

El modelo de recibo analiza y extrae información clave de recibos de ventas impresos y manuscritos.

Este recibo de ejemplo se procesó mediante la Herramienta de Etiquetado de Ejemplo.

Captura de pantalla que muestra un recibo de ejemplo.

Documento de identificador

El modelo de documento de identificador analiza y extrae información clave de los siguientes documentos:

  • Licencias de conducir de EE. UU. (todos los 50 estados y distrito de Columbia)
  • Páginas biográficas de pasaportes internacionales (excepto visa y otros documentos de viaje). La API analiza y extrae documentos de identidad.

Este ejemplo de licencia de conducir de EE. UU. se procesó mediante la herramienta de etiquetado de ejemplo.

Captura de pantalla que muestra una tarjeta de identificación de ejemplo.

Tarjeta de presentación

El modelo de tarjeta de presentación analiza y extrae información clave de imágenes de tarjetas de presentación.

Esta tarjeta de presentación de ejemplo se procesó mediante la herramienta Etiquetado de ejemplo.

Captura de pantalla que muestra una tarjeta de presentación de ejemplo.

Personalizado

Los modelos personalizados analizan y extraen datos de formularios y documentos específicos de su negocio. La API es un programa de aprendizaje automático entrenado para reconocer campos de formulario dentro de su contenido distinto y extraer pares clave-valor y datos de tabla. Solo necesita cinco ejemplos del mismo tipo de formulario para empezar. Puede entrenar el modelo personalizado con o sin conjuntos de datos etiquetados.

Este modelo personalizado de ejemplo se procesó mediante la Herramienta de Etiquetado de Ejemplo.

Captura de pantalla que muestra la herramienta De inteligencia de documentos que analiza un panel de formulario personalizado.

Modelo personalizado compuesto

Para crear un modelo compuesto, se toma una colección de modelos personalizados y se asignan a un único modelo creado a partir de los tipos de formulario. Puede asignar varios modelos personalizados a un modelo compuesto al que se llama con un identificador de modelo único. Puede asignar hasta 100 modelos personalizados entrenados a un único modelo compuesto.

Este panel de modelo compuesto se procesó mediante la herramienta de etiquetado de muestras.

Captura de pantalla que muestra el panel Modelo personalizado de Document Intelligence Studio Compose.

Extracción de datos del modelo

Modelo Extracción de texto Detección de idioma Marcas de selección Tablas Párrafos Roles de párrafo Pares clave-valor Campos
Diseño
Factura
Recibo
Documento de Identificación
Tarjeta de presentación
Formulario personalizado

Requisitos de entrada

Se admiten los siguientes formatos de archivo.

Modelo PDF Imagen:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Lectura
Diseño
Documento general
Prefabricado
Extracción personalizada
Clasificación personalizada
  • Fotos y escaneos: Para obtener mejores resultados, proporcione una foto clara o un escaneo de alta calidad por documento.
  • ARCHIVOS PDF y TIFF: para archivos PDF y TIFF, se pueden procesar hasta 2000 páginas. (Con una suscripción de nivel gratuito, solo se procesan las dos primeras páginas).
  • Tamaño del archivo: el tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y 4 MB para el nivel gratis (F0).
  • Dimensiones de imagen: las dimensiones deben estar entre 50 píxeles x 50 píxeles y 10 000 píxeles x 10 000 píxeles.
  • Bloqueos de contraseña: si los archivos PDF están bloqueados con contraseña, debe quitar el bloqueo antes del envío.
  • Alto del texto: el alto mínimo del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde a aproximadamente texto de 8 puntos a 150 puntos por pulgada.
  • Entrenamiento de modelos personalizados: el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizado y 50 000 para el modelo neuronal personalizado.
  • Entrenamiento del modelo de extracción personalizada: el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 GB para el modelo neuronal.
  • Entrenamiento del modelo de clasificación personalizada: el tamaño total de los datos de entrenamiento es de 1 GB con un máximo de 10 000 páginas. Para 2024-11-30 (GA), el tamaño total de los datos de entrenamiento es de 2 GB con un máximo de 10 000 páginas.
  • Tipos de archivo de Office (DOCX, XLSX, PPTX): el límite máximo de longitud de cadena es de 8 millones de caracteres.

Nota

La herramienta de etiquetado de ejemplo no admite el formato de archivo BMP. La limitación se debe a la herramienta, no a la inteligencia de documentos.

Migración de versiones

Puede aprender a usar Document Intelligence v3.0 en las aplicaciones siguiendo los pasos de la guía de migración de Document Intelligence v3.1.