Nota de transparencia y casos de uso para la Inteligencia Documental

Importante

Las traducciones no en inglés solo se proporcionan para mayor comodidad. Consulte la EN-US versión de este documento para obtener la versión definitiva.

¿Qué es una nota de transparencia?

Un sistema de inteligencia artificial incluye no solo la tecnología, sino también las personas que lo usarán, las personas que se verán afectadas por ella y el entorno en el que se implementa. La creación de un sistema que se ajuste a su finalidad prevista requiere una comprensión de cómo funciona la tecnología, sus capacidades y limitaciones, y cómo lograr el mejor rendimiento.

Microsoft proporciona notas de transparency para ayudarle a comprender cómo funciona nuestra tecnología de inteligencia artificial. Esto incluye las opciones que los propietarios del sistema pueden hacer que influyen en el rendimiento y el comportamiento del sistema, y la importancia de pensar en todo el sistema, incluida la tecnología, las personas y el entorno. Puede usar notas de transparencia al desarrollar o implementar su propio sistema, o compartirlas con las personas que usarán o se verán afectadas por el sistema.

Las notas de transparencia forman parte de un esfuerzo más amplio en Microsoft poner en práctica nuestros principios de inteligencia artificial. Para obtener más información, consulte los principios de la IA de Microsoft.

Conceptos básicos de la inteligencia de documentos

Introducción

Se accede a La inteligencia de documentos a través de un conjunto de API y permite a los desarrolladores extraer fácilmente texto, estructura y campos de sus documentos. Se compone de características como:

Leer para la extracción de texto.
Diseño y documentos generales para obtener información estructural y valores y entidades generales, como nombres, lugares y cosas.
Modelos creados previamente para tipos de documentos específicos, como facturas, recibos, tarjetas de presentación, W2s e identificadores.
Modelos personalizados para crear modelos específicos de los tipos de documento.

Document Intelligence admite uno o varios idiomas y configuraciones regionales para cada una de las características, como se muestra en el artículo Idiomas admitidos .

Términos clave

Término	Definición
Lectura	Esta característica extrae líneas de texto, palabras y sus ubicaciones de imágenes y documentos, junto con otra información, como idiomas detectados.
Diseño	Esta característica extrae texto, marcas de selección y estructura de tabla (los números de fila y columna asociados al texto). Consulte Diseño de inteligencia de documentos.
Documentos generales	Analice documentos y asocie valores a claves e entradas a tablas que detecta. Para obtener más información, vea Document Intelligence Documentos Generales.
Modelos precompilados	Los modelos creados previamente son modelos específicos del documento para tipos de formulario únicos. Estos modelos no requieren entrenamiento personalizado antes de usarlo. Por ejemplo, el modelo de factura precompilado extrae campos clave de las facturas. Para obtener más información, consulte Modelo de factura precompilado de Document Intelligence.
Modelos personalizados	La inteligencia de documentos permite entrenar un modelo personalizado adaptado a los formularios y documentos. Este modelo extrae texto, pares clave-valor, marcas de selección y datos de tabla. Los modelos personalizados se pueden mejorar con comentarios humanos aplicando la revisión humana, actualizando las etiquetas y reentrenando el modelo mediante la API.
Valor de confianza	Todas las operaciones de "Get Analysis Results" devuelven valores de confianza en el intervalo comprendido entre 0 y 1 para las palabras y asignaciones de clave-valor extraídas. Este valor representa la estimación del servicio de cuántas de las 100 veces extrae correctamente la palabra o mapea correctamente los pares clave-valor. Por ejemplo, una palabra que se estima que se extrae correctamente 82% del tiempo da como resultado un valor de confianza de 0,82.
Características adicionales	Document Intelligence ofrece un conjunto de características de complemento para ampliar los resultados para incluir más elementos de los documentos. Algunas características de complemento conllevan un costo adicional y se pueden habilitar y deshabilitar en función del escenario de extracción de documentos. Actualmente ofrecemos capacidades de extracción de alta resolución, fórmula, tipo de letra, códigos de barras, idiomas, pares clave-valor y campos de consulta. Para obtener más información, consulte la Funcionalidad del complemento de la Inteligencia de Documentos.

Capacidades

Comportamiento del sistema

Azure Document Intelligence en Foundry Tools es una herramienta Foundry basada en la nube, desarrollada mediante el reconocimiento óptico de caracteres (OCR), análisis de texto y texto personalizado de Foundry Tools. Actualmente, los modelos personalizados utilizan el modelo GPT-3.5 del servicio Azure OpenAI. OCR se usa para extraer tipos de letra y documentos de texto manuscritos. La Inteligencia de Documentos usa OCR para detectar y extraer información de formularios y documentos admitidos por IA, para proporcionar una estructura más definida e información adicional a la extracción de texto.

Casos de uso

Usos previstos

Document Intelligence incluye características que permiten a los clientes de varios sectores extraer datos de sus documentos. Los siguientes escenarios son ejemplos de casos de uso adecuados:

Cuentas por pagar: Una empresa puede aumentar la eficiencia de sus cuentas por pagar mediante el uso del modelo de factura predefinido y los formularios personalizados para acelerar la introducción de datos de facturas con intervención humana. El modelo de factura precompilado puede extraer campos clave, como Factura total y Dirección de envío.
Procesamiento de formularios de seguros: Un cliente puede entrenar un modelo mediante formularios personalizados para extraer un par clave-valor en formularios de seguros y, a continuación, alimentar los datos a su flujo empresarial para mejorar la precisión y la eficacia de su proceso. Para sus formularios únicos, los clientes pueden crear su propio modelo que extraiga los valores de clave mediante formularios personalizados. Estos valores extraídos se convierten en datos accionables para varios flujos de trabajo dentro de su negocio.
Procesamiento de formularios bancarios: Un banco puede usar el modelo de identificador creado previamente y los formularios personalizados para acelerar la entrada de datos para la documentación de "conocer a su cliente" o para acelerar la entrada de datos para un paquete de hipoteca. Si un banco requiere que sus clientes envíen la identificación personal como parte de un proceso, el modelo de identificador precompilado puede extraer valores clave, como Name y Document Number, acelerando el tiempo total para la entrada de datos.
Automatización de procesos robóticos (RPA): Con el modelo de extracción personalizado, los clientes pueden extraer datos específicos necesarios de varios tipos de documentos. A continuación, el par clave-valor extraído se puede introducir en varios sistemas, como bases de datos o sistemas CRM, a través de RPA, reemplazando la entrada de datos manual. Los clientes también pueden usar un modelo de clasificación personalizado para clasificar documentos en función de su contenido y archivarlos en una ubicación adecuada. Por lo tanto, un conjunto organizado de datos extraídos del modelo personalizado puede ser un primer paso esencial para documentar escenarios de RPA para empresas que administran grandes volúmenes de documentos con regularidad.

Consideraciones al elegir otros casos de uso

Tenga en cuenta los siguientes factores al elegir un caso de uso:

Considere detenidamente la posibilidad de aplicar la revisión humana cuando se trate de escenarios o datos confidenciales: es importante incluir un humano en el bucle para una revisión manual cuando se trabaja con escenarios de alto riesgo (por ejemplo, que afectan a los derechos consecuentes de alguien) o a los datos confidenciales. Los modelos de Machine Learning no son perfectos. Considere detenidamente cuándo incluir un paso de revisión manual para determinados flujos de trabajo. Por ejemplo, la verificación de identidad en un puerto de entrada, como los aeropuertos, debe incluir supervisión humana.
Considere detenidamente el uso para otorgar o denegar beneficios: la inteligencia de documentos no se diseñó ni evaluó para otorgar o denegar beneficios, y el uso en estos escenarios puede tener consecuencias no deseadas. Estos escenarios incluyen:
- Seguro médico: esto incluiría el uso de registros sanitarios y recetas médicas como base para las decisiones sobre la recompensa o denegación del seguro.
- Aprobaciones de préstamos: incluyen solicitudes de nuevos préstamos o refinanciación de las existentes.
Tenga en cuenta cuidadosamente los tipos de documento y las configuraciones regionales admitidos: los modelos creados previamente tienen una lista predefinida de campos admitidos y se compilan para configuraciones regionales específicas. Asegúrese de comprobar cuidadosamente las configuraciones regionales y los tipos de documento admitidos oficialmente para garantizar los mejores resultados. Por ejemplo, consulte locales de recibo predefinidas de Document Intelligence.
Consideraciones legales y normativas: las organizaciones deben evaluar posibles obligaciones legales y normativas específicas al usar las herramientas y soluciones de Foundry, que pueden no ser adecuadas para su uso en todos los sectores o escenarios. Además, las herramientas o soluciones de Foundry no están diseñadas para y pueden no usarse de maneras prohibidas en términos de servicio aplicables y códigos de conducta pertinentes.

Limitaciones

Limitaciones técnicas, factores operativos y intervalos

Limitaciones del modelo precompilado

Los modelos precompilados de Document Intelligence se usan para procesar tipos de documentos específicos y se entrenan previamente en miles de formularios. Esta funcionalidad permite a los desarrolladores empezar a trabajar y obtener resultados en cuestión de minutos, sin que se requieran datos de entrenamiento ni etiquetado. Para los modelos precompilados, es importante tener en cuenta la lista de requisitos de entrada, los tipos de documento admitidos y las configuraciones regionales para cada modelo precompilado para obtener resultados óptimos. Por ejemplo, consulte los requisitos de entrada de factura precompilados.

Limitaciones del modelo personalizado

Los modelos personalizados de Document Intelligence se entrenan con sus propios datos de entrenamiento para que el modelo pueda entrenarse en sus formularios y documentos específicos. Esta funcionalidad depende en gran medida de la forma de etiquetar los datos, así como del tipo de conjunto de datos de entrenamiento que proporcione. Para los modelos personalizados, es importante tener en cuenta los límites del tamaño del conjunto de datos de entrenamiento, los límites de página de documentos y el número mínimo de muestras necesarias para cada tipo de documento. Los modelos personalizados usan actualmente el modelo GPT-3.5 de Azure OpenAI Service. Puede encontrar más información sobre los modelos openAI de Azure en la Azure Nota de transparencia de OpenAI.

La página Límites del servicio contiene más información sobre las cuotas y límites del servicio De inteligencia de documentos para todos los planes de tarifa. También contiene limitaciones del modelo y procedimientos recomendados para el uso del modelo y evitar la restricción de solicitudes.

Soporte de características

Consulte la tabla Características de análisis para obtener una lista de las distintas operaciones que pueden realizar los modelos de Document Intelligence.

Rendimiento del sistema

Precisión

El texto se compone de líneas y palabras en el nivel fundamental y entidades como nombres, precios, importes, nombres de empresa y productos en el nivel de comprensión del documento.

Precisión a nivel de palabra

Una medida popular de precisión para OCR es la tasa de errores de palabras (WER) o cuántas palabras se generaron incorrectamente en los resultados extraídos. Cuanto menor sea el WER, mayor será la precisión.

WER se define como:

Ilustración que muestra una definición WER.

Dónde:

Término	Definición	Ejemplo
S	Recuento de palabras incorrectas ("sustituidas") en la salida.	"Velvet" se extrae como "Veivet" porque "l" se detecta como "i".
D	Recuento de palabras que faltan ("eliminadas") en la salida.	Para el texto "Nombre de la compañía: Microsoft", Microsoft no se extrae porque está escrito a mano o es difícil de leer.
Yo	Recuento de palabras inexistentes ("insertadas") en el resultado.	"Departamento" se segmenta incorrectamente en tres palabras como "Dep artm ent". En este caso, el resultado es una palabra eliminada y tres palabras insertadas.
C	Recuento de palabras extraídas correctamente en la salida.	Todas las palabras que se extraen correctamente.
N	Recuento de palabras totales en la referencia (N=S+D+C) excluyendo I porque esas palabras faltaban en la referencia original y se predijeron incorrectamente como presentes.	Considere una imagen con la frase "Microsoft, con sede en Redmond, WA anunció un nuevo producto llamado Velvet para los departamentos de finanzas". Suponga que la salida de OCR es " , con sede en Redmond, WA anunció un nuevo producto llamado Veivet para los departamentos de finanzas". En este caso, S (Velvet) = 1, D (Microsoft) = 1, I (departamentos de finanzas) = 3, C (11) y N = S + D + C = 13. Por lo tanto, WER = (S + D + I) / N = 5 / 13 = 0,38 o 38% (de 100).

Uso de un valor de confianza

Como se ha descrito en una sección anterior, el servicio proporciona un valor de confianza para cada palabra prevista en la salida de OCR. Los clientes usan este valor para calibrar umbrales personalizados para su contenido y sus escenarios, para enrutar el contenido para el procesamiento directo y automático, o el reenvío al proceso humano en el bucle. Las medidas resultantes determinan la precisión específica del escenario.

Las implicaciones de rendimiento del sistema OCR pueden variar según los escenarios en los que se aplique la tecnología OCR. Revisaremos algunos ejemplos para ilustrar ese concepto.

Cumplimiento de dispositivos médicos: en este primer ejemplo, una empresa farmacéutica multinacional con una amplia cartera de productos de patentes, dispositivos, medicamentos y tratamientos necesita analizar los documentos de resultados de análisis e información de etiquetas de producto compatibles con la FDA. Es posible que la empresa prefiera un umbral de valor de confianza bajo para aplicar humano en el circuito, ya que el costo de los datos extraídos incorrectamente puede tener un impacto significativo en los consumidores y las multas de las agencias reguladoras.
Procesamiento de imágenes y documentos: en este segundo ejemplo, una empresa realiza el procesamiento de solicitudes de seguros y préstamos. El cliente que usa OCR puede preferir un umbral de valor de confianza medio porque la extracción automatizada de texto se combina de bajada con otras entradas de información y pasos humanos en bucle para una revisión holística de las aplicaciones.
Moderación de contenido: para un gran volumen de datos de catálogo de comercio electrónico importados desde proveedores a escala, el cliente podría preferir un umbral de valor de confianza alto con alta precisión, ya que incluso un pequeño porcentaje de contenido marcado falsamente puede generar una gran sobrecarga para sus equipos de revisión y proveedores humanos.

Precisión a nivel de documento y entidad

Por ejemplo, en el nivel de documento, en el caso de una factura o recibo, un error de solo un carácter en todo el documento podría ser insignificante. Pero si ese error está en el texto que representa el importe pagado, la factura completa o el recibo podrían marcarse como incorrectos.

Otra métrica útil es la tasa de errores de entidad (EER). Es el porcentaje de entidades extraídas incorrectamente, como nombres, precios, importes y números de teléfono, fuera del número total de las entidades correspondientes en uno o varios documentos. Por ejemplo, para un total de 30 palabras que representan 10 nombres, 2 palabras incorrectas de 30 equivalen a 0,06 (6%) WER. Pero si eso da como resultado 2 nombres de 10 como incorrectos, el EER de Nombres es 0,20 (20 %), que es mucho mayor que el WER.

Medir WER y EER es un ejercicio útil para obtener una perspectiva completa sobre la precisión de la comprensión de documentos.

Procedimientos recomendados para mejorar el rendimiento del sistema

Tenga en cuenta los siguientes puntos sobre las limitaciones y el rendimiento:

El servicio admite imágenes y documentos. Para conocer los límites permitidos para el número de páginas, tamaños de imagen, tamaños de papel y tamaños de archivo, consulte ¿Qué es La inteligencia de documentos?.

Muchas variables pueden afectar a la precisión de los resultados de OCR sobre los que depende La inteligencia de documentos. Estas variables incluyen calidad, resolución, contraste, condiciones de luz, rotación y atributos de texto como tamaño, color y densidad. Por ejemplo, se recomienda que la imagen tenga al menos 50 x 50 píxeles. Consulte las especificaciones del producto y pruebe el servicio en sus documentos para comprobar si se adapta a su situación.
Tenga en cuenta las limitaciones de cada servicio con respecto a las entradas, idiomas y configuraciones regionales admitidos actualmente, y los tipos de documento. Por ejemplo, consulte los idiomas admitidos por el diseño.

Procedimientos recomendados para mejorar la calidad del modelo personalizado

Cuando estás usando el modelo personalizado de Document Intelligence, proporcionas tus propios datos de entrenamiento para que el modelo pueda entrenarse específicamente con tus formularios y documentos. En la lista siguiente se usa el tipo de modelo de formulario personalizado para compartir sugerencias de inicio para mejorar la calidad del modelo.

Para los formularios rellenados, use ejemplos que tienen todos sus campos rellenados.
Use formularios con valores reales que espera ver para cada campo.
Si las imágenes de formulario son de menor calidad, use un conjunto de datos mayor (por ejemplo, al menos 10-15 imágenes).

Para obtener una guía completa y los requisitos de entrada, consulte Creación de un conjunto de datos de entrenamiento para un modelo personalizado.

Evaluación de la inteligencia documental

El rendimiento de Document Intelligence variará en función de las soluciones reales para las que se implemente. Para garantizar un rendimiento óptimo en sus escenarios, los clientes deben realizar sus propias evaluaciones. El servicio proporciona un valor de confianza en el rango de 0 a 1 para cada palabra extraída y asignación clave-valor. Los clientes deben realizar un piloto o una prueba de concepto que represente su caso de uso para comprender el intervalo de valores de confianza y la calidad de extracción de la inteligencia de documentos. A continuación, pueden calcular los umbrales de valor de confianza para que los resultados se envíen para el procesamiento directo (STP) o se revisen mediante un humano. Por ejemplo, el cliente podría enviar resultados con valores de confianza mayores o iguales a .80 para el procesamiento directo y aplicar revisión humana a los resultados con valores de confianza inferiores a .80.

Evaluación e integración de la inteligencia documental para su uso

Microsoft quiere ayudarle a desarrollar e implementar soluciones de forma responsable que usen La inteligencia de documentos. Estamos adoptando un enfoque basado en principios para mantener la agencia personal y la dignidad considerando la imparcialidad, confiabilidad y seguridad de los sistemas de inteligencia artificial, privacidad y seguridad, inclusión, transparencia y responsabilidad humana. Estas consideraciones están en consonancia con nuestro compromiso con el desarrollo de inteligencia artificial responsable.

Cuando se esté preparando para desplegar productos o características con tecnología de inteligencia artificial, las siguientes actividades le ayudarán a prepararse para el éxito:

Comprenda lo que puede hacer: Evalúe completamente el potencial de La inteligencia de documentos para comprender sus funcionalidades y limitaciones. Comprenda cómo funcionará en su escenario y contexto concretos. Por ejemplo, si usa el modelo de factura precompilado, pruebe con facturas reales de los procesos empresariales para analizar y comparar los resultados con las métricas de proceso existentes.
Respetar el derecho de una persona a la privacidad: Solo recopile datos e información de personas con fines legales y justificables. Use solo los datos y la información que tenga consentimiento para usarlos para este propósito.
Revisión legal: Obtenga una revisión legal adecuada, especialmente si planea usarla en aplicaciones confidenciales o de alto riesgo. Comprenda qué restricciones podría necesitar para trabajar y su responsabilidad para resolver los problemas que podrían surgir en el futuro.
Humano en el bucle: Mantenga un ser humano en el bucle e incluya la supervisión humana como un área de patrón coherente para explorar. Esto significa garantizar una supervisión humana constante del producto o característica con tecnología de inteligencia artificial y mantener el papel de los seres humanos en la toma de decisiones. Asegúrese de que puede tener intervención humana en tiempo real en la solución para evitar daños. Un humano en el bucle permite administrar situaciones en las que La inteligencia de documentos no funciona según sea necesario.
Seguridad: Asegúrese de que la solución sea segura y que tenga controles adecuados para conservar la integridad del contenido y evitar el acceso no autorizado.

Recomendaciones para preservar la privacidad

Un enfoque de privacidad exitoso arma a las personas con información y proporciona controles y protección para preservar su privacidad.

Si La inteligencia de documentos forma parte de una solución diseñada para incorporar información de identificación personal (PII), piense detenidamente en si y cómo registrar esos datos. Siga las normativas nacionales y regionales aplicables sobre privacidad y datos confidenciales.
Los administradores de privacidad deben tener en cuenta las directivas de retención en el texto extraído y los valores, así como los documentos o imágenes subyacentes de esos documentos. Las directivas de retención estarán vinculadas al uso previsto de cada aplicación.