Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
El procesamiento inteligente de documentos (IDP) convierte contenido no estructurado (como archivos PDF, archivos DOCX, imágenes y presentaciones) en datos estructurados y enriquecidos que impulsan agentes, aplicaciones y análisis de nivel inferior.
Con Azure Databricks, puede crear canalizaciones de IDP de un extremo a otro directamente en Lakehouse mediante funciones de IA que se pueden componer de forma nativa, como ai_parse_document, ai_extracty ai_classify. Estas funciones desarrolladas por la investigación están diseñadas específicamente para el procesamiento de documentos de alto rendimiento. Dado que todas las ejecuciones de procesamiento se ejecutan en el catálogo de Unity, las canalizaciones de IDP de nivel de producción siguen siendo seguras, reguladas y totalmente administradas en su lugar.
| Caso de uso | Enfoque recomendado |
|---|---|
| Análisis de documentos | Convierta archivos PDF, DOCX, imágenes y PPT en texto estructurado, tablas y descripciones de figura. |
| Extracción de información | Extraiga campos estructurados de documentos o texto sin formato mediante un esquema que defina. |
| Clasificación de contenido | Asigne categorías predefinidas a documentos o texto y admita hasta 500 etiquetas. |
Casos de uso comunes
IDP en Azure Databricks potencia una amplia gama de aplicaciones posteriores.
- Generación aumentada de recuperación (RAG): analiza y estructura documentos para mejorar la fragmentación, la calidad de recuperación y la base conceptual de las aplicaciones LLM.
- Extracción y análisis de conocimientos: extraiga los campos clave y los metadatos para habilitar la búsqueda, los informes y la inteligencia empresarial en los datos del documento.
- Flujos de trabajo controlados por agentes: enrutar, clasificar y enriquecer documentos para admitir la toma de decisiones automatizada y la ejecución de tareas.
- Descripción y clasificación de documentos: organice grandes corporas de documentos por tipo, tema o contenido para el procesamiento descendente.
Cómo funciona
Azure Databricks permite el procesamiento inteligente de documentos como un flujo de trabajo unificado de un extremo a otro en Lakehouse. La ingesta, el análisis, el enriquecimiento y el análisis de bajada se basan en una sola plataforma, por lo que cada fase funciona sin problemas sin necesidad de integración compleja ni movimiento de datos.
Ingesta y orquestación
Utiliza las Pipelines declarativas de Spark de Lakeflow para ingerir documentos sin procesar (como archivos PDF, imágenes y archivos DOCX) y orquestar tus pipelines. Dado que la ingesta y la orquestación se integran de forma nativa con Lakehouse, los documentos fluyen directamente al procesamiento posterior sin infraestructura adicional.
Análisis de documentos (capa bronce)
Aplicar
ai_parse_documentpara convertir archivos sin procesar en representaciones estructuradas. Esto crea una capa de bronce estandarizada que captura texto, tablas/descripciones de imágenes y estructura de documentos, formando una base coherente para todos los casos de uso descendentes.Extracción y clasificación
Use
ai_extractyai_classifypara enriquecer documentos analizados con campos estructurados y metadatos. Estas funciones funcionan directamente en las salidas analizadas, lo que permite extraer información clave, clasificar documentos y enrutarlos a través de flujos de trabajo sin pasos de transformación adicionales.Análisis y puesta en funcionamiento
Aproveche funciones de IA adicionales u otras herramientas (paneles de IA/BI, aplicaciones, búsqueda vectorial) para análisis de nivel inferior, recuperación (RAG) y flujos de trabajo controlados por agentes. Dado que todos los datos permanecen en Lakehouse, los datos de documentos estructurados se pueden usar inmediatamente para la búsqueda, los paneles y las aplicaciones.