Traitement intelligent des documents

Le traitement intelligent des documents (IDP) convertit du contenu non structuré, tel que des fichiers PDF, des fichiers DOCX, des images et des présentations, en données structurées et enrichies qui alimentent les agents, applications et analyses en aval.

Avec Azure Databricks, vous pouvez créer des pipelines DDP de bout en bout directement sur lakehouse à l’aide de fonctions IA composables en mode natif, notamment ai_parse_document, ai_extractet ai_classify. Ces fonctions développées par la recherche sont conçues à des fins de traitement de documents hautes performances. Étant donné que tous les traitements s’exécutent dans Unity Catalog, vos pipelines IDP de niveau production restent sécurisés, régis et entièrement gérés sur place.

Cas d'utilisation Approche recommandée
Analyse de document Convertissez des fichiers PDF, DOCX, images et PPT en descriptions structurées de texte, de tableaux et de figure.
Extraction d'informations Extrayez des champs structurés à partir de documents ou de texte brut à l’aide d’un schéma que vous définissez.
Classifier le contenu Affectez des catégories prédéfinies à des documents ou du texte, prenant en charge jusqu’à 500 étiquettes.

Cas d’utilisation courants

Le fournisseur d’identité sur Azure Databricks alimente un large éventail d’applications en aval :

  • Génération augmentée de récupération (RAG) : analyse et structure des documents pour améliorer la segmentation, la qualité du rappel et l’ancrage des applications LLM.
  • Extraction et analytique des connaissances : extrayez les champs clés et les métadonnées pour activer la recherche, la création de rapports et l’intelligence décisionnelle sur les données de document.
  • Flux de travail pilotés par l’agent : acheminer, classifier et enrichir des documents pour prendre en charge l’exécution automatisée des décisions et des tâches.
  • Compréhension et classification des documents : organisez les grands corpus de documents par type, sujet ou contenu pour le traitement en aval.

Fonctionnement

Azure Databricks permet un traitement intelligent des documents en tant que flux de travail unifié de bout en bout sur lakehouse. L’ingestion, l’analyse, l’enrichissement et l’analyse en aval reposent sur une plateforme unique, de sorte que chaque étape fonctionne en toute transparence sans nécessiter d’intégration ou de déplacement de données complexe.

  1. Ingérer et orchestrer

    Utilisez les pipelines déclaratifs Spark Lakeflow pour ingérer des documents bruts (tels que des fichiers PDF, images et DOCX) et orchestrer vos pipelines. Étant donné que l’ingestion et l’orchestration sont intégrées en mode natif à Lakehouse, les documents circulent directement dans le traitement en aval sans infrastructure supplémentaire.

  2. Analyser des documents (couche Bronze)

    Appliquer ai_parse_document pour convertir des fichiers bruts en représentations structurées. Cela crée une couche bronze standardisée qui capture du texte, des tables/descriptions d’images et une structure de document, formant ainsi une base cohérente pour tous les cas d’usage en aval.

  3. Extraire et classer

    Utilisez ai_extract et ai_classify pour enrichir des documents analysés avec des champs structurés et des métadonnées. Ces fonctions fonctionnent directement sur les sorties analysées, ce qui vous permet d’extraire des informations clés, de classer des documents et de les router via des workflows sans étapes de transformation supplémentaires.

  4. Analyser et opérationnaliser

    Tirez parti d’autres fonctions IA ou d’autres outils (tableaux de bord IA/BI, applications, recherche vectorielle) pour l’analytique en aval, la récupération (RAG) et les flux de travail pilotés par les agents. Étant donné que toutes les données restent sur Lakehouse, les données de document structurées peuvent être utilisées immédiatement pour la recherche, les tableaux de bord et les applications.