Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Le traitement intelligent des documents (IDP) convertit du contenu non structuré, tel que des fichiers PDF, des fichiers DOCX, des images et des présentations, en données structurées et enrichies qui alimentent les agents, applications et analyses en aval.
Avec Azure Databricks, vous pouvez créer des pipelines DDP de bout en bout directement sur lakehouse à l’aide de fonctions IA composables en mode natif, notamment ai_parse_document, ai_extractet ai_classify. Ces fonctions développées par la recherche sont conçues à des fins de traitement de documents hautes performances. Étant donné que tous les traitements s’exécutent dans Unity Catalog, vos pipelines IDP de niveau production restent sécurisés, régis et entièrement gérés sur place.
| Cas d'utilisation | Approche recommandée |
|---|---|
| Analyse de document | Convertissez des fichiers PDF, DOCX, images et PPT en descriptions structurées de texte, de tableaux et de figure. |
| Extraction d'informations | Extrayez des champs structurés à partir de documents ou de texte brut à l’aide d’un schéma que vous définissez. |
| Classifier le contenu | Affectez des catégories prédéfinies à des documents ou du texte, prenant en charge jusqu’à 500 étiquettes. |
Cas d’utilisation courants
Le fournisseur d’identité sur Azure Databricks alimente un large éventail d’applications en aval :
- Génération augmentée de récupération (RAG) : analyse et structure des documents pour améliorer la segmentation, la qualité du rappel et l’ancrage des applications LLM.
- Extraction et analytique des connaissances : extrayez les champs clés et les métadonnées pour activer la recherche, la création de rapports et l’intelligence décisionnelle sur les données de document.
- Flux de travail pilotés par l’agent : acheminer, classifier et enrichir des documents pour prendre en charge l’exécution automatisée des décisions et des tâches.
- Compréhension et classification des documents : organisez les grands corpus de documents par type, sujet ou contenu pour le traitement en aval.
Fonctionnement
Azure Databricks permet un traitement intelligent des documents en tant que flux de travail unifié de bout en bout sur lakehouse. L’ingestion, l’analyse, l’enrichissement et l’analyse en aval reposent sur une plateforme unique, de sorte que chaque étape fonctionne en toute transparence sans nécessiter d’intégration ou de déplacement de données complexe.
Ingérer et orchestrer
Utilisez les pipelines déclaratifs Spark Lakeflow pour ingérer des documents bruts (tels que des fichiers PDF, images et DOCX) et orchestrer vos pipelines. Étant donné que l’ingestion et l’orchestration sont intégrées en mode natif à Lakehouse, les documents circulent directement dans le traitement en aval sans infrastructure supplémentaire.
Analyser des documents (couche Bronze)
Appliquer
ai_parse_documentpour convertir des fichiers bruts en représentations structurées. Cela crée une couche bronze standardisée qui capture du texte, des tables/descriptions d’images et une structure de document, formant ainsi une base cohérente pour tous les cas d’usage en aval.Extraire et classer
Utilisez
ai_extractetai_classifypour enrichir des documents analysés avec des champs structurés et des métadonnées. Ces fonctions fonctionnent directement sur les sorties analysées, ce qui vous permet d’extraire des informations clés, de classer des documents et de les router via des workflows sans étapes de transformation supplémentaires.Analyser et opérationnaliser
Tirez parti d’autres fonctions IA ou d’autres outils (tableaux de bord IA/BI, applications, recherche vectorielle) pour l’analytique en aval, la récupération (RAG) et les flux de travail pilotés par les agents. Étant donné que toutes les données restent sur Lakehouse, les données de document structurées peuvent être utilisées immédiatement pour la recherche, les tableaux de bord et les applications.