Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Intelligent Document Processing (IDP) converteert ongestructureerde inhoud, zoals PDF's, DOCX-bestanden, afbeeldingen en presentaties, naar gestructureerde, verrijkte gegevens die stroomafwaartse agents, toepassingen en analyses mogelijk maken.
Met Azure Databricks kunt u end-to-end IDP-pijplijnen rechtstreeks in Lakehouse bouwen met systeemeigen samenstelbare AI-functies, waaronder ai_parse_document, ai_extracten ai_classify. Deze door onderzoek ontwikkelde functies zijn speciaal ontworpen voor documentverwerking met hoge prestaties. Omdat alle verwerkingen in Unity Catalog worden uitgevoerd, blijven uw IDP-pijplijnen op productieniveau veilig, beheerd en volledig beheerd.
| Gebruiksscenario | Aanbevolen benadering |
|---|---|
| Documentanalyse | Converteer PDF-bestanden, DOCX, afbeeldingen en PPT's naar gestructureerde tekst, tabellen en afbeeldingsbeschrijvingen. |
| Gegevensextractie | Haal gestructureerde velden op uit documenten of tekst zonder opmaak met behulp van een schema dat u definieert. |
| Inhoud classificeren | Wijs vooraf gedefinieerde categorieën toe aan documenten of tekst, die maximaal 500+ labels ondersteunen. |
Veelvoorkomende gebruiksvoorbeelden
IDP op Azure Databricks zorgt voor een breed scala aan downstreamtoepassingen:
- Rag (Retrieval-augmented generation): parseer en structureer documenten om segmentering, ophaalkwaliteit en gronding voor LLM-toepassingen te verbeteren.
- Kennisextractie en analyse: belangrijke velden en metagegevens extraheren om zoek-, rapportage- en business intelligence in te schakelen voor documentgegevens.
- Door agents gestuurde werkstromen: documenten routeren, classificeren en verrijken ter ondersteuning van geautomatiseerde besluitvorming en taakuitvoering.
- Documentkennis en -classificatie: organiseer grote documenten corpora op type, onderwerp of inhoud voor downstreamverwerking.
Hoe werkt het?
Azure Databricks maakt intelligente documentverwerking mogelijk als een geïntegreerde end-to-end werkstroom in Lakehouse. Opname-, parserings-, verrijkings- en downstreamanalyses zijn gebaseerd op één platform, dus elke fase werkt naadloos samen zonder complexe integratie of gegevensverplaatsing te vereisen.
Invoeren en orchestreren
Gebruik declaratieve pijplijnen van Lakeflow Spark om onbewerkte documenten (zoals PDF-bestanden, afbeeldingen en DOCX-bestanden) op te nemen en uw pijplijnen te organiseren. Omdat opname en indeling systeemeigen zijn geïntegreerd met Lakehouse, stromen documenten rechtstreeks naar downstreamverwerking zonder extra infrastructuur.
Documenten parseren (bronslaag)
Toepassen
ai_parse_documentom onbewerkte bestanden te converteren naar gestructureerde weergaven. Hiermee maakt u een gestandaardiseerde bronslaag die tekst, tabellen/afbeeldingsbeschrijvingen en documentstructuur vastlegt en een consistente basis vormt voor alle downstreamgebruiksscenario's.Extraheren en classificeren
Gebruik
ai_extractenai_classifyverrijk geparseerde documenten met gestructureerde velden en metagegevens. Deze functies werken rechtstreeks op de geparseerde uitvoer, zodat u belangrijke informatie kunt extraheren, documenten kunt classificeren en deze kunt routeren via werkstromen zonder extra transformatiestappen.Analyseren en operationeel maken
Maak gebruik van aanvullende AI-functies of andere hulpprogramma's (AI/BI-dashboards, Apps, Vector Search) voor downstreamanalyses, ophalen (RAG) en werkstromen op basis van agents. Omdat alle gegevens in Lakehouse blijven, kunnen gestructureerde documentgegevens onmiddellijk worden gebruikt voor zoeken, dashboards en toepassingen.