Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Intelligent dokumentbearbetning (IDP) konverterar ostrukturerat innehåll – till exempel PDF-filer, DOCX-filer, bilder och presentationer – till strukturerade, berikade data som driver underordnade agenter, program och analys.
Med Azure Databricks kan du skapa fullständiga IDP-pipelines direkt på Lakehouse med hjälp av inbyggt komponerbara "AI-funktioner", inklusive ai_parse_document, ai_extract, och ai_classify. Dessa forskningsutvecklade funktioner är specialbyggda för dokumentbearbetning med höga prestanda. Eftersom all bearbetning körs i Unity Catalog förblir dina IDP-pipelines i produktionsklass säkra, reglerade och fullständigt hanterade på plats.
| Användningsfall | Rekommenderad metod |
|---|---|
| Dokumentparsning | Konvertera PDF-filer, DOCX, bilder och PPT till strukturerade text-, tabeller- och bildbeskrivningar. |
| Extrahering av information | Hämta strukturerade fält från dokument eller oformaterad text med hjälp av ett schema som du definierar. |
| Klassificera innehåll | Tilldela fördefinierade kategorier till dokument eller text med stöd för upp till 500+ etiketter. |
Vanliga användningsfall
IDP på Azure Databricks driver en mängd olika underordnade program:
- RAG (Retrieval Augmented Generation): Parsa och strukturera dokument för att förbättra segmentering, hämtningskvalitet och grundläggning för LLM-program.
- Kunskapsextrahering och analys: Extrahera nyckelfält och metadata för att aktivera sökning, rapportering och business intelligence på dokumentdata.
- Agentdrivna arbetsflöden: Dirigera, klassificera och utöka dokument som stöd för automatiserat beslutsfattande och uppgiftskörning.
- Dokumenttolkning och -klassificering: Organisera stora dokumentkroppar efter typ, ämne eller innehåll för nedströmsbearbetning.
Så här fungerar det
Azure Databricks möjliggör intelligent dokumentbearbetning som ett enhetligt arbetsflöde från slutpunkt till slutpunkt på Lakehouse. Inmatning, parsning, berikning och nedströmsanalys bygger på en enda plattform, så varje steg fungerar sömlöst tillsammans utan att kräva komplex integrering eller dataförflyttning.
Mata in och orkestrera
Använd Lakeflow Spark Deklarativa Pipelines för att mata in rådokument (till exempel PDF-filer, bilder och DOCX-filer) och samordna dina pipelines. Eftersom inmatning och orkestrering är internt integrerade med Lakehouse flödar dokument direkt till nedströmsbearbetning utan ytterligare infrastruktur.
Bearbeta dokument (bronsskikt)
Använd
ai_parse_documentför att konvertera rådatafiler till strukturerade representationer. Detta skapar ett standardiserat bronsskikt som samlar in text, tabeller/bildbeskrivningar och dokumentstruktur, vilket utgör en konsekvent grund för alla underordnade användningsfall.Extrahera och klassificera
Använd
ai_extractochai_classifyför att utöka tolkade dokument med strukturerade fält och metadata. Dessa funktioner fungerar direkt på de parsade utdata, så att du kan extrahera viktig information, klassificera dokument och dirigera dem genom arbetsflöden utan ytterligare transformeringssteg.Analysera och operationalisera
Använd ytterligare AI Functions eller andra verktyg (AI/BI-instrumentpaneler, appar, vektorsökning) för nedströmsanalys, hämtning (RAG) och agentdrivna arbetsflöden. Eftersom alla data finns kvar på Lakehouse kan strukturerade dokumentdata omedelbart användas för sökning, instrumentpaneler och program.