Dokumentparsning

Dokumentparsning använder toppmoderna forskningstekniker för att extrahera och visualisera strukturerade data från en mängd olika dokumenttyper, inklusive men inte begränsat till PDF-filer, bilder, Word dokument (DOC/DOCX) och PowerPoint filer (PPT/PPTX). Den är utformad för att hantera komplexa layouter som tabeller, diagram och blandat textbildinnehåll.

Dokumentparsning bygger på ai_parse_document funktionen och innehåller ett användargränssnitt som gör att du kan parsa dokument och omedelbart inspektera deras struktur genom formaterad text eller strukturerade JSON-utdata.

Requirements

Analysera dokument

Använd Dokumentparsning för att parsa dina dokument och visualisera deras struktur.

  1. Gå till agentikonen.Agenter i det vänstra navigeringsfönstret på arbetsytan.
  2. Klicka på Skapa agent>Dokumentparsing.
  3. Välj källdokumentet. Du kan välja att ladda upp en fil eller välja en från en befintlig Unity-katalogkatalog. Format som stöds är: PDF, bilder, DOC/DOCX och PPT/PPTX.
  4. Klicka på Parsa dokument.

Det kan ta några minuter att parsa dokumentet. När dokumentparsers har slutförts visas källdokumentet till vänster och det tolkade dokumentet till höger. Du kan välja att visa det tolkade dokumentet som Formaterad text eller Rå JSON.

Användargränssnitt för dokumentparsning som visar källa och tolkat dokument sida vid sida

Bearbeta och fråga efter resultat

Om du vill visa ai_parse_document frågan och köra den i fler dokument klickar du på Använd agent och väljer antingen att köra frågan från SQL-redigeraren eller notebook-filen. Du kan redigera frågan så att den pekar på volymen eller tabellen som dokumenten finns i.

Dokumentparsning tillhandahåller ett gränssnittsgränssnitt för SQL-funktionen ai_parse_document. Mer avancerade exempel och information finns på ai_parse_document referenssidan.

Begränsningar

Se ai_parse_document begränsningar.