Document parsering

Documentparsering maakt gebruik van geavanceerde onderzoekstechnieken voor het extraheren en visualiseren van gestructureerde gegevens uit een breed scala aan documenttypen, waaronder maar niet beperkt tot PDF-bestanden, afbeeldingen, Word documenten (DOC/DOCX) en PowerPoint bestanden (PPT/PPTX). Het is ontworpen voor het verwerken van complexe indelingen, zoals tabellen, grafieken en gemengde inhoud van tekstafbeeldingen.

Documentparsering is gebaseerd op de ai_parse_document functie en bevat een gebruikersinterface waarmee u documenten kunt parseren en de structuur onmiddellijk kunt inspecteren via opgemaakte tekst of gestructureerde JSON-uitvoer.

Requirements

Documenten parseren

Gebruik documentparsering om uw documenten te parseren en hun structuur te visualiseren.

  1. Ga naar het pictogram Agents.Agents in het linkernavigatiedeelvenster van uw werkruimte.
  2. Klik op Agent maken>Documentparsering.
  3. Selecteer het brondocument. U kunt ervoor kiezen om een bestand te uploaden of een bestand te selecteren in een bestaande Unity Catalog-catalogus. Ondersteunde indelingen zijn: PDF, afbeeldingen, DOC/DOCX en PPT/PPTX.
  4. Klik op Document parseren.

Het parseren van uw document kan enkele minuten duren. Wanneer u klaar bent, wordt in documentparsering het brondocument aan de linkerkant en het geparseerde document aan de rechterkant weergegeven. U kunt ervoor kiezen om het geparseerde document weer te geven als opgemaakte tekst of onbewerkte JSON.

Gebruikersinterface voor documentparsering met bron- en geparseerd document naast elkaar

Proces- en queryresultaten

Als u de ai_parse_document query wilt weergeven en op meer documenten wilt uitvoeren, klikt u op Agent gebruiken en kiest u ervoor om de query uit te voeren vanuit de SQL Editor of Notebook. U kunt de query bewerken zodat deze verwijst naar het volume of de tabel waarin uw documenten zich bevinden.

Documentparsering biedt een UI-interface voor de SQL-functie ai_parse_document. Zie de ai_parse_document referentiepagina voor meer geavanceerde voorbeelden en details.

Beperkingen

Zie ai_parse_document beperkingen.