Condividi tramite


ai_parse_document

Analizza una colonna contenente dati binari (BLOB) e restituisce un valore VariantType. Genera un'eccezione se il BLOB di input non è valido.

Sintassi

from pyspark.databricks.sql import functions as dbf

dbf.ai_parse_document(col=<col>, options=<options>)

Parametri

Parametro TIPO Description
col pyspark.sql.Column o dati binari Nome di colonna o colonna contenente i BLOB binari da analizzare.
options dictopzionale Dizionario di opzioni per controllare il comportamento di analisi.

Restituzioni

pyspark.sql.Column: nuova colonna di VariantType contenente il risultato dell'analisi del documento. Il risultato include un document oggetto con pages matrici e elements insieme a error_status e metadata. Ogni elemento rappresenta un'unità discreta di contenuto all'interno del documento analizzato, ad esempio un paragrafo di testo, una tabella, una figura o un marcatore di layout. Per lo schema di output completo e i dettagli sugli elementi, vedere ai_parse_document.