Mata in filer från Google Drive

Viktigt!

Den här funktionen finns i Beta. Arbetsyteadministratörer kan styra åtkomsten till den här funktionen från sidan Förhandsversioner . Se Hantera Azure Databricks förhandsversioner.

:::note Efterlevnad

Google Drive-anslutningsappen stöder användning i arbetsytor med konfigurationen av utökade säkerhets- och efterlevnadsinställningar aktiverade.

:::

Med standardanslutningsappen för Google Drive i Lakeflow Connect kan du använda Azure Databricks Spark- och SQL-funktioner (read_files, spark.read, COPY INTO och Auto Loader) för att skapa Spark-dataramar, materialiserade vyer och strömmande tabeller direkt från filer i Google Drive.

Med den här metoden kan du skapa anpassade pipelines för vanliga användningsfall för filinmatning:

Strömmande filinmatning (ostrukturerad): Mata in många källfiler (till exempel PDF-filer, Google Docs och Google Slides) i en enda måltabell som binära data, perfekt för RAG-pipelines.
Strömmande filinmatning (strukturerad): Slå samman många källfiler (till exempel CSV- och JSON-filer) till en enda strukturerad måltabell.
Batchfilinmatning: Mata in en enskild, specifik fil (till exempel ett Google-blad) eller en batch med filer i en måltabell.

Dessa gränssnitt stöds:

Deklarativa automationspaket
Databricks-API:er
Databricks SDK:er
Databricks kommandoradsgränssnitt (CLI)

Begränsningar

Anslutningsappen är endast API och stöder inte skapande av pipeline i Azure Databricks användargränssnittet.
Du kan använda alternativet pathGlobFilter för att filtrera filer efter namn (till exempel pathGlobFilter => '*.csv'). Inbyggda Google-format (till exempel Google Docs eller Google Sheets) kan inte filtreras med det här alternativet. Mappsökvägsfiltrering stöds inte heller.
Format som inte stöds är Google Forms, Google Sites, Google Jams och Google Vids. Inmatningsprocessen hoppar över format som inte stöds.
Inställningen recursiveFileLookup=false stöds inte för Spark-batchläsningar. Att använda recursiveFileLookup=false kommer att bete sig på samma sätt som recursiveFileLookup=true.

Kravspecifikation

Innan du börjar kontrollerar du att du har:

En Unity Catalog-aktiverad arbetsyta.
CREATE CONNECTION behörigheter för att skapa en Google Drive-anslutning eller rätt behörighet att använda en befintlig som baseras på ditt klusteråtkomstläge:
- Dedikerat åtkomstläge: MANAGE CONNECTION.
- Standardåtkomstläge: USE CONNECTION.
Databricks Runtime 17.3 eller senare.
Funktionen beta i Excel filformat aktiverad om du vill mata in Google Sheets eller Excel filer. Se Läs Excel filer.
Ett Google-konto med nödvändiga behörigheter för att skapa ett Google Cloud-projekt.

Konfigurera OAuth 2.0

Konfigurera ett Google Cloud-projekt och aktivera Google Drive-API:et

Gå till Google Cloud-konsolen.
Skapa ett nytt projekt. Du kan uppmanas att konfigurera tvåfaktorautentisering.
Gå till API:er och tjänstebibliotek>.
Sök efter "Google Drive API".
Välj Google Drive API.
Välj Aktivera.

På startskärmen för Google Cloud-konsolen går du till SKÄRMEN FÖR API:er och tjänster > OAuth-medgivande. Du ser ett meddelande med texten "Google Auth Platform har inte konfigurerats ännu".
Välj Kom igång.
Fyll i avsnittet Appinformation . Ange valfritt namn på appnamnet (till exempel Databricks connection). E-postmeddelandet för support kan vara valfri e-post i din organisation.
Klicka på Nästa.
I avsnittet Målgrupp väljer du Extern och sedan Nästa.
Fyll i avsnittet Kontaktinformation och välj sedan Nästa.
Granska användardataprincipen för Google API Services och välj sedan Skapa.
Gå tillbaka till Google Auth Platform > Data Access.
Välj Lägg till eller ta bort omfång.
Lägg till följande omfång i avsnittet Lägg till omfång manuellt , välj Lägg till i tabellen och välj sedan Uppdatera: https://www.googleapis.com/auth/drive.readonly
Välj Spara.

Skapa OAuth 2.0-klientautentiseringsuppgifter

På startskärmen för Google Cloud-konsolen går du till API:er och autentiseringsuppgifter för tjänster>.
Välj Skapa autentiseringsuppgifter>OAuth-klient-ID.
Välj Webbprogram och ange ett anpassat namn.
I Auktoriserade omdirigerings-URI:er väljer du Lägg till URI.
Lägg till en omdirigerings-URI i <databricks-instance-url>/login/oauth/google.html och ersätt <databricks-instance-url> med din Azure Databricks instans-URL. Till exempel: https://instance-name.databricks.com/login/oauth/google.html
Välj Skapa. En dialogruta med dina autentiseringsuppgifter visas.
Registrera följande värden. Du kan också ladda ned OAuth Client JSON-filen, som innehåller den här informationen:
- Klient-ID (format: 0123******-********************************.apps.googleusercontent.com)
- Klienthemlighet (format: ABCD**-****************************)

Lägga till testanvändare i projektet

Gå till Google Auth Platform-målgrupp>.
Under Testa användare väljer du Lägg till användare.
Lägg till e-postadressen för det Google-konto som du ska använda för att skapa anslutningen.

Skapa en anslutning

På arbetsytan Azure Databricks väljer du Catalog > Externa platser > Anslutningar > Skapa anslutning.
På sidan Grunderna för anslutning i guiden Konfigurera anslutning anger du ett unikt anslutningsnamn.
I listrutan Anslutningstyp söker du efter och väljer Google Drive.
(Valfritt) Lägg till en kommentar.
Klicka på Nästa.
På sidan Autentisering anger du följande:
- OAuth-omfång: https://www.googleapis.com/auth/drive.readonly
- Klienthemlighet: Klienthemligheten från Skapa OAuth 2.0-klientautentiseringsuppgifter.
- Klient-ID: Klient-ID från Skapa OAuth 2.0-klientautentiseringsuppgifter.
Välj Logga in med Google och logga in med Google-kontot från Lägg till testanvändare i projektet.
Välj Fortsätt och välj sedan Fortsätt igen.
När du har omdirigerats tillbaka till Azure Databricks-arbetsytan väljer du Skapa anslutning.

Mata in filer från Google Drive

Mata in filer från Google Drive med anslutningsappen och read_files (Databricks SQL), Auto Loader (.readStream med cloudFiles), COPY INTOoch spark.read. Du måste ange följande värden:

Webbadressen till Google Drive som sökväg.
Unity Catalog-anslutning med datakällalternativet databricks.connection.
URL:en för den Google Drive-resurs som du vill komma åt. URL:en kan referera till en specifik fil, en mapp eller en hel enhet. Till exempel:
- https://docs.google.com/spreadsheets/d/12345/edit?random_query_params_here
- https://drive.google.com/drive/u/0/folders/12345
- https://docs.google.com/document/d/12345/edit
- https://drive.google.com/file/d/1kiXnHmU4Y8X66ijULky5EPDNCGtT14Ps/view?usp=drive_link
- https://drive.google.com/drive/
- https://drive.google.com/drive/my-drive
- https://drive.google.com/

Strömma Google Drive-filer med Auto Loader

Automatisk inläsning är det mest effektiva sättet att stegvis mata in strukturerade filer från Google Drive. Den identifierar automatiskt nya filer och bearbetar dem när de tas emot. Den kan också mata in strukturerade och halvstrukturerade filer som CSV och JSON med automatisk schemainferens och utveckling. Mer information om användning av automatisk inläsning finns i Vanliga datainläsningsmönster.

# Incrementally ingest new PDF files
df = (spark.readStream.format("cloudFiles")
    .option("cloudFiles.format", "binaryFile")
    .option("databricks.connection", "my_gdrive_conn")
    .option("cloudFiles.schemaLocation", <path to a schema location>)
    .option("pathGlobFilter", "*.pdf")
    .load("https://drive.google.com/drive/folders/1a2b3c4d...")
    .select("*", "_metadata")
)

# Incrementally ingest CSV files with automatic schema inference and evolution
df = (spark.readStream.format("cloudFiles")
    .option("cloudFiles.format", "csv")
    .option("databricks.connection", "my_gdrive_conn")
    .option("pathGlobFilter", "*.csv")
    .option("inferColumnTypes", True)
    .option("header", True)
    .load("https://drive.google.com/drive/folders/1a2b3c4d...")
)

Läsa Google Drive-filer med Spark batch read

I följande exempel visas hur du matar in Google Drive-filer i Python med hjälp av funktionen spark.read. En lista över filformat som stöds och Alternativ för Spark-läsare finns i Allmänna filkällaalternativ i Apache Spark-dokumentationen.

Inställningen recursiveFileLookup=false stöds inte för Spark-batchläsningar. Att använda recursiveFileLookup=false kommer att bete sig på samma sätt som recursiveFileLookup=true.

# Read unstructured data as binary files
df = (spark.read
        .format("binaryFile")
        .option("databricks.connection", "my_gdrive_conn")
        .option("recursiveFileLookup", True)
        .option("pathGlobFilter", "*.pdf")
        .load("https://drive.google.com/drive/folders/1a2b3c4d..."))

# Read a batch of CSV files, infer the schema, and load the data into a DataFrame
df = (spark.read
        .format("csv")
        .option("databricks.connection", "my_gdrive_conn")
        .option("pathGlobFilter", "*.csv")
        .option("recursiveFileLookup", True)
        .option("inferSchema", True)
        .option("header", True)
        .load("https://drive.google.com/drive/folders/1a2b3c4d..."))

Läsa en enda strukturerad Google Drive-fil

I följande exempel läses en enda flik i ett Google-blad och läses in i en DataFrame. Det visar några vanliga parsningsalternativ.

En fullständig lista över parsningsalternativ som stöds för Excel filer och Google Sheets finns i Läs Excel filer. En fullständig lista över alla andra filformat som stöds och Alternativ för Spark-läsare finns i Allmänna filkällaalternativ i Apache Spark-dokumentationen.

df = (spark.read
  .format("excel")  # use 'excel' for Google Sheets
  .option("databricks.connection", "my_gdrive_conn")
  .option("headerRows", 1) # optional
  .option("inferColumns", True) # optional
  .option("dataAddress", "Sheet1!A1:Z10")  # optional
  .load("https://docs.google.com/spreadsheets/d/9k8j7i6f..."))

Läsa Google Drive-filer med Spark SQL

I följande exempel visas hur du matar in Google Drive-filer i SQL med hjälp av read_files funktionen table-valued. Mer information om read_files användning finns i read_files tabellvärdesfunktionen.

-- Read pdf files
CREATE TABLE my_table AS
SELECT * FROM read_files(
  "https://drive.google.com/drive/folders/1a2b3c4d...",
  `databricks.connection` => "my_gdrive_conn",
  format => "binaryFile",
  pathGlobFilter => "*.pdf", -- optional. Example: only ingest PDFs
  schemaEvolutionMode => "none"
);

-- Read a Google Sheet and range
CREATE TABLE my_sheet_table AS
SELECT * FROM read_files(
  "https://docs.google.com/spreadsheets/d/9k8j7i6f...",
  `databricks.connection` => "my_gdrive_conn",
  format => "excel",
  headerRows => 1,  -- optional
  dataAddress => "Sheet1!A2:D10", -- optional
  schemaEvolutionMode => "none"
);

Importera Google Drive-filer med Lakeflow Spark deklarativa pipelines

Anmärkning

Google Drive-anslutningsappen kräver Databricks Runtime 17.3 eller senare. Om du vill använda anslutningsappen anger du "CHANNEL" = "PREVIEW" i dina pipelineinställningar. Mer information om förhandsversioner finns i Referens för pipelineegenskaper.

Det här exemplet visar hur du läser Google Drive-filer genom att använda Auto Loader i deklarativa Lakeflow Spark-pipelines. Mer information finns i Lakeflow Spark Deklarativa Pipelines

SQL

-- Incrementally ingest new PDF files
CREATE OR REFRESH STREAMING TABLE gdrive_pdf_table
AS SELECT * FROM STREAM read_files(
  "https://drive.google.com/drive/folders/1a2b3c4d...",
  format => "binaryFile",
  `databricks.connection` => "my_gdrive_conn",
  pathGlobFilter => "*.pdf");

-- Incrementally ingest CSV files with automatic schema inference and evolution
CREATE OR REFRESH STREAMING TABLE gdrive_csv_table
AS SELECT * FROM STREAM read_files(
  "https://drive.google.com/drive/folders/1a2b3c4d...",
  format => "csv",
  `databricks.connection` => "my_gdrive_conn",
  pathGlobFilter => "*.csv",
  "header", "true");

-- Read a specific Excel file from Google Drive in a materialized view
CREATE OR REFRESH MATERIALIZED VIEW gdrive_excel_table
AS SELECT * FROM read_files(
  "https://docs.google.com/spreadsheets/d/9k8j7i6f...",
  `databricks.connection` => "my_gdrive_conn",
  format => "excel",
  headerRows => 1,  -- optional
  dataAddress => "Sheet1!A2:D10", -- optional
  `cloudFiles.schemaEvolutionMode` => "none"
);

Python

from pyspark import pipelines as dp

# Incrementally ingest new PDF files
@dp.table
def gdrive_pdf_table():
  return (spark.readStream.format("cloudFiles")
    .option("cloudFiles.format", "binaryFile")
    .option("databricks.connection", "my_gdrive_conn")
    .option("pathGlobFilter", "*.pdf")
    .load("https://drive.google.com/drive/folders/1a2b3c4d...")
  )

# Incrementally ingest CSV files with automatic schema inference and evolution
@dp.table
def gdrive_csv_table():
  return (spark.readStream.format("cloudFiles")
      .option("cloudFiles.format", "csv")
      .option("databricks.connection", "my_gdrive_conn")
      .option("pathGlobFilter", "*.csv")
      .option("inferColumnTypes", True)
      .option("header", True)
      .load("https://drive.google.com/drive/folders/1a2b3c4d...")
  )

# Read a specific Excel file from Google Drive in a materialized view
@dp.table
def gdrive_excel_table():
  return (spark.read.format("excel")
    .option("databricks.connection", "my_gdrive_conn")
    .option("headerRows", 1) # optional
    .option("inferColumnTypes", True) # optional
    .option("dataAddress", "Sheet1!A1:M20") # optional
    .load("https://docs.google.com/spreadsheets/d/9k8j7i6f..."))

Parsa ostrukturerade filer med `ai_parse_document`

När du matar in ostrukturerade filer från Google Drive (till exempel PDF-filer, Word dokument eller PowerPoint filer) med hjälp av google drive-standardanslutningsappen med binaryFile format lagras filinnehållet som binära rådata. Om du vill förbereda dessa filer för AI-arbetsbelastningar , till exempel RAG, sökning, klassificering eller dokumenttolkning, kan du parsa det binära innehållet i strukturerade, frågebara utdata med hjälp av ai_parse_document.

I följande exempel visas hur du parsar ostrukturerade dokument som lagras i en deltatabell i brons med namnet documentsoch lägger till en ny kolumn med tolkat innehåll:

CREATE TABLE documents AS
SELECT *, _metadata FROM read_files(
  "https://drive.google.com/drive/folders/1a2b3c4d...",
  `databricks.connection` => "my_gdrive_conn",
  format => "binaryFile",
  pathGlobFilter => "*.{pdf,jpeg}"
);
SELECT *, ai_parse_document(content) AS parsed_content
FROM documents;

Kolumnen parsed_content innehåller extraherad text, tabeller, layoutinformation och metadata som kan användas direkt för underordnade AI-pipelines.

Inkrementell parsning med Lakeflow Spark Deklarativa Pipelines

Du kan också använda ai_parse_document i Lakeflow Spark Deklarativa pipelines för att aktivera inkrementell parsning. När nya filer strömmas in från Google Drive parsas de automatiskt som dina pipelineuppdateringar.

Du kan till exempel definiera en materialiserad vy som kontinuerligt parsar nyligen inmatade dokument:

CREATE OR REFRESH STREAMING TABLE documents
AS SELECT *, "_metadata" FROM STREAM read_files(
  "https://drive.google.com/drive/folders/1a2b3c4d...",
  format => "binaryFile",
  `databricks.connection` => "my_gdrive_conn",
  pathGlobFilter => "*.{pdf,jpeg}");

CREATE OR REFRESH MATERIALIZED VIEW documents_parsed
AS
SELECT *, ai_parse_document(content) AS parsed_content
FROM documents;

Den här metoden säkerställer att:

Nyligen inmatade Google Drive-filer parsas automatiskt när den materialiserade vyn uppdateras
Parsade utdata är synkroniserade med inkommande data
Nedströms AI-pipelines opererar alltid på uppdaterade dokumentrepresentationer

Information om format som stöds och avancerade alternativ finns i ai_parse_document funktion.

Så här hanteras inbyggda Google-format

Du behöver inte exportera dina inbyggda Google-filer (Docs, Sheets) manuellt. Anslutningsappen exporterar dem automatiskt till ett öppet format under inmatningen.

Google-format	Exporteras som (standard)
Google Docs	`application/vnd.openxmlformats-officedocument.wordprocessingml.document` (DOCX)
Google Kalkylark	`application/vnd.openxmlformats-officedocument.spreadsheetml.sheet` (XLSX)
Google Slides	`application/vnd.openxmlformats-officedocument.presentationml.presentation` (PPTX)
Google-ritningar	`application/pdf` (PDF)

Konfiguration av exportformat för Google Drive

Du kan konfigurera hur interna Google Drive-filer exporteras genom att ange Spark-konfigurationer med hjälp av spark.conf.set(). Dessa konfigurationer avgör vilken MIME typ som används vid export av Google Docs, Blad, Bilder och Ritningar.

Konfigurationsnycklar:

fs.gdrive.format.document.export: Google Docs-exportformat.
fs.gdrive.format.spreadsheet.export: Exportformat för Google Sheets.
fs.gdrive.format.presentation.export: Exportformat för Google Slides.
fs.gdrive.format.drawing.export: Exportformat för Google-ritningar.

En fullständig lista över exportformat som stöds finns i Exportera MIME-typer för Google Workspace-dokument i Google Workspace-dokumentationen.

I följande exempel exporteras en Google Docs-fil som TXT.

spark.conf.set("fs.gdrive.format.document.export", "text/plain")
df = spark.read.text("https://docs.google.com/document/d/1a2b3c4d...")

I följande exempel exporteras en Google Sheets-fil som CSV.

spark.conf.set("fs.gdrive.format.spreadsheet.export", "text/csv")
df = spark.read.option("header", "true").csv("https://docs.google.com/spreadsheets/d/1a2b3c4d...")

Schema

binaryFile-format

När du använder format => 'binaryFile'har den resulterande tabellen följande schema:

path (sträng): Den fullständiga URL:en till filen.
modificationTime (tidsstämpel): Den senaste ändrade tiden för filen.
length (lång): Storleken på filen i byte.
content (binär): Filens råa binära innehåll.

_metadatakolumn

Du kan hämta metadatainformation för indatafiler med _metadata kolumnen, till exempel file_name, file_path, file_sizeoch file_modification_time. Kolumnen _metadata är en dold kolumn och är tillgänglig för alla indatafilformat. Om du vill inkludera _metadata kolumnen i den returnerade DataFrame måste du uttryckligen välja den i den läsfråga där du anger källan. Mer information finns i kolumnen Filmetadata.

För interna Google Drive-filer (till exempel Google Docs, Google Sheets och Google Slides) file_size refererar fältet till storleken på filen som lagras på Google Drive, inte storleken på filen i det exporterade formatet (till exempel DOCX, XLSX eller PPTX).

Exempel på att _metadatavälja :

SELECT *, _metadata FROM read_files(
  "https://drive.google.com/",
  `databricks.connection` => "my_connection",
  format => "binaryFile"
);

Metadatakolumn för Google Drive

Viktigt!

Den här funktionen är en privat förhandsversion. Kontakta din Azure Databricks-kontakt om du vill prova det.

Kolumnen _gdrive_metadata är en dold metadatakolumn som ger åtkomst till Google Drive-specifika egenskaper för inmatade filer som kommer från Google Drive-resursenfiles. Det kräver Databricks Runtime 18.1 eller senare och är tillgängligt för alla filformat när du läser från Google Drive. Om du vill inkludera _gdrive_metadata kolumnen i den returnerade DataFrame måste du uttryckligen välja den i läsfrågan.

Om datakällan innehåller en kolumn med namnet _gdrive_metadataändras metadatakolumnen för Google Drive till __gdrive_metadata (med ett extra inledande understreck) för att deduplicera. Ytterligare understreck läggs till tills namnet är unikt.

Vanliga filmetadata som filsökvägen eller storleken kan efterfrågas med hjälp av _metadata kolumnen. Mer information finns i kolumnen Filmetadata.

Schema

Kolumnen _gdrive_metadata innehåller STRUCT följande fält. Alla fält är nullbara.

Namn	Type	Description	Exempel	Lägsta Databricks Runtime version
ID	`STRING`	Google Drive-fil-ID .	`1pCzwOApmvUJCtXtav265-i4E7mYf2feF`	18.1
drive_id	`STRING`	ID:t för den delade enhet som innehåller filen. `null` för filer i en användares Min enhet.	`0ABpL6n51HPGXUk9PVA`	18.1
parent_id	`STRING`	ID:t för filens överordnade mapp. Google Drive-filer kan ha flera överordnade mappar; detta returnerar den första.	`1a2b3c4d5e6f7g8h9i0j`	18.1
web_url	`STRING`	Webbläsarens URL för filen på Google Drive.	`https://drive.google.com/file/d/1pCzwOApmvUJCtXtav265-i4E7mYf2feF/view`	18.1
mime_type	`STRING`	MIME-typen för filen. För Google Workspace-filer är detta den interna Google-typen (till exempel `application/vnd.google-apps.document`), inte den exporterade typen.	`text/csv`	18.1
md5_checksum	`STRING`	MD5-kontrollsumman för filens innehåll. Endast ifyllda för binära filer. `null` för Google Workspace-filer.	`06ffb3e392fc5459e5322aad81b4f78b`	18.1
version	`STRING`	Ett monotont ökande versionsnummer för filen.	`12`	18.1
created_timestamp	`TIMESTAMP`	Den tid då filen skapades.	`2025-12-01 10:16:19`	18.1
senast_ändrad_av_e-post	`STRING`	E-postmeddelandet till den användare som senast ändrade filen.	`alice@example.com`	18.1
last_modified_by_name	`STRING`	Visningsnamnet för den användare som senast ändrade filen.	`Alice Example`	18.1
delade	`BOOLEAN`	Om filen har delats med andra användare än ägaren.	`true`	18.1
egenskaper	`VARIANT`	Anpassade offentliga egenskaper som angetts för filen. Se Egenskaper i Drive API:et.	`{"department":"finance"}`	18.1
additional_metadata	`VARIANT`	Alla andra filresursfält som returneras av Drive API:et men inte extraheras ovan.	`{"capabilities":{"canEdit":true},...}`	18.1

Anmärkning

Fälten properties och additional_metadata returneras som VARIANT. Se VARIANT typ.

Exempel

I följande exempel visas hur du inkluderar _gdrive_metadata kolumnen i en läsfråga, väljer specifika fält i kolumnen och extraherar värden från VARIANT fält.

Python

df = (spark.read
  .format("binaryFile")
  .option("databricks.connection", "my_gdrive_conn")
  .load("https://drive.google.com/drive/folders/1a2b3c4d...")
  .select("*", "_metadata", "_gdrive_metadata"))

SQL

SELECT *, _gdrive_metadata
FROM read_files(
  "https://drive.google.com/drive/folders/1a2b3c4d...",
  `databricks.connection` => "my_gdrive_conn",
  format => "binaryFile"
);

Välj specifika fält från structen _gdrive_metadata :

df = (spark.read
  .format("binaryFile")
  .option("databricks.connection", "my_gdrive_conn")
  .load("https://drive.google.com/drive/folders/1a2b3c4d...")
  .select("_gdrive_metadata.id", "_gdrive_metadata.md5_checksum"))

Extrahera värden från fälten properties eller additional_metadataVARIANT med hjälp av castoperatorn :: :

SELECT
  *,
  _gdrive_metadata.properties:department::STRING AS department
FROM read_files(
  "https://drive.google.com/drive/folders/1a2b3c4d...",
  `databricks.connection` => "my_gdrive_conn",
  format => "binaryFile"
);

Vanliga frågor

Jag har en mapp med flera strukturerade filer (till exempel flera Google Sheets). Hur läser jag in varje blad eller fil som en egen Delta-tabell?

Du måste skapa en ny inmatningsfråga för varje fil som ska matas in i en egen Delta-tabell.

Mina filer kräver anpassad parsning. Hur anger jag dessa parsningsparametrar för att se till att mina filer läss korrekt?

Anslutningsappen stöder alla filformatalternativ som är tillgängliga i Auto Loader, COPY INTOoch Spark. Mer information finns i följande:

Bearbetas filer i undermappar rekursivt?

När du använder API:er för automatisk inläsning (spark.readStream och read_files) identifieras och matas alla undermappar rekursivt. Detta gäller även för batch spark.read, där filer i den angivna mappsökvägen alltid läses rekursivt.

Mitt Google-blad har många oegentligheter och kräver specifik parsning och extrahering av cellintervall (till exempel flera tabeller per ark). Schemat kan inte härledas automatiskt. Hur hanterar jag det här?

Du kan använda Excel filformatspareringsalternativ för att parsa Din Google-arkfil till önskat format. Se Läs Excel filer.

Du kan också inaktivera schemainferens för Auto Loader, PySpark eller read_files. Den resulterande tabellen har standardkolumnnamn, alla datatyper skickas till en sträng och tabellen kan vara gles. Du kan sedan utföra nödvändiga transformeringar nedströms.

Nästa steg

Feedback

Var den här sidan till hjälp?

Last updated on 2026-04-25

Mata in filer från Google Drive

Begränsningar

Kravspecifikation

Konfigurera OAuth 2.0

Konfigurera ett Google Cloud-projekt och aktivera Google Drive-API:et

Konfigurera skärmen för OAuth-medgivande för projektet

Skapa OAuth 2.0-klientautentiseringsuppgifter

Lägga till testanvändare i projektet

Skapa en anslutning

Mata in filer från Google Drive

Strömma Google Drive-filer med Auto Loader

Läsa Google Drive-filer med Spark batch read

Läsa en enda strukturerad Google Drive-fil

Läsa Google Drive-filer med Spark SQL

Importera Google Drive-filer med Lakeflow Spark deklarativa pipelines

SQL

Python

Parsa ostrukturerade filer med ai_parse_document

Inkrementell parsning med Lakeflow Spark Deklarativa Pipelines

Så här hanteras inbyggda Google-format

Konfiguration av exportformat för Google Drive

Schema

Metadatakolumn för Google Drive

Schema

Exempel

Python

SQL

Vanliga frågor

Nästa steg

Feedback

Ytterligare resurser

Parsa ostrukturerade filer med `ai_parse_document`