Mata in filer från Google Drive

Viktigt!

Den här funktionen finns i Beta. Arbetsyteadministratörer kan styra åtkomsten till den här funktionen från sidan Förhandsversioner . Se Hantera Azure Databricks förhandsversioner.

:::note Efterlevnad

Google Drive-anslutningsappen stöder användning i arbetsytor med konfigurationen av utökade säkerhets- och efterlevnadsinställningar aktiverade.

:::

Med standardanslutningsappen för Google Drive i Lakeflow Connect kan du använda Azure Databricks Spark- och SQL-funktioner (read_files, spark.read, COPY INTO och Auto Loader) för att skapa Spark-dataramar, materialiserade vyer och strömmande tabeller direkt från filer i Google Drive.

Med den här metoden kan du skapa anpassade pipelines för vanliga användningsfall för filinmatning:

  • Strömmande filinmatning (ostrukturerad): Mata in många källfiler (till exempel PDF-filer, Google Docs och Google Slides) i en enda måltabell som binära data, perfekt för RAG-pipelines.
  • Strömmande filinmatning (strukturerad): Slå samman många källfiler (till exempel CSV- och JSON-filer) till en enda strukturerad måltabell.
  • Batchfilinmatning: Mata in en enskild, specifik fil (till exempel ett Google-blad) eller en batch med filer i en måltabell.

Dessa gränssnitt stöds:

  • Deklarativa automationspaket
  • Databricks-API:er
  • Databricks SDK:er
  • Databricks kommandoradsgränssnitt (CLI)

Begränsningar

  • Anslutningsappen är endast API och stöder inte skapande av pipeline i Azure Databricks användargränssnittet.
  • Du kan använda alternativet pathGlobFilter för att filtrera filer efter namn (till exempel pathGlobFilter => '*.csv'). Inbyggda Google-format (till exempel Google Docs eller Google Sheets) kan inte filtreras med det här alternativet. Mappsökvägsfiltrering stöds inte heller.
  • Format som inte stöds är Google Forms, Google Sites, Google Jams och Google Vids. Inmatningsprocessen hoppar över format som inte stöds.
  • Inställningen recursiveFileLookup=false stöds inte för Spark-batchläsningar. Att använda recursiveFileLookup=false kommer att bete sig på samma sätt som recursiveFileLookup=true.

Kravspecifikation

Innan du börjar kontrollerar du att du har:

  • En Unity Catalog-aktiverad arbetsyta.
  • CREATE CONNECTION behörigheter för att skapa en Google Drive-anslutning eller rätt behörighet att använda en befintlig som baseras på ditt klusteråtkomstläge:
    • Dedikerat åtkomstläge: MANAGE CONNECTION.
    • Standardåtkomstläge: USE CONNECTION.
  • Databricks Runtime 17.3 eller senare.
  • Funktionen beta i Excel filformat aktiverad om du vill mata in Google Sheets eller Excel filer. Se Läs Excel filer.
  • Ett Google-konto med nödvändiga behörigheter för att skapa ett Google Cloud-projekt.

Konfigurera OAuth 2.0

Konfigurera ett Google Cloud-projekt och aktivera Google Drive-API:et

  1. Gå till Google Cloud-konsolen.
  2. Skapa ett nytt projekt. Du kan uppmanas att konfigurera tvåfaktorautentisering.
  3. Gå till API:er och tjänstebibliotek>.
  4. Sök efter "Google Drive API".
  5. Välj Google Drive API.
  6. Välj Aktivera.
  1. På startskärmen för Google Cloud-konsolen går du till SKÄRMEN FÖR API:er och tjänster > OAuth-medgivande. Du ser ett meddelande med texten "Google Auth Platform har inte konfigurerats ännu".
  2. Välj Kom igång.
  3. Fyll i avsnittet Appinformation . Ange valfritt namn på appnamnet (till exempel Databricks connection). E-postmeddelandet för support kan vara valfri e-post i din organisation.
  4. Klicka på Nästa.
  5. I avsnittet Målgrupp väljer du Extern och sedan Nästa.
  6. Fyll i avsnittet Kontaktinformation och välj sedan Nästa.
  7. Granska användardataprincipen för Google API Services och välj sedan Skapa.
  8. Gå tillbaka till Google Auth Platform > Data Access.
  9. Välj Lägg till eller ta bort omfång.
  10. Lägg till följande omfång i avsnittet Lägg till omfång manuellt , välj Lägg till i tabellen och välj sedan Uppdatera: https://www.googleapis.com/auth/drive.readonly
  11. Välj Spara.

Skapa OAuth 2.0-klientautentiseringsuppgifter

  1. På startskärmen för Google Cloud-konsolen går du till API:er och autentiseringsuppgifter för tjänster>.
  2. Välj Skapa autentiseringsuppgifter>OAuth-klient-ID.
  3. Välj Webbprogram och ange ett anpassat namn.
  4. I Auktoriserade omdirigerings-URI:er väljer du Lägg till URI.
  5. Lägg till en omdirigerings-URI i <databricks-instance-url>/login/oauth/google.html och ersätt <databricks-instance-url> med din Azure Databricks instans-URL. Till exempel: https://instance-name.databricks.com/login/oauth/google.html
  6. Välj Skapa. En dialogruta med dina autentiseringsuppgifter visas.
  7. Registrera följande värden. Du kan också ladda ned OAuth Client JSON-filen, som innehåller den här informationen:
    • Klient-ID (format: 0123******-********************************.apps.googleusercontent.com)
    • Klienthemlighet (format: ABCD**-****************************)

Lägga till testanvändare i projektet

  1. Gå till Google Auth Platform-målgrupp>.
  2. Under Testa användare väljer du Lägg till användare.
  3. Lägg till e-postadressen för det Google-konto som du ska använda för att skapa anslutningen.

Skapa en anslutning

  1. På arbetsytan Azure Databricks väljer du Catalog > Externa platser > Anslutningar > Skapa anslutning.

  2. På sidan Grunderna för anslutning i guiden Konfigurera anslutning anger du ett unikt anslutningsnamn.

  3. I listrutan Anslutningstyp söker du efter och väljer Google Drive.

  4. (Valfritt) Lägg till en kommentar.

  5. Klicka på Nästa.

  6. På sidan Autentisering anger du följande:

  7. Välj Logga in med Google och logga in med Google-kontot från Lägg till testanvändare i projektet.

  8. Välj Fortsätt och välj sedan Fortsätt igen.

  9. När du har omdirigerats tillbaka till Azure Databricks-arbetsytan väljer du Skapa anslutning.

Mata in filer från Google Drive

Mata in filer från Google Drive med anslutningsappen och read_files (Databricks SQL), Auto Loader (.readStream med cloudFiles), COPY INTOoch spark.read. Du måste ange följande värden:

  • Webbadressen till Google Drive som sökväg.
  • Unity Catalog-anslutning med datakällalternativet databricks.connection.
  • URL:en för den Google Drive-resurs som du vill komma åt. URL:en kan referera till en specifik fil, en mapp eller en hel enhet. Till exempel:
    • https://docs.google.com/spreadsheets/d/12345/edit?random_query_params_here
    • https://drive.google.com/drive/u/0/folders/12345
    • https://docs.google.com/document/d/12345/edit
    • https://drive.google.com/file/d/1kiXnHmU4Y8X66ijULky5EPDNCGtT14Ps/view?usp=drive_link
    • https://drive.google.com/drive/
    • https://drive.google.com/drive/my-drive
    • https://drive.google.com/

Strömma Google Drive-filer med Auto Loader

Automatisk inläsning är det mest effektiva sättet att stegvis mata in strukturerade filer från Google Drive. Den identifierar automatiskt nya filer och bearbetar dem när de tas emot. Den kan också mata in strukturerade och halvstrukturerade filer som CSV och JSON med automatisk schemainferens och utveckling. Mer information om användning av automatisk inläsning finns i Vanliga datainläsningsmönster.

# Incrementally ingest new PDF files
df = (spark.readStream.format("cloudFiles")
    .option("cloudFiles.format", "binaryFile")
    .option("databricks.connection", "my_gdrive_conn")
    .option("cloudFiles.schemaLocation", <path to a schema location>)
    .option("pathGlobFilter", "*.pdf")
    .load("https://drive.google.com/drive/folders/1a2b3c4d...")
    .select("*", "_metadata")
)

# Incrementally ingest CSV files with automatic schema inference and evolution
df = (spark.readStream.format("cloudFiles")
    .option("cloudFiles.format", "csv")
    .option("databricks.connection", "my_gdrive_conn")
    .option("pathGlobFilter", "*.csv")
    .option("inferColumnTypes", True)
    .option("header", True)
    .load("https://drive.google.com/drive/folders/1a2b3c4d...")
)

Läsa Google Drive-filer med Spark batch read

I följande exempel visas hur du matar in Google Drive-filer i Python med hjälp av funktionen spark.read. En lista över filformat som stöds och Alternativ för Spark-läsare finns i Allmänna filkällaalternativ i Apache Spark-dokumentationen.

Inställningen recursiveFileLookup=false stöds inte för Spark-batchläsningar. Att använda recursiveFileLookup=false kommer att bete sig på samma sätt som recursiveFileLookup=true.

# Read unstructured data as binary files
df = (spark.read
        .format("binaryFile")
        .option("databricks.connection", "my_gdrive_conn")
        .option("recursiveFileLookup", True)
        .option("pathGlobFilter", "*.pdf")
        .load("https://drive.google.com/drive/folders/1a2b3c4d..."))

# Read a batch of CSV files, infer the schema, and load the data into a DataFrame
df = (spark.read
        .format("csv")
        .option("databricks.connection", "my_gdrive_conn")
        .option("pathGlobFilter", "*.csv")
        .option("recursiveFileLookup", True)
        .option("inferSchema", True)
        .option("header", True)
        .load("https://drive.google.com/drive/folders/1a2b3c4d..."))

Läsa en enda strukturerad Google Drive-fil

I följande exempel läses en enda flik i ett Google-blad och läses in i en DataFrame. Det visar några vanliga parsningsalternativ.

En fullständig lista över parsningsalternativ som stöds för Excel filer och Google Sheets finns i Läs Excel filer. En fullständig lista över alla andra filformat som stöds och Alternativ för Spark-läsare finns i Allmänna filkällaalternativ i Apache Spark-dokumentationen.

df = (spark.read
  .format("excel")  # use 'excel' for Google Sheets
  .option("databricks.connection", "my_gdrive_conn")
  .option("headerRows", 1) # optional
  .option("inferColumns", True) # optional
  .option("dataAddress", "Sheet1!A1:Z10")  # optional
  .load("https://docs.google.com/spreadsheets/d/9k8j7i6f..."))

Läsa Google Drive-filer med Spark SQL

I följande exempel visas hur du matar in Google Drive-filer i SQL med hjälp av read_files funktionen table-valued. Mer information om read_files användning finns i read_files tabellvärdesfunktionen.

-- Read pdf files
CREATE TABLE my_table AS
SELECT * FROM read_files(
  "https://drive.google.com/drive/folders/1a2b3c4d...",
  `databricks.connection` => "my_gdrive_conn",
  format => "binaryFile",
  pathGlobFilter => "*.pdf", -- optional. Example: only ingest PDFs
  schemaEvolutionMode => "none"
);

-- Read a Google Sheet and range
CREATE TABLE my_sheet_table AS
SELECT * FROM read_files(
  "https://docs.google.com/spreadsheets/d/9k8j7i6f...",
  `databricks.connection` => "my_gdrive_conn",
  format => "excel",
  headerRows => 1,  -- optional
  dataAddress => "Sheet1!A2:D10", -- optional
  schemaEvolutionMode => "none"
);

Importera Google Drive-filer med Lakeflow Spark deklarativa pipelines

Anmärkning

Google Drive-anslutningsappen kräver Databricks Runtime 17.3 eller senare. Om du vill använda anslutningsappen anger du "CHANNEL" = "PREVIEW" i dina pipelineinställningar. Mer information om förhandsversioner finns i Referens för pipelineegenskaper.

Det här exemplet visar hur du läser Google Drive-filer genom att använda Auto Loader i deklarativa Lakeflow Spark-pipelines. Mer information finns i Lakeflow Spark Deklarativa Pipelines

SQL

-- Incrementally ingest new PDF files
CREATE OR REFRESH STREAMING TABLE gdrive_pdf_table
AS SELECT * FROM STREAM read_files(
  "https://drive.google.com/drive/folders/1a2b3c4d...",
  format => "binaryFile",
  `databricks.connection` => "my_gdrive_conn",
  pathGlobFilter => "*.pdf");

-- Incrementally ingest CSV files with automatic schema inference and evolution
CREATE OR REFRESH STREAMING TABLE gdrive_csv_table
AS SELECT * FROM STREAM read_files(
  "https://drive.google.com/drive/folders/1a2b3c4d...",
  format => "csv",
  `databricks.connection` => "my_gdrive_conn",
  pathGlobFilter => "*.csv",
  "header", "true");

-- Read a specific Excel file from Google Drive in a materialized view
CREATE OR REFRESH MATERIALIZED VIEW gdrive_excel_table
AS SELECT * FROM read_files(
  "https://docs.google.com/spreadsheets/d/9k8j7i6f...",
  `databricks.connection` => "my_gdrive_conn",
  format => "excel",
  headerRows => 1,  -- optional
  dataAddress => "Sheet1!A2:D10", -- optional
  `cloudFiles.schemaEvolutionMode` => "none"
);

Python

from pyspark import pipelines as dp

# Incrementally ingest new PDF files
@dp.table
def gdrive_pdf_table():
  return (spark.readStream.format("cloudFiles")
    .option("cloudFiles.format", "binaryFile")
    .option("databricks.connection", "my_gdrive_conn")
    .option("pathGlobFilter", "*.pdf")
    .load("https://drive.google.com/drive/folders/1a2b3c4d...")
  )

# Incrementally ingest CSV files with automatic schema inference and evolution
@dp.table
def gdrive_csv_table():
  return (spark.readStream.format("cloudFiles")
      .option("cloudFiles.format", "csv")
      .option("databricks.connection", "my_gdrive_conn")
      .option("pathGlobFilter", "*.csv")
      .option("inferColumnTypes", True)
      .option("header", True)
      .load("https://drive.google.com/drive/folders/1a2b3c4d...")
  )

# Read a specific Excel file from Google Drive in a materialized view
@dp.table
def gdrive_excel_table():
  return (spark.read.format("excel")
    .option("databricks.connection", "my_gdrive_conn")
    .option("headerRows", 1) # optional
    .option("inferColumnTypes", True) # optional
    .option("dataAddress", "Sheet1!A1:M20") # optional
    .load("https://docs.google.com/spreadsheets/d/9k8j7i6f..."))

Parsa ostrukturerade filer med ai_parse_document

När du matar in ostrukturerade filer från Google Drive (till exempel PDF-filer, Word dokument eller PowerPoint filer) med hjälp av google drive-standardanslutningsappen med binaryFile format lagras filinnehållet som binära rådata. Om du vill förbereda dessa filer för AI-arbetsbelastningar , till exempel RAG, sökning, klassificering eller dokumenttolkning, kan du parsa det binära innehållet i strukturerade, frågebara utdata med hjälp av ai_parse_document.

I följande exempel visas hur du parsar ostrukturerade dokument som lagras i en deltatabell i brons med namnet documentsoch lägger till en ny kolumn med tolkat innehåll:

CREATE TABLE documents AS
SELECT *, _metadata FROM read_files(
  "https://drive.google.com/drive/folders/1a2b3c4d...",
  `databricks.connection` => "my_gdrive_conn",
  format => "binaryFile",
  pathGlobFilter => "*.{pdf,jpeg}"
);
SELECT *, ai_parse_document(content) AS parsed_content
FROM documents;

Kolumnen parsed_content innehåller extraherad text, tabeller, layoutinformation och metadata som kan användas direkt för underordnade AI-pipelines.

Inkrementell parsning med Lakeflow Spark Deklarativa Pipelines

Du kan också använda ai_parse_document i Lakeflow Spark Deklarativa pipelines för att aktivera inkrementell parsning. När nya filer strömmas in från Google Drive parsas de automatiskt som dina pipelineuppdateringar.

Du kan till exempel definiera en materialiserad vy som kontinuerligt parsar nyligen inmatade dokument:

CREATE OR REFRESH STREAMING TABLE documents
AS SELECT *, "_metadata" FROM STREAM read_files(
  "https://drive.google.com/drive/folders/1a2b3c4d...",
  format => "binaryFile",
  `databricks.connection` => "my_gdrive_conn",
  pathGlobFilter => "*.{pdf,jpeg}");

CREATE OR REFRESH MATERIALIZED VIEW documents_parsed
AS
SELECT *, ai_parse_document(content) AS parsed_content
FROM documents;

Den här metoden säkerställer att:

  • Nyligen inmatade Google Drive-filer parsas automatiskt när den materialiserade vyn uppdateras
  • Parsade utdata är synkroniserade med inkommande data
  • Nedströms AI-pipelines opererar alltid på uppdaterade dokumentrepresentationer

Information om format som stöds och avancerade alternativ finns i ai_parse_document funktion.

Så här hanteras inbyggda Google-format

Du behöver inte exportera dina inbyggda Google-filer (Docs, Sheets) manuellt. Anslutningsappen exporterar dem automatiskt till ett öppet format under inmatningen.

Google-format Exporteras som (standard)
Google Docs application/vnd.openxmlformats-officedocument.wordprocessingml.document (DOCX)
Google Kalkylark application/vnd.openxmlformats-officedocument.spreadsheetml.sheet (XLSX)
Google Slides application/vnd.openxmlformats-officedocument.presentationml.presentation (PPTX)
Google-ritningar application/pdf (PDF)

Konfiguration av exportformat för Google Drive

Du kan konfigurera hur interna Google Drive-filer exporteras genom att ange Spark-konfigurationer med hjälp av spark.conf.set(). Dessa konfigurationer avgör vilken MIME typ som används vid export av Google Docs, Blad, Bilder och Ritningar.

Konfigurationsnycklar:

  • fs.gdrive.format.document.export: Google Docs-exportformat.
  • fs.gdrive.format.spreadsheet.export: Exportformat för Google Sheets.
  • fs.gdrive.format.presentation.export: Exportformat för Google Slides.
  • fs.gdrive.format.drawing.export: Exportformat för Google-ritningar.

En fullständig lista över exportformat som stöds finns i Exportera MIME-typer för Google Workspace-dokument i Google Workspace-dokumentationen.

I följande exempel exporteras en Google Docs-fil som TXT.

spark.conf.set("fs.gdrive.format.document.export", "text/plain")
df = spark.read.text("https://docs.google.com/document/d/1a2b3c4d...")

I följande exempel exporteras en Google Sheets-fil som CSV.

spark.conf.set("fs.gdrive.format.spreadsheet.export", "text/csv")
df = spark.read.option("header", "true").csv("https://docs.google.com/spreadsheets/d/1a2b3c4d...")

Schema

binaryFile-format

När du använder format => 'binaryFile'har den resulterande tabellen följande schema:

  • path (sträng): Den fullständiga URL:en till filen.
  • modificationTime (tidsstämpel): Den senaste ändrade tiden för filen.
  • length (lång): Storleken på filen i byte.
  • content (binär): Filens råa binära innehåll.

_metadatakolumn

Du kan hämta metadatainformation för indatafiler med _metadata kolumnen, till exempel file_name, file_path, file_sizeoch file_modification_time. Kolumnen _metadata är en dold kolumn och är tillgänglig för alla indatafilformat. Om du vill inkludera _metadata kolumnen i den returnerade DataFrame måste du uttryckligen välja den i den läsfråga där du anger källan. Mer information finns i kolumnen Filmetadata.

För interna Google Drive-filer (till exempel Google Docs, Google Sheets och Google Slides) file_size refererar fältet till storleken på filen som lagras på Google Drive, inte storleken på filen i det exporterade formatet (till exempel DOCX, XLSX eller PPTX).

Exempel på att _metadatavälja :

SELECT *, _metadata FROM read_files(
  "https://drive.google.com/",
  `databricks.connection` => "my_connection",
  format => "binaryFile"
);

Metadatakolumn för Google Drive

Viktigt!

Den här funktionen är en privat förhandsversion. Kontakta din Azure Databricks-kontakt om du vill prova det.

Kolumnen _gdrive_metadata är en dold metadatakolumn som ger åtkomst till Google Drive-specifika egenskaper för inmatade filer som kommer från Google Drive-resursenfiles. Det kräver Databricks Runtime 18.1 eller senare och är tillgängligt för alla filformat när du läser från Google Drive. Om du vill inkludera _gdrive_metadata kolumnen i den returnerade DataFrame måste du uttryckligen välja den i läsfrågan.

Om datakällan innehåller en kolumn med namnet _gdrive_metadataändras metadatakolumnen för Google Drive till __gdrive_metadata (med ett extra inledande understreck) för att deduplicera. Ytterligare understreck läggs till tills namnet är unikt.

Vanliga filmetadata som filsökvägen eller storleken kan efterfrågas med hjälp av _metadata kolumnen. Mer information finns i kolumnen Filmetadata.

Schema

Kolumnen _gdrive_metadata innehåller STRUCT följande fält. Alla fält är nullbara.

Namn Type Description Exempel Lägsta Databricks Runtime version
ID STRING Google Drive-fil-ID . 1pCzwOApmvUJCtXtav265-i4E7mYf2feF 18.1
drive_id STRING ID:t för den delade enhet som innehåller filen. null för filer i en användares Min enhet. 0ABpL6n51HPGXUk9PVA 18.1
parent_id STRING ID:t för filens överordnade mapp. Google Drive-filer kan ha flera överordnade mappar; detta returnerar den första. 1a2b3c4d5e6f7g8h9i0j 18.1
web_url STRING Webbläsarens URL för filen på Google Drive. https://drive.google.com/file/d/1pCzwOApmvUJCtXtav265-i4E7mYf2feF/view 18.1
mime_type STRING MIME-typen för filen. För Google Workspace-filer är detta den interna Google-typen (till exempel application/vnd.google-apps.document), inte den exporterade typen. text/csv 18.1
md5_checksum STRING MD5-kontrollsumman för filens innehåll. Endast ifyllda för binära filer. null för Google Workspace-filer. 06ffb3e392fc5459e5322aad81b4f78b 18.1
version STRING Ett monotont ökande versionsnummer för filen. 12 18.1
created_timestamp TIMESTAMP Den tid då filen skapades. 2025-12-01 10:16:19 18.1
senast_ändrad_av_e-post STRING E-postmeddelandet till den användare som senast ändrade filen. alice@example.com 18.1
last_modified_by_name STRING Visningsnamnet för den användare som senast ändrade filen. Alice Example 18.1
delade BOOLEAN Om filen har delats med andra användare än ägaren. true 18.1
egenskaper VARIANT Anpassade offentliga egenskaper som angetts för filen. Se Egenskaper i Drive API:et. {"department":"finance"} 18.1
additional_metadata VARIANT Alla andra filresursfält som returneras av Drive API:et men inte extraheras ovan. {"capabilities":{"canEdit":true},...} 18.1

Anmärkning

Fälten properties och additional_metadata returneras som VARIANT. Se VARIANT typ.

Exempel

I följande exempel visas hur du inkluderar _gdrive_metadata kolumnen i en läsfråga, väljer specifika fält i kolumnen och extraherar värden från VARIANT fält.

Python

df = (spark.read
  .format("binaryFile")
  .option("databricks.connection", "my_gdrive_conn")
  .load("https://drive.google.com/drive/folders/1a2b3c4d...")
  .select("*", "_metadata", "_gdrive_metadata"))

SQL

SELECT *, _gdrive_metadata
FROM read_files(
  "https://drive.google.com/drive/folders/1a2b3c4d...",
  `databricks.connection` => "my_gdrive_conn",
  format => "binaryFile"
);

Välj specifika fält från structen _gdrive_metadata :

df = (spark.read
  .format("binaryFile")
  .option("databricks.connection", "my_gdrive_conn")
  .load("https://drive.google.com/drive/folders/1a2b3c4d...")
  .select("_gdrive_metadata.id", "_gdrive_metadata.md5_checksum"))

Extrahera värden från fälten properties eller additional_metadataVARIANT med hjälp av castoperatorn :: :

SELECT
  *,
  _gdrive_metadata.properties:department::STRING AS department
FROM read_files(
  "https://drive.google.com/drive/folders/1a2b3c4d...",
  `databricks.connection` => "my_gdrive_conn",
  format => "binaryFile"
);

Vanliga frågor

Jag har en mapp med flera strukturerade filer (till exempel flera Google Sheets). Hur läser jag in varje blad eller fil som en egen Delta-tabell?

Du måste skapa en ny inmatningsfråga för varje fil som ska matas in i en egen Delta-tabell.

Mina filer kräver anpassad parsning. Hur anger jag dessa parsningsparametrar för att se till att mina filer läss korrekt?

Anslutningsappen stöder alla filformatalternativ som är tillgängliga i Auto Loader, COPY INTOoch Spark. Mer information finns i följande:

Bearbetas filer i undermappar rekursivt?

När du använder API:er för automatisk inläsning (spark.readStream och read_files) identifieras och matas alla undermappar rekursivt. Detta gäller även för batch spark.read, där filer i den angivna mappsökvägen alltid läses rekursivt.

Mitt Google-blad har många oegentligheter och kräver specifik parsning och extrahering av cellintervall (till exempel flera tabeller per ark). Schemat kan inte härledas automatiskt. Hur hanterar jag det här?

Du kan använda Excel filformatspareringsalternativ för att parsa Din Google-arkfil till önskat format. Se Läs Excel filer.

Du kan också inaktivera schemainferens för Auto Loader, PySpark eller read_files. Den resulterande tabellen har standardkolumnnamn, alla datatyper skickas till en sträng och tabellen kan vara gles. Du kan sedan utföra nödvändiga transformeringar nedströms.

Nästa steg