Transformér strukturerte filer til Delta-tabeller

Bruk snarveistransformasjoner for å konvertere strukturerte filer til spørrbare Delta-tabeller. Hvis kildedataene dine allerede er i tabellformat som CSV, Parquet, JSON eller Excel, kopierer og konverterer filtransformasjoner automatisk disse dataene til Delta Lake-format slik at du kan spørre ved å bruke SQL, Spark eller Power BI uten å bygge ETL-pipelines.

For ustrukturerte tekstfiler som trenger AI-behandling som oppsummering, oversettelse eller sentimentanalyse, se Snarveistransformasjoner (AI-drevne).

Snarveistransformasjoner forblir alltid synkronisert med kildedataene. Fabric Spark Compute utfører transformasjonen og kopierer dataene som refereres til av en OneLake-snarvei til en administrert Delta-tabell. Med automatisk skjemahåndtering, dyp flating og støtte for flere komprimeringsformater, eliminerer snarveistransformasjoner kompleksiteten ved å bygge og vedlikeholde ETL-pipelines.

Hvorfor bruke snarveistransformasjoner?

  • Automatisk konvertering – Fabric kopierer og konverterer kildefiler til Delta-format uten manuell pipeline-orkestrering.
  • Hyppig synkronisering – Fabric sjekker snarveien hvert andre minutt og synkroniserer endringer.
  • Rekursiv mappeoppdagelse – Fabric går automatisk gjennom undermapper for å oppdage og transformere filer over hele kataloghierarkiet.
  • Delta Lake-utgang – Den resulterende tabellen er kompatibel med enhver Apache Spark-motor.
  • Arvet styring – Snarveien arver OneLake-linjen, tillatelser og Microsoft Purview retningslinjer.

Forutsetninger

Forutsetninger Detaljer
Microsoft Fabric SKU Kapasitet eller prøve som støtter Lakehouse-arbeidsbelastninger .
Kildedata En mappe som inneholder homogene CSV-, Parquet-, JSON- eller Excel-filer.
Arbeidsområderolle Bidragsyter eller høyere.

Støttede filformater

Snarveitransformasjoner fungerer med mapper fra hvilken som helst datakilde som støttes av OneLake-snarveier.

Kildefilformat Støttede utvidelser Støttede komprimeringstyper Støttet snarveitype Merknader
CSV (UTF-8, UTF-16) .csv, .txt (skillelinje), .tsv (tab-separert), .psv (rør-separert) .csv.gz, .csv.bz2 Bordsnarvei .csv.zip og .csv.snappy ikke støttes.
Parquet .parquet .parquet.snappy, .parquet.gzip, .parquet.lz4, , .parquet.brotli.parquet.zstd Bordsnarvei Ingen.
JSON .json, , .jsonl.ndjson .json.gz, .json.bz2, , .jsonl.gz.ndjson.gz, .jsonl.bz2, ,.ndjson.bz2 Bordsnarvei .json.zip og .json.snappy ikke støttes.
Excel .xlsx, .xls Gjelder ikke Tabellsnarvei eller skjemasnarvei Tabellsnarveier kombinerer ark til én Delta-tabell. Skjemasnarveier lager én Delta-tabell per ark. .xls (gammelt binærformat) støttes på beste-innsats-basis; .xlsx er det anbefalte formatet.

Bemerkning

Excel-filtransformasjoner er for øyeblikket i forhåndsvisning. CSV-, Parquet- og JSON-transformasjoner er vanligvis tilgjengelige.

Lag en snarvei i tabellen med datatransformasjon

En snarvei i tabellen oppretter én Delta-tabell i Tabeller-mappen i et innsjøhus. Bruk den til å transformere CSV-, Parquet-, JSON- eller Excel-filer.

For Excel-filer med flere ark kombinerer en snarvei i tabellen de valgte arkene til én Delta-tabell. Hvis du trenger én delta-tabell per ark, lag heller en snarvei til skjema .

  1. I hytta ved innsjøen, høyreklikk på et skjema under Tabeller-mappen , og velg deretter snarvei Ny tabell. Velg din snarveikilde, som Azure Data Lake, Azure Blob Storage, Dataverse, Amazon S3, GCP, SharePoint eller OneDrive.

    Skjermbilde som viser å lage en 'tabellsnarvei'.

  2. Velg mappen med CSV-, Parquet- eller JSON-filene dine, eller velg mappen som inneholder .xlsx-filene dine.

  3. Transform-steget konfigurerer du innstillingene for Delta-konverteringen:

    • CSV-filer:

      • Skilletegn – Velg tegnet som brukes til å skille kolonner, som komma, semikolon, pipe, tabulator, ampersand eller mellomrom.
      • Første rad som overskrifter – Angi om den første raden inneholder kolonnenavn.
    • Excel-filer:

      • Første rad som overskrifter – Angi om den første raden inneholder kolonnenavn.
      • Ark å inkludere – Velg alle ark eller kun et utvalg ark. Du kan velge ark etter navn, etter indeks, eller ved å bruke jokermønstre (for eksempel Sales_* match-ark som Sales_Q1 og Sales_2026). Wildcard-matching er ikke kasus-sensitivt.
  4. Gå gjennom snarveikonfigurasjonen. På trinnet Forhåndsvisningssnarveier kan du også konfigurere disse innstillingene før du velger Opprette:

    • Snarveiens navn – Velg blyantikonet for å redigere snarveiens navn.
    • Inkluder undermapper – Aktiver rekursiv behandling av filer i nestede undermapper. Dette alternativet er valgt som standard for nye transformasjoner. Fjern avkrysningsboksen hvis du vil behandle kun mappen på øverste nivå.
  5. Spor oppdateringer og se logger i Administrer snarveiovervåkingshuben.

Fabric Spark Compute lager Delta-tabellen og viser fremdrift i Administrer snarveispanelet .

For Excel-filer inkluderer __filepath__ den resulterende Delta-tabellen og __sheetname__ metadatakolonner slik at du kan spore hver rad tilbake til kildefilen og arket.

Lag en snarvei for skjema med datatransformasjon

En skjemasnarvei oppretter flere Delta-tabeller som vises under et nytt skjema i Tabeller-mappen til et innsjøhus. Bruk det når en Excel-arbeidsbok har flere ark og du vil ha én Delta-tabell per ark.

Skjemasnarveier med datatransformasjon er for øyeblikket kun tilgjengelige for Excel (.xlsx)-filer. De krever også et innsjøhus med skjemaer aktivert. For mer informasjon, se Lakehouse-skjemaer.

  1. I hytta ved innsjøen, høyreklikk på Tabeller-mappen , og velg deretter snarvei for nytt skjema.

    Skjermbilde som viser å lage 'skjema snarvei'.

  2. Velg datakilden for denne snarveien, og naviger til mappen som inneholder filene dine .xlsx .

  3. Transform-steget konfigurerer du innstillingene for Delta-konverteringen:

    • Første rad som overskrifter – Angi om den første raden inneholder kolonnenavn.
    • Ark å inkludere – Velg alle ark eller kun et utvalg ark. Du kan velge ark etter navn, etter indeks, eller ved å bruke jokermønstre.

    Skjermbilde som viser transformasjonsmuligheter for en skjema-snarvei.

  4. Gå gjennom snarveikonfigurasjonen. På trinnet Forhåndsvisningssnarveier kan du også konfigurere disse innstillingene før du velger Opprette:

    • Snarveiens navn – Velg blyantikonet for å redigere snarveiens navn.
    • Inkluder undermapper – Aktiver rekursiv behandling av filer i nestede undermapper. Dette alternativet er valgt som standard for nye transformasjoner. Fjern avkrysningsboksen hvis du vil behandle kun mappen på øverste nivå.
  5. Spor oppdateringer og se logger i Administrer snarveiovervåkingshuben.

Fabric Spark Compute lager separate Delta-tabeller for de valgte arkene og holder dem synkronisert med kildefilene. Arknavn blir automatisk renset til gyldige tabellnavn. For eksempel blir Sales Data (Q1)et ark som heter Sales_Data_Q1 .

Slik fungerer synkronisering

Etter den første belastningen, fabric spark databehandling:

  • Spør snarveimålet hvert andre minutt.
  • Oppdager nye eller endrede filer og tilføyer eller overskriver rader tilsvarende.
  • Oppdager slettede filer og fjerner tilsvarende rader.

Når støtte for undermapper er aktivert, oppdager og behandler systemet rekursivt filer på tvers av alle nestede undermapper i målmappen.

Overvåke og feilsøke

Snarveistransformasjoner inkluderer overvåking og feilhåndtering for å hjelpe deg med å spore inntaksstatus og diagnostisere problemer.

  1. Åpne innsjøhuset og høyreklikk på snarveien som gir transformasjonen din.

  2. Velg Administrer snarvei.

  3. I detaljpanelet kan du se:

    • Status – Siste skanningsresultat og nåværende synkroniseringstilstand.

    • Oppdateringshistorikk – Kronologisk liste over synkroniseringsoperasjoner med radtall og eventuelle feildetaljer.

    • Inkluder undermapper – Indikerer om undermappetransformasjon er aktivert (Ja eller Nei).

      Skjermbilde som viser 'overvåkingshub' for å vise transformasjonsstatus.

  4. Se flere detaljer i loggene for feilsøking.

    Skjermbilde som viser hvordan man access 'loggfil' for å feilsøke.

Begrensninger

Følgende begrensninger gjelder for øyeblikket for snarveistransformasjoner.

Generelle begrensninger

  • Kildeformat: CSV-, JSON-, Parquet- og Excel-filer støttes.
  • Filskjema-konsistens: Filene må dele et identisk skjema.
  • Tilgjengelighet av arbeidsplasser: Tilgjengelig kun i Lakehouse-objekter (ikke Data Warehouses eller KQL-databaser).
  • Skriveoperasjoner: Transformasjoner er leseoptimaliserte. Direkte MERGE INTO - eller DELETE-setninger på transformasjonsmåltabellen støttes ikke.
  • Tilgjengelighet av skjemasnarvei: Skjemasnarveier for filtransformasjoner støtter kun Excel-filer.

CSV-begrensninger

  • Ustøttede datatyper: Blandede datatypekolonner, Timestamp_Nanos, Komplekse logiske typer - MAP/LIST/STRUCT, Rå binær.

Parkettbegrensninger

  • Ustøttede datatyper: Timestamp_nanos, Desimalt med INT32/INT64, INT96, Ikke-tildelte heltallstyper - UINT_8/UINT_16/UINT_64, Komplekse logiske typer - MAP/LIST/STRUCT.

JSON-begrensninger

  • Ustøttede datatyper: Blandede datatyper i et array, rå binære blobs inne i JSON, Timestamp_Nanos.
  • Flating av array-datatype: Array-datatypen beholdes i Delta-tabellen og er tilgjengelig med Spark SQL og PySpark. For videre transformasjoner, bruk Fabric Materialized Lake Views for sølvlaget.
  • Utflating av dybde: Nestede strukturer er flatet ut opptil fem nivåer dypt. Dypere nesing krever forhåndsprosessering.

Excel-begrensninger

  • Celleområde: Data leses alltid fra celle A1. Arbeidsbøker hvor data starter i en annen celle eller bruker navngitte tabeller eller områder kan ikke målrettes.
  • Hopp over rader: Tittelbannere, metadata-preambler og bunntekstoppsummeringer over eller under de faktiske dataene kan ikke utelukkes. De tas inn som datarader.
  • Skjemainferens: Skjema-inferens er alltid aktivert for Excel-filer. Identifikatorer med innledende nuller (for eksempel postnumre som 02134 eller ansatt-ID-er som 001245) konverteres til heltall, noe som fjerner de ledende nullene.
  • Skjulte ark: Alle ark, inkludert skjulte og systemark, behandles med mindre det eksplisitt er filtrert etter navn eller indeks.
  • Valutaformat: Valutaformaterte celler (for eksempel $1,234.56) konverteres til vanlige numeriske verdier. Valutasymbolet er fjernet.
  • Følsomhetsetiketter: Arbeidsbøker med Microsoft Purview sensitivitetsetiketter kan ikke behandles.
  • Korrupte rader: Excel-leseren støtter ikke korrupt postisolasjon. Korrupte eller type-mismatchede rader i et ark kan ikke isoleres og logges separat.
  • Sheet-grense: Filer med mer enn 25 ark hoppes over.
  • Legacy-format:.xls (gammelt binærformat) støttes på beste-innsats-basis og kan ha redusert nøyaktigheten for kompleks formatering. .xlsx er det anbefalte formatet.
  • Formelvurdering: Spark leser den bufrede verdien av formelceller. Hvis arbeidsboken ikke ble lagret med beregnede verdier, kan formelcellene virke tomme eller utdaterte.

Begrensninger i undermappen

  • Kun tilgjengelig for nye transformasjoner. Eksisterende transformasjoner kan ikke aktivere støtte for undermapper.
  • Når støtte for undermapper er aktivert, kan den ikke deaktiveres.
  • Snarveier som er nestet inne i målmappen følges ikke. Kun fysiske mapper og filer blir behandlet.
  • Selektiv inkluder eller ekskludering av spesifikke undermapper støttes ikke.
  • Nestede mapper fungerer ikke med SharePoint-snarveier.

Bruk bloggen Fabric Roadmap og Fabric Updates for å lære om nye funksjoner og utgivelser.

Rydd opp

For å stoppe synkronisering, slett snarveitransformasjonen fra Lakehouse Explorer.

Å slette transformasjonen fjerner ikke de underliggende filene.