Gestructureerde bestanden transformeren in Delta-tabellen

Gebruik snelkoppelingstransformaties om gestructureerde bestanden te converteren naar doorzoekbare Delta-tabellen. Als uw brongegevens al een tabelindeling hebben, zoals CSV, Parquet, JSON of Excel, worden deze gegevens automatisch gekopieerd en geconverteerd naar delta lake-indeling, zodat u er query's op kunt uitvoeren met behulp van SQL, Spark of Power BI zonder ETL-pijplijnen te bouwen.

Voor niet-gestructureerde tekstbestanden die AI-processen nodig hebben, zoals samenvatting, vertaling of sentimentanalyse, zie Snelkoppelingstransformaties (AI-powered).

Snelkoppelingstransformaties blijven altijd gesynchroniseerd met de brongegevens. Fabric Spark-berekening voert de transformatie uit en kopieert de gegevens waarnaar wordt verwezen door een OneLake-snelkoppeling naar een beheerde Delta-tabel. Met automatische schemaafhandeling, diepe afvlakkingsmogelijkheden en ondersteuning voor meerdere compressie-indelingen, elimineren snelkoppelingstransformaties de complexiteit van het bouwen en onderhouden van ETL-pijplijnen.

Waarom sneltoetsbewerkingen gebruiken?

  • Automatische conversie: Fabric kopieert en converteert bronbestanden naar Delta-indeling zonder handmatige pijplijnorkestratie.
  • Frequente synchronisatie : Fabric pollt de snelkoppeling om de twee minuten en synchroniseert wijzigingen.
  • Recursieve mapdetectie : Fabric doorkruist automatisch submappen om bestanden in de hele maphiërarchie te detecteren en transformeren.
  • Delta Lake-uitvoer : de resulterende tabel is compatibel met elke Apache Spark-engine.
  • Geërfde governance – de snelkoppeling neemt OneLake-herkomst, toegangsrechten en Microsoft Purview-beleid over.

Vereiste voorwaarden

Requirement Details
Microsoft Fabric SKU Capaciteit of proef die ondersteuning biedt voor Lakehouse-workloads.
Brongegevens Een map met homogene CSV-, Parquet-, JSON- of Excel-bestanden.
Rol binnen werkruimte Inzender of hoger.

Ondersteunde bestandsindelingen

Snelkoppelingstransformaties werken met mappen uit elke gegevensbron die wordt ondersteund door OneLake-snelkoppelingen.

Bronbestandsindeling Ondersteunde extensies Ondersteunde compressietypen Ondersteund snelkoppelingstype Aantekeningen
CSV (UTF-8, UTF-16) .csv, .txt (scheidingsteken), .tsv (door tabs gescheiden), .psv (door pijpen gescheiden) .csv.gz, .csv.bz2 Sneltoets voor tabel .csv.zip en .csv.snappy worden niet ondersteund.
Parquet .parquet .parquet.snappy .parquet.gzip, .parquet.lz4, .parquet.brotli.parquet.zstd Sneltoets voor tabel Geen.
JSON .json, .jsonl, .ndjson .json.gz, .json.bz2, .jsonl.gz, .ndjson.gz, .jsonl.bz2, .ndjson.bz2 Sneltoets voor tabel .json.zip en .json.snappy worden niet ondersteund.
Excel .xlsx, .xls Niet van toepassing Snelkoppeling naar tabel of schemasnelkoppeling Sneltoetsen voor tabellen combineren bladen in één Delta-tabel. Schemasneltoetsen creëren één Delta-tabel per blad. .xls (verouderde binaire indeling) wordt ondersteund op basis van best effort; .xlsx is de aanbevolen indeling.

Opmerking

Excel-bestandstransformaties zijn momenteel beschikbaar als preview-versie. CSV-, Parquet- en JSON-transformaties zijn algemeen beschikbaar.

Maak een snelkoppeling naar een tabel met gegevenstransformatie

Een tabelsnelkoppeling creëert één Delta-tabel in de map Tabellen van een lakehouse. Hiermee kunt u CSV-, Parquet-, JSON- of Excel-bestanden transformeren.

Voor Excel-bestanden met meerdere bladen combineert een snelkoppeling naar tabellen de geselecteerde bladen in één Delta-tabel. Als u een Delta-tabel per werkblad nodig hebt, maakt u in plaats daarvan een schemasnelkoppeling.

  1. Klik in uw lakehouse met de rechtermuisknop op een schema onder de map Tabellen en selecteer de snelkoppeling Nieuwe tabel. Kies uw snelkoppelingsbron, zoals Azure Data Lake, Azure Blob Storage, Dataverse, Amazon S3, GCP, SharePoint of OneDrive.

    Schermopname van het maken van een snelkoppeling naar tabellen.

  2. Selecteer de map met uw CSV-, Parquet- of JSON-bestanden of selecteer de map met uw .xlsx-bestanden.

  3. Configureer in de stap Transformatie de instellingen voor de Delta-conversie:

    • CSV-bestanden:

      • Scheidingsteken : selecteer het teken dat wordt gebruikt om kolommen te scheiden, zoals komma, puntkomma, pipe, tab, ampersand of spatie.
      • Eerste rij als kopteksten : geef aan of de eerste rij kolomnamen bevat.
    • Excel-bestanden:

      • Eerste rij als kopteksten : geef aan of de eerste rij kolomnamen bevat.
      • Bladen die u wilt opnemen : selecteer alle bladen of alleen een subset van bladen. U kunt bladen op naam, op index of met jokertekenpatronen selecteren (bijvoorbeeld Sales_* overeenkomen met bladen zoals Sales_Q1 en Sales_2026). Jokertekenkoppeling is hoofdletterongevoelig.
  4. Controleer de snelkoppelingsconfiguratie. In de stap Preview-snelkoppelingen kunt u deze instellingen ook configureren voordat u Maken selecteert:

    • Snelkoppelingsnaam : selecteer het potloodpictogram om de naam van de snelkoppeling te bewerken.
    • Submappen opnemen : recursieve verwerking van bestanden in geneste submappen inschakelen. Deze optie is standaard geselecteerd voor nieuwe transformaties. Schakel het selectievakje uit als u alleen de map op het hoogste niveau wilt verwerken.
  5. Volg vernieuwingen en bekijk logboeken in Hub voor snelkoppelingsbewaking beheren.

Fabric Spark Compute maakt de Delta-tabel en toont de voortgang in het deelvenster Snelkoppeling beheren.

Voor Excel-bestanden bevat de resulterende Delta-tabel kolommen zoals __filepath__ en metagegevenskolommen zoals __sheetname__, zodat u elke rij kunt herleiden tot het bronbestand en -blad.

Maak een snelkoppeling voor schema met gegevenstransformatie

Met een schemasnelkoppeling worden meerdere Delta-tabellen gemaakt die worden weergegeven onder een nieuw schema in de map Tabellen van een lakehouse. Gebruik deze optie wanneer een Excel-werkmap meerdere bladen heeft en u één Delta-tabel per blad wilt.

Schemasnelkoppelingen met gegevenstransformatie zijn momenteel alleen beschikbaar voor Excel-bestanden (.xlsx). Ze vereisen ook een lakehouse met ingeschakelde schemas. Zie Lakehouse-schema's voor meer informatie.

  1. Klik in uw lakehouse met de rechtermuisknop op de map Tabellen en selecteer vervolgens de snelkoppeling Nieuw schema.

    Schermopname van het maken van 'schema-snelkoppeling'.

  2. Selecteer de gegevensbron voor deze snelkoppeling en navigeer naar de map met uw .xlsx bestanden.

  3. Configureer in de stap Transformatie de instellingen voor de Delta-conversie:

    • Eerste rij als kopteksten : geef aan of de eerste rij kolomnamen bevat.
    • Bladen die u wilt opnemen : selecteer alle bladen of alleen een subset van bladen. U kunt bladen op naam, op index of met jokertekenpatronen selecteren.

    Schermopname van transformatieopties voor een schemasnelkoppeling.

  4. Controleer de snelkoppelingsconfiguratie. In de stap Preview-snelkoppelingen kunt u deze instellingen ook configureren voordat u Maken selecteert:

    • Snelkoppelingsnaam : selecteer het potloodpictogram om de naam van de snelkoppeling te bewerken.
    • Submappen opnemen : recursieve verwerking van bestanden in geneste submappen inschakelen. Deze optie is standaard geselecteerd voor nieuwe transformaties. Schakel het selectievakje uit als u alleen de map op het hoogste niveau wilt verwerken.
  5. Volg vernieuwingen en bekijk logboeken in Hub voor snelkoppelingsbewaking beheren.

Fabric Spark Compute maakt afzonderlijke Delta-tabellen voor de geselecteerde werkbladen en houdt ze gesynchroniseerd met de bronbestanden. Bladnamen worden automatisch aangepast naar geldige tabelnamen. Bijvoorbeeld, een blad met de naam Sales Data (Q1) wordt Sales_Data_Q1.

Hoe synchronisatie werkt

Na de eerste lading wordt de Fabric Spark-berekening uitgevoerd:

  • Pollt het doel van de snelkoppeling elke twee minuten.
  • Detecteert nieuwe of gewijzigde bestanden en voegt rijen dienovereenkomstig toe of overschrijft.
  • Detecteert verwijderde bestanden en verwijdert bijbehorende rijen.

Wanneer ondersteuning voor submappen is ingeschakeld, detecteert en verwerkt het systeem bestanden recursief in alle geneste submappen in de doelmap.

Bewaken en problemen oplossen

Snelkoppelingstransformaties omvatten bewaking en foutafhandeling om de opnamestatus bij te houden en problemen te diagnosticeren.

  1. Open de lakehouse en klik met de rechtermuisknop op de snelkoppeling die uw transformatie ondersteunt.

  2. Selecteer Snelkoppeling beheren.

  3. In het detailvenster kunt u het volgende bekijken:

    • Status : laatste scanresultaat en huidige synchronisatiestatus.

    • Vernieuwingsgeschiedenis : chronologische lijst met synchronisatiebewerkingen met aantal rijen en eventuele foutdetails.

    • Submappen opnemen : geeft aan of submaptransformatie is ingeschakeld (Ja of Nee).

      Schermopname van 'bewakingshub' voor het weergeven van de transformatiestatus.

  4. Bekijk meer informatie in logboeken om problemen op te lossen.

    Schermopname die laat zien hoe u toegang hebt tot 'logboekbestand' om problemen op te lossen.

Beperkingen

De volgende beperkingen zijn momenteel van toepassing op snelkoppelingstransformaties.

Algemene beperkingen

  • Bronindeling: CSV-, JSON-, Parquet- en Excel-bestanden worden ondersteund.
  • Consistentie van bestandsschema: Bestanden moeten een identiek schema delen.
  • Beschikbaarheid van werkruimten: Alleen beschikbaar in Lakehouse-items (niet datawarehouses of KQL-databases).
  • Schrijfbewerkingen: Transformaties zijn geoptimaliseerd voor lezen. Directe MERGE INTO- of DELETE-instructies op de doeltabel voor transformatie worden niet ondersteund.
  • Beschikbaarheid van schemasnelkoppeling: Schemasneltoetsen voor bestandstransformaties ondersteunen alleen Excel-bestanden.

CSV-beperkingen

  • Niet-ondersteunde gegevenstypen: Kolommen met gemengde gegevenstypen, Timestamp_Nanos, complexe logische typen - MAP/LIST/STRUCT, Ruwe binaire.

Parquet-beperkingen

  • Niet-ondersteunde gegevenstypen: Timestamp_nanos, Decimaal met INT32/INT64, INT96, niet-toegewezen integer-typen - UINT_8/UINT_16/UINT_64, complexe logische typen - MAP/LIST/STRUCT.

JSON-beperkingen

  • Niet-ondersteunde gegevenstypen: Gemengde gegevenstypen in een matrix, onbewerkte binaire blobs in JSON, Timestamp_Nanos.
  • Afvlakken van matrixgegevenstype: Het gegevenstype matrix wordt bewaard in de Delta-tabel en is toegankelijk met Spark SQL en PySpark. Gebruik Fabric Materialized Lake Views voor de zilveren laag voor verdere transformaties.
  • Afvlakkende diepte: Geneste structuren worden afgevlakt tot vijf niveaus diep. Voor dieper nesten is voorverwerking vereist.

Beperkingen voor Excel

  • Celbereik: Gegevens worden altijd gelezen vanaf cel A1. Werkmappen waarbij gegevens in een andere cel beginnen of benoemde tabellen of bereiken gebruiken, kunnen niet worden gericht.
  • Rijen overslaan: Titelbanners, preambules van metagegevens en samenvattingen in de voettekst die zich boven of onder de feitelijke gegevens bevinden, kunnen niet worden uitgesloten. Ze worden opgenomen als gegevensrijen.
  • Schemadeductie: Schemadeductie is altijd ingeschakeld voor Excel-bestanden. Id's met voorloopnullen (bijvoorbeeld postcodes zoals 02134 werknemers-id's) 001245worden geconverteerd naar gehele getallen, waardoor de voorloopnullen worden verwijderd.
  • Verborgen bladen: Alle bladen, inclusief verborgen en systeembladen, worden verwerkt, tenzij ze expliciet zijn gefilterd op naam of index.
  • Valutaopmaak: Cellen met valutanotatie (bijvoorbeeld $1,234.56) worden geconverteerd naar gewone numerieke waarden. Het valutasymbool is verwijderd.
  • Vertrouwelijkheidslabels: Werkmappen met Microsoft Purview-vertrouwelijkheidslabels kunnen niet worden verwerkt.
  • Beschadigde rijen: De Excel-lezer biedt geen ondersteuning voor beschadigde recordisolatie. Beschadigde of niet-overeenkomende rijen in een blad kunnen niet afzonderlijk worden geïsoleerd en geregistreerd.
  • Bladlimiet: Bestanden met meer dan 25 bladen worden overgeslagen.
  • Verouderde indeling:.xls (verouderde binaire indeling) wordt ondersteund op basis van best effort en heeft mogelijk een verminderde beeldkwaliteit voor complexe opmaak. .xlsx is de aanbevolen indeling.
  • Formule-evaluatie: Spark leest de waarde in de cache van formulecellen. Als de werkmap niet is opgeslagen met berekende waarden, worden formulecellen mogelijk leeg of verouderd weergegeven.

Limieten van submappen

  • Alleen beschikbaar voor nieuwe transformaties. Bestaande transformaties kunnen geen ondersteuning voor submappen inschakelen.
  • Zodra ondersteuning voor submappen is ingeschakeld, kan deze niet worden uitgeschakeld.
  • Snelkoppelingen die in de doelmap zijn genest, worden niet gevolgd. Alleen fysieke mappen en bestanden worden verwerkt.
  • Selectief opnemen of uitsluiten van specifieke submappen wordt niet ondersteund.
  • Geneste mappen werken niet met SharePoint-snelkoppelingen.

Gebruik het blog Fabric Roadmap en Fabric Updates voor meer informatie over nieuwe functies en releases.

Schoonmaken

Als u de synchronisatie wilt stoppen, verwijdert u de koppelingstransformatie uit Lakehouse Explorer.

Als u de transformatie verwijdert, worden de onderliggende bestanden niet verwijderd.