Bruke partisjonert databehandling i Dataflow Gen2 (forhåndsversjon)

Note

Partisjonert databehandling er for øyeblikket i forhåndsversjon og bare tilgjengelig i Dataflow Gen2 med CI/CD.

Partitionert beregning er en funksjon i Dataflow Gen2-motoren som lar deler av dataflow-logikken din kjøre parallelt, noe som reduserer tiden det tar å fullføre evalueringene.

Partisjonert databehandling retter seg mot scenarioer der dataflytmotoren effektivt kan brette operasjoner som kan partisjonere datakilden og behandle hver partisjon parallelt. For eksempel, i et scenario der du kobler til flere filer lagret i en Azure Data Lake Storage Gen2, kan du partisjonere listen fra kilden din, effektivt hente den partisjonerte listen ved hjelp av query folding, bruke combine files experience, og behandle alle filer parallelt.

Note

Kun koblinger for Azure Data Lake Storage Gen2, Folder og Azure Blob Storage sender ut riktig skript for å bruke partisjonert beregning. Koblingene for SharePoint og Fabric Lakehouse støtter det ikke i dag.

Slik angir du partisjonert databehandling

For å bruke denne funksjonen, følg disse trinnene:

Aktivere innstillinger for dataflyt

Inne i Hjem-fanen på båndet, velg Alternativer-knappen for å vise dialogen. Gå til Scale-seksjonen og slå på innstillingen som lyder Tillat bruk av partisjonert beregning.

Skjermbilde av den partisjonerte beregningsinnstillingen inne i Skala-seksjonen i Innstillinger-dialogen.

Aktivering av dette alternativet har to formål:

  • Lar Dataflowen din bruke partisjonert beregning hvis den oppdages gjennom spørringsskriptene dine

  • Opplevelser som kombinasjonsfilene vil nå automatisk opprette partisjonsnøkler som kan brukes til partisjonert databehandling

Du må også aktivere innstillingen i personvernseksjonen for å tillate kombinasjon av data fra flere kilder.

Spørring med partisjonsnøkkel

Note

Hvis du vil bruke partisjonert databehandling, må du kontrollere at spørringen er satt til å være trinnvis.

Etter å ha slått på innstillingen, kan du bruke combine files-opplevelsen for en datakilde som bruker filsystemvisningen, som Azure Data Lake Storage Gen2. Når kombinasjonsfilopplevelsen fullføres, legger du merke til at spørringen har et tilpasset trinn som er lagt til, som har et skript som ligner på dette:

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

Dette skriptet, og spesielt komponenten withPartitionKey , styrer logikken for hvordan dataflyten prøver å partisjonere dataene dine, og hvordan den prøver å evaluere ting parallelt.

Du kan bruke Table.PartitionKey-funksjonen mot det egendefinerte trinnet Lagt til . Denne funksjonen returnerer partisjonsnøkkelen til den angitte tabellen. For tilfellet ovenfor er det kolonnen RelativePath. Du kan få en distinkt liste over verdiene i den kolonnen for å lære alle partisjonene som brukes under dataflytkjøringen.

Viktig!

Det er viktig at partisjonsnøkkelkolonnen forblir i spørringen for at partisjonert databehandling skal kunne brukes.

Viktige faktorer og anbefalinger

  • Partisjonert beregning vs. rask kopiering: Hvis datakilden din ikke støtter folding av transformasjonene for filene dine, anbefaler vi at du velger partisjonert beregning fremfor rask kopi.

  • Lakehouse filtilgang: For å koble til filer i Lakehouse anbefaler vi å bruke Azure Data Lake Storage Gen2-kontakteren ved å sende URL-en til Files-noden.

  • Beste ytelse: Bruk denne metoden for å laste data direkte til staging som destinasjon eller til et Fabric Warehouse.

  • Databevaring: Kun den siste partisjonskjøringen lagres i Dataflow Staging Lakehouse og returneres av Dataflow Connector. Vurder å bruke en datadestinasjon for å lagre data for hver separate partisjon.

  • Filtransformasjoner: Bruk Sample-transformasjonsfilen fra Combine-filer-opplevelsen for å introdusere transformasjoner som skal skje i hver fil.

  • Støttede transformasjoner: Partisjonert beregning støtter kun et delsett av transformasjoner. Ytelsen kan variere avhengig av kilden og settet med transformasjoner som brukes.

  • Fakturering: Fakturering for dataflyten baseres på forbruk av kapasitetsenhet (CU).