Gepartitioneerde rekenkracht gebruiken in Dataflow Gen2 (preview)

Opmerking

Gepartitioneerde rekenkracht is momenteel in preview en is alleen beschikbaar in Dataflow Gen2 met CI/CD.

Gepartitioneerde berekening is een mogelijkheid van de Dataflow Gen2-engine waarmee delen van uw gegevensstroomlogica parallel kunnen worden uitgevoerd, waardoor de tijd voor het voltooien van de evaluaties wordt verkort.

Scenario's voor rekendoelen waarbij de Dataflow-engine efficiënt kan omgaan met bewerkingen die de gegevensbron kunnen opdelen en elke partitie parallel kunnen verwerken. In een scenario waarin u bijvoorbeeld verbinding maakt met meerdere bestanden die zijn opgeslagen in een Azure Data Lake Storage Gen2, kunt u de lijst met bestanden uit uw bron partitioneren, efficiënt de gepartitioneerde lijst met bestanden ophalen met query folding, de combine-bestandenervaring gebruiken en alle bestanden parallel verwerken.

Opmerking

Alleen connectors voor Azure Data Lake Storage Gen2, Map en Azure Blob Storage verzenden het juiste script om gepartitioneerde rekenkracht te gebruiken. De connectors voor SharePoint en Fabric Lakehouse ondersteunen deze vandaag niet.

Gepartitioneerde rekenkracht instellen

Volg deze stappen om deze mogelijkheid te gebruiken:

Gegevensstroominstellingen inschakelen

Selecteer op het tabblad Start van het lint de knop Opties om het dialoogvenster weer te geven. Ga naar de sectie Schaal en schakel de instelling in die het gebruik van gepartitioneerde rekenkracht toestaat.

Schermopname van de gepartitioneerde rekeninstelling in de sectie Schaal van het dialoogvenster Opties.

Het inschakelen van deze optie heeft twee doeleinden:

  • Hiermee kan uw gegevensstroom gepartitioneerde rekenkracht gebruiken als deze wordt gedetecteerd via uw queryscripts

  • Functies zoals de combinatie van bestanden maken nu automatisch partitiesleutels die kunnen worden gebruikt bij het berekenen van partities.

U moet ook de instelling inschakelen in de sectie Privacy om het combineren van gegevens uit meerdere bronnen toe te staan.

Query uitvoeren met partitiesleutel

Opmerking

Als u gepartitioneerde berekeningen wilt gebruiken, moet u ervoor zorgen dat uw query is ingesteld op gefaseerd.

Nadat u de instelling hebt ingeschakeld, kunt u de ervaring bestanden combineren gebruiken voor een gegevensbron die gebruikmaakt van de bestandssysteemweergave zoals Azure Data Lake Storage Gen2. Wanneer de bestandensamenvoegervaring voltooid is, ziet u dat uw query een toegevoegde aangepaste stap heeft, die een script heeft dat vergelijkbaar is met:

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

Dit script, en met name het withPartitionKey onderdeel, bepaalt de logica over hoe uw gegevensstroom uw gegevens probeert te partitioneren en hoe het probeert om dingen parallel te evalueren.

U kunt de functie Table.PartitionKey gebruiken tegen de Toegevoegd aangepaste stap. Deze functie retourneert de partitiesleutel van de opgegeven tabel. Voor het bovenstaande geval is dit de kolom RelativePath. U kunt een afzonderlijke lijst met de waarden in die kolom ophalen om inzicht te krijgen in alle partities die tijdens de uitvoering van de gegevensstroom worden gebruikt.

Belangrijk

Het is belangrijk dat de partitiesleutelkolom in de query blijft staan om gepartitioneerde rekenkracht toe te passen.

Overwegingen en aanbevelingen

  • Gepartitioneerd rekenproces versus snel kopiëren: als uw gegevensbron geen ondersteuning biedt voor het vouwen van de transformaties voor uw bestanden, raden we u aan om gepartitioneerde berekeningen te kiezen via snelle kopie.

  • Lakehouse-bestandstoegang: Als u verbinding wilt maken met bestanden in Lakehouse, raden we u aan de Azure Data Lake Storage Gen2-connector te gebruiken door de URL van het knooppunt Files door te geven.

  • Best prestaties: Gebruik deze methode om gegevens rechtstreeks naar staging te laden als bestemming of naar een Fabric Warehouse.

  • Gegevensretentie: Alleen de meest recente partitieuitvoering wordt opgeslagen in de Dataflow Staging Lakehouse en geretourneerd door de Dataflow Connector. Overweeg om een gegevensbestemming te gebruiken om gegevens voor elke afzonderlijke partitie te bewaren.

  • Bestandstransformaties: gebruik het voorbeeldtransformatiebestand van de ervaring Bestanden combineren om transformaties te introduceren die in elk bestand moeten plaatsvinden.

  • Ondersteunde transformaties: Gepartitioneerde rekenkracht ondersteunt alleen een subset van transformaties. De prestaties kunnen variëren, afhankelijk van uw bron en set transformaties die worden gebruikt.

  • Facturering: De facturering voor de uitvoering van de gegevensstroom is gebaseerd op verbruik van capaciteitseenheden (CU).