Använda partitionerad beräkning i Dataflöde Gen2 (förhandsversion)

Anmärkning

Partitionerad beräkning är för närvarande i förhandsversion och är endast tillgänglig i Dataflöde Gen2 med CI/CD.

Partitionerad beräkning är en funktion i Dataflow Gen2-motorn som gör att delar av dataflödeslogik kan köras parallellt, vilket minskar tiden för att slutföra utvärderingarna.

Partitionerad beräkning riktar sig mot scenarier där Dataflow-motorn effektivt kan sammanfoga operationer som kan partitionera datakällan och processa varje partition parallellt. I ett scenario där du ansluter till flera filer som lagras i en Azure Data Lake Storage Gen2 kan du till exempel partitionera listan med filer från källan, effektivt hämta den partitionerade listan med filer med query folding, använda kombinera filer och bearbeta alla filer parallellt.

Anmärkning

Endast anslutningar för Azure Data Lake Storage Gen2, Mapp och Azure Blob Storage genererar rätt skript för att använda partitionerad beräkning. Anslutningsapparna för SharePoint och Fabric Lakehouse stöder det inte idag.

Så här ställer du in partitionerad beräkning

Följ dessa steg om du vill använda den här funktionen:

Aktivera dataflödesinställningar

På fliken Start i menyfliksområdet väljer du knappen Alternativ för att visa dialogrutan. Gå till avsnittet Skala och aktivera inställningen som läser Tillåt användning av partitionerad beräkning.

Skärmbild av den partitionerade beräkningsinställningen i avsnittet Skala i dialogrutan Alternativ.

Aktivering av det här alternativet har två syften:

  • Låter ditt dataflöde använda partitionerad beräkning om det identifieras via dina frågeskript

  • Funktioner som kombinera filer skapar nu automatiskt partitionsnycklar som kan användas för partitionerad beräkning

Du måste också aktivera inställningen i avsnittet Sekretess för att tillåta att data kombineras från flera källor.

Fråga med partitionsnyckel

Anmärkning

Om du vill använda partitionerad beräkning kontrollerar du att frågan är inställd på att mellanlagras.

När du har aktiverat inställningen kan du använda upplevelsen kombinera filer för en datakälla som använder filsystemvyn som Azure Data Lake Storage Gen2. När upplevelsen för att kombinera filer slutförs ser du att frågan har ett anpassat steg som har lagts till , som har ett skript som liknar detta:

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

Det här skriptet, och specifikt komponenten withPartitionKey , styr logiken om hur dataflödet försöker partitionera dina data och hur det försöker utvärdera saker parallellt.

Du kan använda funktionen Table.PartitionKey mot steget Anpassat tillägg. Den här funktionen returnerar partitionsnyckeln för den angivna tabellen. För fallet ovan är det kolumnen RelativePath. Du kan hämta en distinkt lista över värdena i kolumnen för att lära dig alla partitioner som används under dataflödeskörningen.

Viktigt!

Det är viktigt att partitionsnyckelkolumnen finns kvar i frågan för att partitionerad beräkning ska kunna tillämpas.

Överväganden och rekommendationer

  • Partitionerad beräkning jämfört med snabb kopiering: Om datakällan inte stöder vikning av transformeringar för dina filer rekommenderar vi att du väljer partitionerad beräkning framför snabb kopiering.

  • Lakehouse-filåtkomst: Om du vill ansluta till filer i Lakehouse rekommenderar vi att du använder Azure Data Lake Storage Gen2-anslutningsappen genom att skicka URL:en för noden Files.

  • Bästa prestanda: Använd den här metoden för att läsa in data direkt till mellanlagring som mål eller till ett Fabric Warehouse.

  • Datakvarhållning: Endast den senaste partitionskörningen lagras i Dataflow Staging Lakehouse och returneras av Dataflow Connector. Överväg att använda en datalagringsdestination för att bibehålla data för varje enskild partition.

  • Filtransformeringar: Använd exempeltransformeringsfilen från upplevelsen Kombinera filer för att introducera transformeringar som ska ske i varje fil.

  • Transformeringar som stöds: Partitionerad beräkning stöder endast en delmängd transformeringar. Prestandan kan variera beroende på vilken källa och uppsättning transformeringar som används.

  • Fakturering: Faktureringen för dataflödeskörningen baseras på kapacitetsenhetsförbrukning (CU).