Dataflow Gen2 でパーティション分割されたコンピューティングを使用する (プレビュー)

注

パーティション分割されたコンピューティングは現在プレビュー段階であり、CI/CD を使用する Dataflow Gen2 でのみ使用できます。

パーティション分割コンピューティングは、データフロー Gen2 エンジンの機能であり、データフローロジックの一部を並列に実行できるため、評価を完了する時間が短縮されます。

パーティション分割コンピューティングは、データフローエンジンがデータソースをパーティション分割し、各パーティションを並列に処理できる操作を効率的に折りたたむことができるシナリオを対象としています。たとえば、Azure Data Lake Storage Gen2に格納されている複数のファイルに接続するシナリオでは、ソースからファイルの一覧をパーティション分割し、query folding を使用してパーティション分割されたファイルの一覧を効率的に取得し、combine ファイルエクスペリエンスを使用して、すべてのファイルを並列に処理できます。

注

パーティション分割されたコンピューティングを使用するために適切なスクリプトを出力するのは、Azure Data Lake Storage Gen2、フォルダー、Azure Blob Storageのコネクタだけです。 SharePointおよびFabric Lakehouse 用のコネクタは、現在サポートされていません。

パーティション分割コンピューティングを設定する方法

この機能を使用するには、次の手順に従います。

データフロー設定を有効にする
パーティションキーを使用したクエリ

データフロー設定を有効にする

リボンの [ホーム] タブで、[ オプション ] ボタンを選択してダイアログを表示します。 [スケール] セクションに移動し、[ パーティション分割されたコンピューティングの使用を許可する] という設定をオンにします。

[オプション] ダイアログの [スケール] セクション内のパーティション分割されたコンピューティング設定のスクリーンショット。

このオプションを有効にするには、次の 2 つの目的があります。

クエリスクリプトを通じて検出された場合、データフローでパーティション化されたコンピューティングを利用できるようにします。
結合ファイルなどのエクスペリエンスで、パーティション分割された計算に使用できるパーティションキーが自動的に作成されるようになりました

また、[ プライバシー ] セクションの設定をオンにして、 複数のソースからのデータの結合を許可する必要もあります。

パーティションキーを使用したクエリ

注

パーティション分割されたコンピューティングを使用するには、クエリがステージングされるように設定されていることを確認します。

設定を有効にすると、Azure Data Lake Storage Gen2などのファイルシステムビューを使用するデータソースに対してファイルの結合エクスペリエンスを使用できます。ファイルの結合エクスペリエンスが完了すると、クエリに 追加されたカスタム ステップがあり、次のようなスクリプトが含まれていることがわかります。

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

このスクリプト(具体的には withPartitionKey コンポーネント)は、データフローがデータをパーティション分割しようとする方法と、データを並列で評価する方法に関するロジックを駆動します。

追加されたカスタムステップに対して Table.PartitionKey 関数を使用できます。この関数は、指定したテーブルのパーティションキーを返します。上記の場合は、 RelativePath 列です。その列の値の個別の一覧を取得して、データフローの実行中に使用されるすべてのパーティションを確認できます。

Important

パーティション分割されたコンピューティングを適用するには、パーティションキー列がクエリ内に残っている必要があります。

考慮事項と推奨事項

パーティション分割コンピューティングと高速コピー: データソースがファイルの変換の折りたたみをサポートしていない場合は、高速コピーよりもパーティション分割コンピューティングを選択することをお勧めします。
Lakehouse ファイルアクセス: Lakehouse 内のファイルに接続するには、Files ノードの URL を渡して、Azure Data Lake Storage Gen2 コネクタを使用することをお勧めします。
Best performance: このメソッドを使用して、データをステージング先またはFabric Warehouse に直接読み込みます。
データ保持: 最新のパーティション実行のみが Dataflow Staging Lakehouse に格納され、データフローコネクタによって返されます。データ保存先を使用して、各パーティションのデータを保持することを考慮してください。
ファイル変換: ファイルの結合エクスペリエンスのサンプル変換ファイルを使用して、すべてのファイルで発生する変換を導入します。
サポートされる変換: パーティション分割されたコンピューティングでは、変換のサブセットのみがサポートされます。パフォーマンスは、使用する変換のソースとセットによって異なる場合があります。
課金: データフロー実行の課金は、容量ユニット (CU) の使用量に基づきます。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-04-13