注
パーティション分割されたコンピューティングは現在プレビュー段階であり、CI/CD を使用する Dataflow Gen2 でのみ使用できます。
パーティション分割コンピューティングは、データフロー Gen2 エンジンの機能であり、データフロー ロジックの一部を並列に実行できるため、評価を完了する時間が短縮されます。
パーティション分割コンピューティングは、データ フロー エンジンがデータ ソースをパーティション分割し、各パーティションを並列に処理できる操作を効率的に折りたたむことができるシナリオを対象としています。 たとえば、Azure Data Lake Storage Gen2に格納されている複数のファイルに接続するシナリオでは、ソースからファイルの一覧をパーティション分割し、query folding を使用してパーティション分割されたファイルの一覧を効率的に取得し、combine ファイル エクスペリエンスを使用して、すべてのファイルを並列に処理できます。
注
パーティション分割されたコンピューティングを使用するために適切なスクリプトを出力するのは、Azure Data Lake Storage Gen2、フォルダー、Azure Blob Storageのコネクタだけです。 SharePointおよびFabric Lakehouse 用のコネクタは、現在サポートされていません。
パーティション分割コンピューティングを設定する方法
この機能を使用するには、次の手順に従います。
データフロー設定を有効にする
リボンの [ホーム] タブで、[ オプション ] ボタンを選択してダイアログを表示します。 [スケール] セクションに移動し、[ パーティション分割されたコンピューティングの使用を許可する] という設定をオンにします。
このオプションを有効にするには、次の 2 つの目的があります。
クエリスクリプトを通じて検出された場合、データフローでパーティション化されたコンピューティングを利用できるようにします。
結合ファイルなどのエクスペリエンスで、パーティション分割された計算に使用できるパーティション キーが自動的に作成されるようになりました
また、[ プライバシー ] セクションの設定をオンにして、 複数のソースからのデータの結合を許可する必要もあります。
パーティション キーを使用したクエリ
注
パーティション分割されたコンピューティングを使用するには、クエリがステージングされるように設定されていることを確認します。
設定を有効にすると、Azure Data Lake Storage Gen2などのファイル システム ビューを使用するデータ ソースに対してファイルの結合エクスペリエンスを使用できます。 ファイルの結合エクスペリエンスが完了すると、クエリに 追加されたカスタム ステップがあり、次のようなスクリプトが含まれていることがわかります。
let
rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
withPartitionKey
このスクリプト(具体的には withPartitionKey コンポーネント)は、データフローがデータをパーティション分割しようとする方法と、データを並列で評価する方法に関するロジックを駆動します。
追加されたカスタム ステップに対して Table.PartitionKey 関数を使用できます。 この関数は、指定したテーブルのパーティション キーを返します。 上記の場合は、 RelativePath 列です。 その列の値の個別の一覧を取得して、データフローの実行中に使用されるすべてのパーティションを確認できます。
Important
パーティション分割されたコンピューティングを適用するには、パーティション キー列がクエリ内に残っている必要があります。
考慮事項と推奨事項
パーティション分割コンピューティングと高速コピー: データ ソースがファイルの変換の折りたたみをサポートしていない場合は、高速コピーよりもパーティション分割コンピューティングを選択することをお勧めします。
Lakehouse ファイル アクセス: Lakehouse 内のファイルに接続するには、
Filesノードの URL を渡して、Azure Data Lake Storage Gen2 コネクタを使用することをお勧めします。Best performance: このメソッドを使用して、データをステージング先またはFabric Warehouse に直接読み込みます。
データ保持: 最新のパーティション実行のみが Dataflow Staging Lakehouse に格納され、データフロー コネクタによって返されます。 データ保存先を使用して、各パーティションのデータを保持することを考慮してください。
ファイル変換: ファイルの結合エクスペリエンスのサンプル変換ファイルを使用して、すべてのファイルで発生する変換を導入します。
サポートされる変換: パーティション分割されたコンピューティングでは、変換のサブセットのみがサポートされます。 パフォーマンスは、使用する変換のソースとセットによって異なる場合があります。
課金: データフロー実行の課金は、容量ユニット (CU) の使用量に基づきます。