Dataflow Gen2 ステージング項目のデータ

パフォーマンスと信頼性を向上させるために、Dataflow Gen2 はステージング項目を使用して、データ変換中に中間データを格納します。 この記事では、ステージング項目の概要と、その中でデータを処理する方法について説明します。

ステージング項目とは

ステージング項目は、データ変換中にデータを格納するために Dataflow Gen2 によって使用される中間データ ストレージの場所です。 これらの項目には、"DataflowsStagingLakehouse" と "DataflowsStagingWarehouse" という名前が付けられます。 ステージング項目は、パフォーマンスを向上させるために、データ変換中に中間データを格納するために使用されます。 これらの項目は、最初のデータフローを作成するときに自動的に作成され、Dataflow Gen2 によって管理されます。 これらの項目はワークスペース内のユーザーには表示されませんが、データの取得や Lakehouse エクスプローラーなどの他のエクスペリエンスで表示される場合があります。 ステージング項目内のデータには、予期しない動作が発生する可能性があるため、直接アクセスまたは変更しないことを強くお勧めします。 また、ステージング項目に自分でデータを格納することはサポートされていないため、データが失われる可能性があります。

ステージング項目内のデータ

ステージング項目は、ユーザーによる直接アクセス用に設計されていません。 Dataflow Gen2 はステージング項目のデータを管理し、データが一貫した状態であることを確認します。 ステージング項目内のデータへの直接アクセスはサポートされていません。データが一貫した状態であることが保証されるわけではありません。 ステージング項目のデータにアクセスする必要がある場合は、Power BI、Excel、またはその他のデータフローでデータフロー コネクタを使用できます。

Important

ダウンストリーム コンシューマーにステージング データを提供する内部 API (データフロー コネクタを使用したセマンティック モデルやその他のデータフローなど) では、断続的なタイムアウトが発生する可能性があります。 これらのタイムアウトにより、アイテムの使用で更新エラーが発生する可能性があります。多くの場合、"キーがテーブル内の行と一致しませんでした" というエラーが表示されます。このエラーは、データの問題を示していません。 これは、バックエンドが段階的な結果を時間内に取得できなかったことを意味します。

推奨される回避策: データフローの データ変換先 (Lakehouse または Warehouse) を構成し、Lakehouse または Warehouse コネクタを使用して直接その宛先から読み取るダウンストリーム項目を更新します。 これにより、内部ステージング API がバイパスされ、更新の信頼性が向上します。

詳細については、「 Data Factory の制限事項」を参照してください。

ステージング項目からのデータの削除は、次のいずれかのアクションによって強制できます。

  • データフローのステージングを無効にして、データを再読み込みします (30日後にデータがガベージコレクションされます)。
  • データフローを削除します (データを直接削除します)。
  • ワークスペースを削除します (StagingLakehouse と StagingWarehouse を直接削除します)。

ステージングのコストへの影響

ステージング Lakehouse とステージング ウェアハウスは、データフロー処理の一部として中間データを格納します。 これらのステージング項目によって使用されるストレージは、OneLake ストレージの一部として課金されます。 つまり、ステージング項目に格納されているデータは、OneLake ストレージの全体的な消費量と関連するコストにカウントされます。

ストレージ コストを効果的に管理するには:

  • ステージング ストレージの使用状況を監視する: ステージング データは、ガベージ コレクションまたは明示的に削除されるまで、データフローの更新ごとに蓄積されます。
  • 必要がないときにステージングを無効にする: 変換がソース システムにフォールドされる場合は、ステージングを有効にする必要がない可能性があります。 ステージングを無効にすると、ストレージの使用量が削減されます。
  • 未使用のデータフローをクリーンアップする: 不要になったデータフローを削除すると、関連するステージング データがすぐに削除されます。
  • 更新頻度の検討: ステージングを有効にして頻繁に更新すると、ストレージの消費量が増加する可能性があります。 パフォーマンス上の利点とストレージ コストのバランスを取ります。

OneLake ストレージの価格の詳細については、「 Microsoft Fabric の価格」を参照してください。