次の方法で共有


動的ファイルの整理

動的ファイルの排除により、Delta Lake テーブルに対する多くのクエリのパフォーマンスが大幅に向上する可能性があります。 クエリ オプティマイザーの決定に基づき、フィルターステートメントまたは WHERE 句を含むクエリに対して動的なファイル削減がトリガーされます。 Photon 対応コンピューティングを使用して、 MERGEUPDATE、および DELETE ステートメントでの動的ファイル排除の使用を保証する必要があります。 Photon を使用しない場合は、 SELECT ステートメントでのみ、動的ファイル排除の使用が保証されます。

動的ファイルの排除は、パーティション分割されていないテーブルや、パーティション分割されていない列での結合の場合に特に効率的です。 動的ファイル排除のパフォーマンス効果は、多くの場合、データのクラスタリングに関連付けられるため、利点を最大限に高めるために Z-Ordering を使用することを検討してください。

動的なファイルの排除の背景と使用例については、「動的なファイルの排除を使用した Delta Lake での SQL クエリの高速化」を参照してください。

設定

動的なファイルの排除は、次の Apache Spark 構成オプションで制御されます。

  • spark.databricks.optimizer.dynamicFilePruning (既定値は true): フィルターをプッシュ ダウンするようオプティマイザーに指示するメイン フラグです。 falseに設定すると、動的ファイルの排除は有効になりません。
  • spark.databricks.optimizer.deltaTableSizeThreshold (既定値は 10,000,000,000 bytes (10 GB)): 動的ファイルの排除をトリガーするために必要な結合のプローブ側の Delta テーブルの最小サイズ (バイト単位) を表します。 プローブ側があまり大きくない場合は、フィルターを押し下げる価値はないでしょう。テーブル全体をスキャンするだけです。 Delta テーブルのサイズは、DESCRIBE DETAIL table_name コマンドを実行し、sizeInBytes 列を確認することで確認できます。
  • spark.databricks.optimizer.deltaTableFilesThreshold (既定値は 10): 動的ファイルの排除をトリガーするために必要な結合のプローブ側にある Delta テーブルのファイルの数を表します。 プローブ側テーブルにしきい値より少ないファイルが含まれている場合、動的ファイル排除はトリガーされません。 テーブルに少数のファイルしかない場合は、動的ファイルの排除を有効にする価値はおそらくありません。 Delta テーブルのサイズは、DESCRIBE DETAIL table_name コマンドを実行し、numFiles 列を確認することで確認できます。