Databricks Runtime 10.4 LTS 機械学習向け (EoS)

注意

この Databricks Runtime バージョンのサポートは終了しました。 サポート終了日については、サポート 終了と有効期限の履歴を参照してください。 サポートされている Databricks Runtime のすべてのバージョンについては、「Databricks Runtime リリース ノートのバージョンと互換性」を参照してください。

Databricks Runtime 10.4 LTS for Machine Learningは、Databricks Runtime 10.4 LTS (EoS) に基づき、機械学習とデータサイエンス用のすぐに利用可能な環境を提供します。 Databricks Runtime ML には、TensorFlow、PyTorch、XGBoost など、多くの一般的な機械学習ライブラリが含まれています。 Databricks Runtime ML には、機械学習パイプラインを自動的にトレーニングするツールである AutoML が含まれています。 また、Databricks Runtime ML では、Horovod を使用した分散型ディープ ラーニング トレーニングもサポートされます。

Databricks Runtime ML クラスターを作成する手順などの詳細については、「Databricks での AI と機械学習」を参照してください。

新機能と機能強化

Databricks Runtime 10.4 LTS ML は、Databricks Runtime 10.4 LTS の上に構築されています。 Apache Spark MLlib や SparkR など、Databricks Runtime 10.4 LTS の新機能については、 Databricks Runtime 10.4 LTS (EoS) のリリース ノートを参照してください。

AutoML の機能強化

AutoML に対して、次の機能強化が行われました。

AutoML は一般公開されています

Databricks Runtime 10.4 LTS ML 以降では、AutoML が一般公開されています。

欠損値の補完

null 値を補完する方法を指定できるようになりました。 AutoML では既定で、列の型と内容に基づいて補完方法が選択されます。 詳細については、「欠損値の代入」を参照してください。

UI からの列の選択

分類と回帰の問題については、API に加えて UI を使用して、AutoML が計算中に無視する必要がある列を指定できるようになりました。 「列の選択」を参照してください。

新しいデータ型

AutoML で数値配列型がサポートされるようになりました。

生成されたノートブックと実験のカスタムの場所

生成されたノートブックと実験が AutoML によって保存されるワークスペース内の場所を指定できるようになりました。 experiment_dir パラメーターを使用します。 AutoML Python API リファレンスを参照してください。

Databricks Feature Store の機能強化

Databricks Feature Store に対して次の機能強化が行われました。

  • 既存の Delta テーブルを機能テーブルとして登録できるようになりました。

システム環境

Databricks Runtime 10.4 LTS ML のシステム環境は、Databricks Runtime 10.4 LTS とは次のように異なります。

ライブラリ

以下のセクションでは、Databricks Runtime 10.4 LTS に含まれているものとは異なる、Databricks Runtime 10.4 LTS ML に含まれるライブラリ一覧を示します。

このセクションの内容は次のとおりです。

最上位層ライブラリ

Databricks Runtime 10.4 LTS ML には、次の最上位層ライブラリが含まれています。

Python ライブラリ

Databricks Runtime 10.4 LTS ML では、Python パッケージ管理に Virtualenv が使用され、多くの一般的な ML パッケージが含まれています。

以下のセクションで指定されているパッケージに加えて、Databricks Runtime 10.4 LTS ML には次のパッケージも含まれています。

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db5
  • feature_store 0.3.8
  • automl 1.7.2

CPUクラスター上のPythonライブラリ

ローカルの Python 仮想環境で Databricks Runtime ML Python環境を再現するには、requirements-10.4.txt ファイルをダウンロードし、pip install -r requirements-10.4.txt を実行します。 このコマンドは、Databricks Runtime ML が使用するすべてのオープンソースライブラリをインストールしますが、databricks-automldatabricks-feature-store、またはhyperoptのDatabricksフォークなど、Azure Databricks によって開発されたライブラリはインストールしません。

ライブラリ バージョン ライブラリ バージョン ライブラリ バージョン
absl-py 0.11.0 Antergos Linux 2015年10月 (ISO-Rolling) アプリケーションディレクトリ (appdirs) 1.4.4
argon2-cffi 20.1.0 アスター 0.8.1 astunparse 1.6.3
async-generator (非同期ジェネレーター) 1.10 属性 20.3.0 バックコール (再発信機能) 0.2.0
bcrypt(ビークリプト) 3.2.0 バイディクト 0.21.4 漂白剤 3.3.0
ブリス 0.7.4 boto3 1.16.7 botocore 1.19.7
キャッシュツールズ (cachetools) 4.2.4 カタログ 2.0.6 サーティフィ 2020.12.5
cffi 1.14.5 チャーデット 4.0.0 クリックする 7.1.2
クラウドピックル 1.6.0 cmdstanpy 0.9.68 configparser (コンフィグパーサー) 5.0.1
日付変換 2.3.2 暗号 3.4.7 サイクリスト 0.10.0
サイメム 2.0.5 Cython 0.29.23 databricks-automl-runtime(データブリックス・オートエムエル・ランタイム) 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
デコレータ 5.0.6 デフューズドXML (defusedxml) 0.7.1 ディル 0.3.2
ディスクキャッシュ 5.2.1 distlib 0.3.4 ディストリビューション情報 0.23ubuntu1
入口点 0.3 エフェム 4.1.3 ファセット概要 1.0.0
fasttext(ファーストテキスト) 0.9.2 ファイルロック 3.0.12 Flask 1.1.2
フラットバッファーズ 2.0 fsspec 0.9.0 未来 0.18.2
ガスト 0.4.0 ギットディービー 4.0.7 GitPython 3.1.12
google-auth(Google認証) 1.22.1 google-auth-oauthlib 0.4.2 グーグルパスタ 0.2.0
grpcio 1.39.0 ガニーコーン (gunicorn) 20.0.4 gviz-api 1.10.0
h5py 3.1.0 ヒジュリ変換器 2.2.3 休日 0.12
ホロヴォド 0.23.0 HTML最小化ツール(htmlmin) 0.1.12 huggingface-hub(ハギングフェイスのハブ) 0.1.2
IDNA 2.10 イメージハッシュ (ImageHash) 4.2.1 imbalanced-learn 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils (IPython用のユーティリティ) 0.2.0 ipywidgets (インタラクティブウィジェット) 7.6.3 アイソデート 0.6.0
itsdangerous(イッツデンジャラス) 1.1.0 ジェダイ 0.17.2 ジンジャ2 2.11.3
jmespath 0.10.0 「joblib」 1.0.1 ジョブリブスパーク 0.3.0
JSONスキーマ 3.2.0 ジュピタークライアント 6.1.12 ジュピター・コア 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab ウィジェット 1.0.0 keras 2.8.0
Keras-Preprocessing 1.1.2 キウィソルバー 1.3.1 コアラ 1.8.2
韓国陰暦 0.2.1 言語コード 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 月暦 (Lunar Calendar) 0.0.9
アオザメ 1.1.3 Markdown 3.3.3 マークアップセーフ 2.0.1
matplotlib 3.4.2 missingno 0.5.1 ミスチューン 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 マルチメソッド 1.7
マーマーハッシュ (murmurhash) 1.0.5 nbclient(エヌビー・クライアント) 0.5.3 NBコンバート 6.0.7
nbフォーマット 5.1.3 nest-asyncio(ネスト・アサインキオ) 1.5.1 networkx 2.5
nltk 3.6.1 ノートブック 6.3.0 numba 0.55.1
NumPy (数値計算ライブラリ) 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
パッケージング 21.3 パンダ 1.2.4 pandas-profiling(パンダスプロファイリング) 3.1.0
パンドックフィルターズ 1.4.3 paramiko 2.7.2 パルソ 0.7.0
病気または感覚を表す用語として使用される「パシー」 0.6.0 パッツィ 0.5.1 petastorm 0.11.4
ペキスペクト 4.8.0 フィック 0.12.0 ピクルシェア 0.7.5
8.2.0 21.0.1 plotly - データビジュアライゼーションツール 5.5.0
pmdarima 1.8.4 プレシェッド 3.0.5 prometheus-クライアント 0.10.1
prompt-toolkit(プロンプトツールキット) 3.0.17 預言者 1.0.1 プロトバフ 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow (パイアロー) 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.9.1 pycparser(パイシーパーサー) 2.20 Pythonのデータバリデーションライブラリ「pydantic」 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.4.0 pyodbc (Pythonのデータベース接続用ライブラリ) 4.0.30 パイパーシング (Pyparsing) 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7
python-dateutil (Python用の日付処理ライブラリ) 2.8.1 パイソンエディター 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 RegEx 2021.4.4
リクエスト 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
RSA(アールエスエー) 4.7.2 s3transfer 0.3.7 sacremoses 0.0.46
scikit-learn(サイキット・ラーン) 0.24.1 scipy (Pythonライブラリ) 1.6.2 seaborn(シーボーン) 0.11.1
Send2Trash(センド2トラッシュ) 1.5.0 setuptools(セットアップツール) 52.0.0 setuptools-git 1.2
シャープ 0.40.0 simplejson 3.17.2 6 1.15.0
スライサー 0.0.7 スマートオープン 5.2.0 smmap 3.0.5
スペーシー 3.2.1 spacy-legacy 3.0.8 スペーシー・ロガーズ 1.0.1
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.1 まじで 2.4.1
ssh-import-id 5.10 statsmodels(スタッツモデルズ) 0.12.2 一覧にする 0.8.7
「tangled」-up-in-ユニコード 0.1.0 粘り強さ 6.2.0 TensorBoard 2.8.0
テンソルボード・データサーバー 0.6.1 tensorboard-plugin-profile 2.5.0 テンソルボードプラグイン-WIT 1.8.1
tensorflow (CPU版) 2.8.0 tensorflow-estimatorツール 2.8.0 tensorflow-io-gcs-filesystem 0.24.0
termcolor 1.1.0 終了しました 0.9.4 テストパス (testpath) 0.4.4
tf-estimator-nightly 2.8.0.dev2021122109 thinc 8.0.12 Threadpoolctl 2.1.0
トークナイザー 0.10.3 電灯 1.10.2 + cpu torchvision 라이브러리 0.11.3+ cpu
竜巻 6.1 tqdm 4.59.0 traitlets(トレイトレット) 5.0.5
トランスフォーマー 4.16.2 タイピスト 0.3.2 タイピング拡張 3.7.4.3
ujson 4.0.2 無人アップグレード 0.1 urllib3 1.25.11
virtualenv 20.4.1 ビジョン 0.7.4 わさび 0.8.2
wcwidth(文字の幅を測定するプログラム関数) 0.2.5 ウェブエンコーディングス 0.5.1 websocket-client (ウェブソケット・クライアント) 0.57.0
Werkzeug 1.0.1 ホイール 0.36.2 ウィジェットNBエクステンション 3.5.1
包まれた 1.12.1 xgboost 1.5.2 ジップ 3.4.1

GPU クラスター上のPython ライブラリ

ライブラリ バージョン ライブラリ バージョン ライブラリ バージョン
absl-py 0.11.0 Antergos Linux 2015年10月 (ISO-Rolling) アプリケーションディレクトリ (appdirs) 1.4.4
argon2-cffi 20.1.0 アスター 0.8.1 astunparse 1.6.3
async-generator (非同期ジェネレーター) 1.10 属性 20.3.0 バックコール (再発信機能) 0.2.0
bcrypt(ビークリプト) 3.2.0 バイディクト 0.21.4 漂白剤 3.3.0
ブリス 0.7.4 boto3 1.16.7 botocore 1.19.7
キャッシュツールズ (cachetools) 4.2.4 カタログ 2.0.6 サーティフィ 2020.12.5
cffi 1.14.5 チャーデット 4.0.0 クリックする 7.1.2
クラウドピックル 1.6.0 cmdstanpy 0.9.68 configparser (コンフィグパーサー) 5.0.1
日付変換 2.3.2 暗号 3.4.7 サイクリスト 0.10.0
サイメム 2.0.5 Cython 0.29.23 databricks-automl-runtime(データブリックス・オートエムエル・ランタイム) 0.2.6
databricks-cli 0.16.3 dbl-tempo 0.1.2 dbus-python 1.2.16
デコレータ 5.0.6 デフューズドXML (defusedxml) 0.7.1 ディル 0.3.2
ディスクキャッシュ 5.2.1 distlib 0.3.4 ディストリビューション情報 0.23ubuntu1
入口点 0.3 エフェム 4.1.3 ファセット概要 1.0.0
fasttext(ファーストテキスト) 0.9.2 ファイルロック 3.0.12 Flask 1.1.2
フラットバッファーズ 2.0 fsspec 0.9.0 未来 0.18.2
ガスト 0.4.0 ギットディービー 4.0.7 GitPython 3.1.12
google-auth(Google認証) 1.22.1 google-auth-oauthlib 0.4.2 グーグルパスタ 0.2.0
grpcio 1.39.0 ガニーコーン (gunicorn) 20.0.4 gviz-api 1.10.0
h5py 3.1.0 ヒジュリ変換器 2.2.3 休日 0.12
ホロヴォド 0.23.0 HTML最小化ツール(htmlmin) 0.1.12 huggingface-hub(ハギングフェイスのハブ) 0.1.2
IDNA 2.10 イメージハッシュ (ImageHash) 4.2.1 imbalanced-learn 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils (IPython用のユーティリティ) 0.2.0 ipywidgets (インタラクティブウィジェット) 7.6.3 アイソデート 0.6.0
itsdangerous(イッツデンジャラス) 1.1.0 ジェダイ 0.17.2 ジンジャ2 2.11.3
jmespath 0.10.0 「joblib」 1.0.1 ジョブリブスパーク 0.3.0
JSONスキーマ 3.2.0 ジュピタークライアント 6.1.12 ジュピター・コア 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab ウィジェット 1.0.0 keras 2.8.0
Keras-Preprocessing 1.1.2 キウィソルバー 1.3.1 コアラ 1.8.2
韓国陰暦 0.2.1 言語コード 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 月暦 (Lunar Calendar) 0.0.9
アオザメ 1.1.3 Markdown 3.3.3 マークアップセーフ 2.0.1
matplotlib 3.4.2 missingno 0.5.1 ミスチューン 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 マルチメソッド 1.7
マーマーハッシュ (murmurhash) 1.0.5 nbclient(エヌビー・クライアント) 0.5.3 NBコンバート 6.0.7
nbフォーマット 5.1.3 nest-asyncio(ネスト・アサインキオ) 1.5.1 networkx 2.5
nltk 3.6.1 ノートブック 6.3.0 numba 0.55.1
NumPy (数値計算ライブラリ) 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
パッケージング 21.3 パンダ 1.2.4 pandas-profiling(パンダスプロファイリング) 3.1.0
パンドックフィルターズ 1.4.3 paramiko 2.7.2 パルソ 0.7.0
病気または感覚を表す用語として使用される「パシー」 0.6.0 パッツィ 0.5.1 petastorm 0.11.4
ペキスペクト 4.8.0 フィック 0.12.0 ピクルシェア 0.7.5
8.2.0 21.0.1 plotly - データビジュアライゼーションツール 5.5.0
pmdarima 1.8.4 プレシェッド 3.0.5 prompt-toolkit(プロンプトツールキット) 3.0.17
預言者 1.0.1 プロトバフ 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow (パイアロー) 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.9.1
pycparser(パイシーパーサー) 2.20 Pythonのデータバリデーションライブラリ「pydantic」 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.4.0
pyodbc (Pythonのデータベース接続用ライブラリ) 4.0.30 パイパーシング (Pyparsing) 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7 python-dateutil (Python用の日付処理ライブラリ) 2.8.1
パイソンエディター 1.0.4 python-engineio 4.3.0 python-socketio 5.4.1
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 RegEx 2021.4.4 リクエスト 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 RSA(アールエスエー) 4.7.2
s3transfer 0.3.7 sacremoses 0.0.46 scikit-learn(サイキット・ラーン) 0.24.1
scipy (Pythonライブラリ) 1.6.2 seaborn(シーボーン) 0.11.1 Send2Trash(センド2トラッシュ) 1.5.0
setuptools(セットアップツール) 52.0.0 setuptools-git 1.2 シャープ 0.40.0
simplejson 3.17.2 6 1.15.0 スライサー 0.0.7
スマートオープン 5.2.0 smmap 3.0.5 スペーシー 3.2.1
spacy-legacy 3.0.8 スペーシー・ロガーズ 1.0.1 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.1 まじで 2.4.1 ssh-import-id 5.10
statsmodels(スタッツモデルズ) 0.12.2 一覧にする 0.8.7 「tangled」-up-in-ユニコード 0.1.0
粘り強さ 6.2.0 TensorBoard 2.8.0 テンソルボード・データサーバー 0.6.1
tensorboard-plugin-profile 2.5.0 テンソルボードプラグイン-WIT 1.8.1 テンソルフロー 2.8.0
tensorflow-estimatorツール 2.8.0 tensorflow-io-gcs-filesystem 0.24.0 termcolor 1.1.0
終了しました 0.9.4 テストパス (testpath) 0.4.4 tf-estimator-nightly 2.8.0.dev2021122109
thinc 8.0.12 Threadpoolctl 2.1.0 トークナイザー 0.10.3
電灯 1.10.2+cu111 torchvision 라이브러리 0.11.3+cu111 竜巻 6.1
tqdm 4.59.0 traitlets(トレイトレット) 5.0.5 トランスフォーマー 4.16.2
タイピスト 0.3.2 タイピング拡張 3.7.4.3 ujson 4.0.2
無人アップグレード 0.1 urllib3 1.25.11 virtualenv 20.4.1
ビジョン 0.7.4 わさび 0.8.2 wcwidth(文字の幅を測定するプログラム関数) 0.2.5
ウェブエンコーディングス 0.5.1 websocket-client (ウェブソケット・クライアント) 0.57.0 Werkzeug 1.0.1
ホイール 0.36.2 ウィジェットNBエクステンション 3.5.1 包まれた 1.12.1
xgboost 1.5.2 ジップ 3.4.1

Python モジュールを含む Spark パッケージ

Spark パッケージ Python モジュール バージョン
graphframes graphframes 0.8.2-db1-spark3.2

R ライブラリ

R ライブラリは、Databricks Runtime 10.4 LTS の R ライブラリと同じです。

Javaおよび Scala ライブラリ (Scala 2.12 クラスター)

Databricks Runtime 10.4 LTS のJavaライブラリと Scala ライブラリに加えて、Databricks Runtime 10.4 LTS ML には次の JAR が含まれています。

CPU クラスター

グループ ID 成果物 ID バージョン
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU クラスター

グループ ID 成果物 ID バージョン
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0