Freigeben über


Databricks Runtime 9.0 für Maschinelles Lernen (EoL)

Hinweis

Diese Databricks-Runtime-Version hat das Ende der Lebensdauer erreicht und ist nicht mehr verfügbar. Informationen zu End-of-Life-Daten finden Sie unter Ende des Supports und End-of-Life-Historie. Informationen über die Richtlinie und den Zeitplan für den Support von Databricks Runtime finden Sie unter Databricks Support-Laufzeiten.

Diese Version wurde von Databricks im August 2021 veröffentlicht.

Databricks Runtime 9.0 für Machine Learning bietet eine ready-to-go Umgebung für maschinelles Lernen und Data Science basierend auf Databricks Runtime 9.0 (EoL). Databricks Runtime ML enthält viele beliebte Machine Learning-Bibliotheken, einschließlich TensorFlow, PyTorch und XGBoost. Zudem wird ein verteiltes Deep Learning-Training mit Horovod unterstützt.

Weitere Informationen, einschließlich Anweisungen zum Erstellen eines Databricks Runtime ML-Clusters, finden Sie unter KI und Machine Learning in Databricks.

Korrektur

In einer früheren Version dieser Release-Notes wurde angegeben, dass die Unterstützung für die Überwachung von Cluster-GPU-Metriken mit Ganglia in Databricks Runtime 9.0 ML GPU deaktiviert wurde. Das war der Fall bei Databricks Runtime 9.0 ML Beta, aber das Problem wurde mit Databricks Runtime 9.0 ML GA behoben. Die Aussage wurde entfernt.

Neue Features und Verbesserungen

Databricks Runtime 9.0 ML basiert auf Databricks Runtime 9.0. Informationen zu den Neuerungen in Databricks Runtime 9.0, einschließlich Apache Spark MLlib und SparkR, finden Sie in den Versionshinweisen zur Databricks Runtime 9.0 (EoL).

Databricks-Autologging (Öffentliche Vorschau)

Databricks Autologging ist jetzt in Databricks Runtime 9.0 für Machine Learning in ausgewählten Regionen verfügbar. Die automatische Databricks-Protokollierung ist eine Lösung ohne Programmieraufwand, die eine automatische Nachverfolgung von Experimenten für Machine Learning-Trainingssitzungen in Azure Databricks ermöglicht. Mit Databricks Autologging werden Modellparameter, Metriken, Dateien und Linieninformationen automatisch erfasst, wenn Sie Modelle mit einer Vielzahl beliebter Machine Learning-Bibliotheken trainieren. Trainingssitzungen werden als MLflow Tracking Runs aufgezeichnet. Modelldateien werden auch nachverfolgt, sodass Sie sie problemlos in der MLflow-Modellregistrierung protokollieren und für die Bewertung in Echtzeit mithilfe der MLflow-Modellbereitstellung bereitstellen können.

Weitere Informationen zur automatischen Protokollierung in Databricks finden Sie unter Automatische Databricks-Protokollierung.

Verbesserungen am Feature Store von Databricks

Die Leistung beim Erstellen eines Trainingssets wurde verbessert, indem die Anzahl von Verknüpfungen über Quellfunktionstabellen hinweg minimiert wurde.

Die XGBoost-Integration mit PySpark unterstützt jetzt verteilte Trainings- und GPU-Cluster.

Weitere Informationen finden Sie unter Verwenden von XGBoost in Azure Databricks.

Wichtige Änderungen an der Databricks Runtime ML Python-Umgebung

Conda-Umgebungen werden zusammen mit dem Befehl %conda entfernt. Databricks Runtime 9.0 ML wurde mit pip und virtualenv erstellt. Benutzerdefinierte Images, die Conda-basierte Umgebungen mit Databricks Container Services verwenden, werden weiterhin unterstützt, verfügen jedoch nicht über Notebook-beschränkte Bibliotheksfunktionen. Databricks empfiehlt die Verwendung von virtualenv-basierten Umgebungen mit Databricks Container Services und %pip für alle Bibliotheken im Notebookbereich.

Siehe Databricks Runtime 9.0 (EoL) für die wichtigsten Änderungen an der Databricks Runtime Python-Umgebung. Eine vollständige Liste der installierten Python-Pakete und deren Versionen finden Sie unter Python-Bibliotheken.

Python-Pakete, die ein Upgrade erhalten haben

  • mlflow 1.18.0 -> 1.19.0
  • nltk 3.5 -> 3.6.1

Hinzugefügte Python-Pakete

  • Prophet 1.0.1

Python-Pakete entfernt

  • MKL
  • Azure Core
  • Azure-Speicher-Blob
  • msrest
  • Docker
  • querystring-parser
  • intel-openmp

Veraltete und nicht unterstützte Features

  • In Databricks Runtime 9.0 ML unterstützt HorovodRunner das Festlegen von np=0 nicht, wobei np die Anzahl der parallelen Prozesse ist, die für den Horovod-Auftrag verwendet werden sollen.
  • Databricks Runtime 9.0 ML enthält r-base 4.1.0 mit R-Grafik-Engine Version 14. Dies wird von RStudio Server Version 1.2.x nicht unterstützt.
  • nvprof wird in Databricks Runtime 9.0 ML GPU entfernt.

Systemumgebung

Die Systemumgebung in Databricks Runtime 9.0 ML unterscheidet sich wie folgt von Databricks Runtime 9.0:

Bibliotheken

In den folgenden Abschnitten sind die Bibliotheken aufgelistet, die in Databricks Runtime 9.0 ML enthalten sind und sich von den in Databricks Runtime 9.0 enthaltenen Bibliotheken unterscheiden.

Inhalt dieses Abschnitts:

Bibliotheken der obersten Ebene

Databricks Runtime 9.0 ML enthält die folgenden Bibliotheken der obersten Ebene:

Python-Bibliotheken

Databricks Runtime 9.0 ML verwendet Virtualenv zur Verwaltung von Python-Paketen und enthält viele beliebte ML-Pakete.

Zusätzlich zu den Paketen, die in den folgenden Abschnitten aufgeführt sind, umfasst Databricks Runtime 9.0 ML auch die folgenden Pakete:

  • Hyperopt 0.2.5.db2
  • sparkdl 2.2.0_db1
  • feature_store 0.3.3
  • automl 1.1.1

Python-Bibliotheken in CPU-Clustern

Bibliothek Version Bibliothek Version Bibliothek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) Appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 Astunparse 1.6.3
asynchroner Generator 1.10 Attrs 20.3.0 Backcall 0.2.0
bcrypt 3.2.0 Bleichmittel 3.3.0 Boto3 1.16.7
Botocore 1.19.7 Flaschenhals 1.3.2 CacheWerkzeuge 4.2.2
Zertifizieren 2020.12.5 CFFI 1.14.5 Chardet 4.0.0
Klicken 7.1.2 Wolkengurke 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 Convertdate 2.3.2 Kryptographie 3.4.7
Fahrradfahrer 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 Dekorateur 5.0.6 defusedxml 0.7.1
Dill 0.3.2 Festplatten-Cache 5.2.1 Distlib 0.3.2
Distro-Informationen 0.23ubuntu1 Einstiegspunkte 0,3 Kurzlebig 4.0.0.2
Übersicht der Facetten 1.0.0 Dateisperrung 3.0.12 Flasche 1.1.2
FlatBuffers 1.12 fsspec 0.9.0 Zukunft 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
Google-Authentifizierung 1.22.1 google-auth-oauthlib 0.4.2 Google-Pasta 0.2.0
GRPCIO 1.34.1 gunicorn 20.0.4 h5py 3.1.0
Hijri-Konverter 2.1.3 Ferien 0.10.5.2 Horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 Isodate 0.6.0 es ist gefährlich 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
Jupyter-Client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-nightly 2.5.0.dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koalas 1.8.1 koreanischer Lunarkalender 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 Mondkalender 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 fehltNein 0.5.0 verstimmen 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 Multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 Natural Language Toolkit (nltk) 3.6.1
Notebook 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Packen 20.9
Pandas 1.2.4 Pandas-Profiling 3.0.0 Pandocfilter 1.4.3
paramiko 2.7.2 Parso 0.7.0 Sündenbock 0.5.1
Petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
Pickleshare 0.7.5 Kissen 8.2.0 pip 21.0.1
Handlung 4.14.3 prometheus-client 0.10.1 Prompt-Toolkit 3.0.17
Prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 Pyarrow 4.0.0
Pyasn1 0.4.8 Pyasn1-Module 0.2.8 Pycparser 2,20
Pydantisch 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
Pyparsing 2.4.7 Pyristent 0.17.3 Pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 Python-dateutil 2.8.1 Python-Editor 1.0.4
Pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 Anforderungen 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Erneuter Versuch 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-lernen 0.24.1
SciPy 1.6.2 Seegeboren 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 Schattierung 0.39.0
simplejson 3.17.2 sechs 1.15.0 Schneidemaschine 0.0.7
smmap 3.0.5 Spark-Tensorflow-Distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 StatistikModelle 0.12.2 tabellarisieren 0.8.7
tangled-up-in-unicode 0.1.0 TensorBoard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 tensorflow-cpu 2.5.0 TensorFlow-Estimator 2.5.0
Termcolor 1.1.0 beendet 0.9.4 Testpfad 0.4.4
Threadpoolctl 2.1.0 Fackel 1.9.0+cpu Fackelvision 0.10.0+cpu
Tornado 6.1 tqdm 4.59.0 Traitlets 5.0.5
Erweiterungen für Typisierung 3.7.4.3 ujson 4.0.2 unbeaufsichtigte Aktualisierungen 0,1
urllib3 1.25.11 virtualenv 20.4.1 Visionen 0.7.1
wcwidth 0.2.5 Webkodierungen 0.5.1 WebSocket-Client 0.57.0
Werkzeug 1.0.1 Rad 0.36.2 widgetsnbextension 3.5.1
Eingehüllt 1.12.1 xgboost 1.4.2

Python-Bibliotheken für GPU-Cluster

Bibliothek Version Bibliothek Version Bibliothek Version
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) Appdirs 1.4.4
argon2-cffi 20.1.0 Astor 0.8.1 Astunparse 1.6.3
asynchroner Generator 1.10 Attrs 20.3.0 Backcall 0.2.0
bcrypt 3.2.0 Bleichmittel 3.3.0 Boto3 1.16.7
Botocore 1.19.7 Flaschenhals 1.3.2 CacheWerkzeuge 4.2.2
Zertifizieren 2020.12.5 CFFI 1.14.5 Chardet 4.0.0
Klicken 7.1.2 Wolkengurke 1.6.0 cmdstanpy 0.9.68
configparser 5.0.1 Convertdate 2.3.2 Kryptographie 3.4.7
Fahrradfahrer 0.10.0 Cython 0.29.23 databricks-cli 0.14.3
dbus-python 1.2.16 Dekorateur 5.0.6 defusedxml 0.7.1
Dill 0.3.2 Festplatten-Cache 5.2.1 Distlib 0.3.2
Distro-Informationen 0.23ubuntu1 Einstiegspunkte 0,3 Kurzlebig 4.0.0.2
Übersicht der Facetten 1.0.0 Dateisperrung 3.0.12 Flasche 1.1.2
FlatBuffers 1.12 fsspec 0.9.0 Zukunft 0.18.2
gast 0.4.0 gitdb 4.0.7 GitPython 3.1.12
Google-Authentifizierung 1.22.1 google-auth-oauthlib 0.4.2 Google-Pasta 0.2.0
GRPCIO 1.34.1 gunicorn 20.0.4 h5py 3.1.0
Hijri-Konverter 2.1.3 Ferien 0.10.5.2 Horovod 0.22.1
htmlmin 0.1.12 idna 2.10 ImageHash 4.2.1
ipykernel 5.3.4 ipython 7.22.0 ipython-genutils 0.2.0
ipywidgets 7.6.4 Isodate 0.6.0 es ist gefährlich 1.1.0
Jedi 0.17.2 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.0.1 joblibspark 0.3.0 jsonschema 3.2.0
Jupyter-Client 6.1.12 jupyter-core 4.7.1 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.1 keras-nightly 2.5.0.dev2021032900 Keras-Preprocessing 1.1.2
kiwisolver 1.3.1 Koalas 1.8.1 koreanischer Lunarkalender 0.2.1
lightgbm 3.1.1 llvmlite 0.36.0 Mondkalender 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 1.1.1
matplotlib 3.4.2 fehltNein 0.5.0 verstimmen 0.8.4
mleap 0.17.0 mlflow-skinny 1.19.0 Multimethod 1.4
nbclient 0.5.3 nbconvert 6.0.7 nbformat 5.1.3
nest-asyncio 1.5.1 networkx 2,5 Natural Language Toolkit (nltk) 3.6.1
Notebook 6.3.0 numba 0.53.1 numpy 1.19.2
oauthlib 3.1.0 opt-einsum 3.3.0 Packen 20.9
Pandas 1.2.4 Pandas-Profiling 3.0.0 Pandocfilter 1.4.3
paramiko 2.7.2 Parso 0.7.0 Sündenbock 0.5.1
Petastorm 0.11.1 pexpect 4.8.0 phik 0.12.0
Pickleshare 0.7.5 Kissen 8.2.0 pip 21.0.1
Handlung 4.14.3 prometheus-client 0.11.0 Prompt-Toolkit 3.0.17
Prophet 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 Pyarrow 4.0.0
Pyasn1 0.4.8 Pyasn1-Module 0.2.8 Pycparser 2,20
Pydantisch 1.8.2 Pygments 2.8.1 PyGObject 3.36.0
PyMeeus 0.5.11 PyNaCl 1.3.0 pyodbc 4.0.30
Pyparsing 2.4.7 Pyristent 0.17.3 Pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.6 Python-dateutil 2.8.1 Python-Editor 1.0.4
Pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 Regex 2021.4.4 Anforderungen 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 Erneuter Versuch 1.3.3
rsa 4.7.2 s3transfer 0.3.7 scikit-lernen 0.24.1
SciPy 1.6.2 Seegeboren 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 Schattierung 0.39.0
simplejson 3.17.2 sechs 1.15.0 Schneidemaschine 0.0.7
smmap 3.0.5 Spark-Tensorflow-Distributor 0.1.0 sqlparse 0.4.1
ssh-import-id 5.10 StatistikModelle 0.12.2 tabellarisieren 0.8.7
tangled-up-in-unicode 0.1.0 TensorBoard 2.5.0 tensorboard-data-server 0.6.1
tensorboard-plugin-wit 1.8.0 TensorFlow 2.5.0 TensorFlow-Estimator 2.5.0
Termcolor 1.1.0 beendet 0.9.4 Testpfad 0.4.4
Threadpoolctl 2.1.0 Fackel 1.9.0+cu111 Fackelvision 0.10.0+cu111
Tornado 6.1 tqdm 4.59.0 Traitlets 5.0.5
Erweiterungen für Typisierung 3.7.4.3 ujson 4.0.2 unbeaufsichtigte Aktualisierungen 0,1
urllib3 1.25.11 virtualenv 20.4.1 Visionen 0.7.1
wcwidth 0.2.5 Webkodierungen 0.5.1 WebSocket-Client 0.57.0
Werkzeug 1.0.1 Rad 0.36.2 widgetsnbextension 3.5.1
Eingehüllt 1.12.1 xgboost 1.4.2

Spark-Pakete mit Python-Modulen

Spark-Paket Python-Modul Version
Graphframes Graphframes 0.8.1-db3-spark3.1

R-Bibliotheken

Die R-Bibliotheken sind mit den R-Bibliotheken in Databricks Runtime 9.0 identisch.

Java- und Scala-Bibliotheken (Scala 2.12-Cluster)

Zusätzlich zu Java- und Scala-Bibliotheken in Databricks Runtime 9.0 enthält Databricks Runtime 9.0 ML die folgenden JAR-Dateien:

CPU-Cluster

Gruppen-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-spark_2.12 1.4.1
ml.dmlc xgboost4j_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU-Cluster

Gruppen-ID Artefakt-ID Version
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.17.0-4882dc3
ml.dmlc xgboost4j-gpu_2.12 1.4.1
ml.dmlc xgboost4j-spark-gpu_2.12 1.4.1
org.graphframes graphframes_2.12 0.8.1-db2-spark3.1
org.mlflow mlflow-client 1.19.0
org.mlflow mlflow-spark 1.19.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0