Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Remarque
La prise en charge de cette version databricks Runtime a pris fin. Pour connaître la date de fin de support, consultez l’historique de fin de support et de fin de vie. Pour toutes les versions prises en charge de Databricks Runtime, consultez Notes de publication sur les versions et la compatibilité de Databricks Runtime.
Databricks Runtime 10.4 LTS pour l'apprentissage automatique fournit un environnement prêt à l'emploi pour l'apprentissage automatique et la data science basé sur Databricks Runtime 10.4 LTS (EoS). Databricks Runtime ML contient de nombreuses bibliothèques populaires de Machine Learning, notamment TensorFlow, PyTorch et XGBoost. Databricks Runtime ML comprend AutoML, un outil permettant d’effectuer l’apprentissage automatique des pipelines Machine Learning. Databricks Runtime ML prend également en charge l'apprentissage profond distribué à l'aide d'Horovod.
Pour plus d’informations, notamment les instructions relatives à la création d’un cluster Databricks Runtime ML, consultez IA et Machine Learning sur Databricks.
Améliorations et nouvelles fonctionnalités
Databricks Runtime 10.4 ML s’appuie sur Databricks Runtime 10.4 LTS. Pour plus d’informations sur les nouveautés de Databricks Runtime 10.4 LTS, notamment Apache Spark MLlib et SparkR, consultez les notes de publication databricks Runtime 10.4 LTS (EoS).
Améliorations apportées à AutoML
Les améliorations suivantes ont été apportées à AutoML.
AutoML est généralement disponible
À compter de Databricks Runtime 10.4 LTS ML, AutoML est généralement disponible.
Imputation de valeurs manquantes
Vous pouvez maintenant spécifier comment les valeurs nulles sont imputées. Par défaut, AutoML sélectionne une méthode d’imputation en fonction du type et du contenu de la colonne. Consultez Imputer les valeurs manquantes pour plus d’informations.).
Sélection de colonnes à partir de l’interface utilisateur
Pour les problèmes de classification et de régression, vous pouvez désormais utiliser l’interface utilisateur en plus de l’API pour spécifier les colonnes que AutoML doit ignorer lors de ses calculs. Consultez Sélection de colonne.
Nouveau type de données
AutoML prend désormais en charge les types de tableau numériques.
Emplacement personnalisé des blocs-notes générés et de l’expérience
Vous pouvez maintenant spécifier un emplacement dans l’espace de travail où AutoML doit enregistrer les blocs-notes et les expériences générés. Utilise le paramètre experiment_dir. Consultez Informations de référence sur l’API Python AutoML.
Améliorations apportées à Databricks Feature Store
Les améliorations suivantes ont été apportées au Databricks Feature Store.
- Vous pouvez également inscrire une table Delta existante en tant que table de caractéristiques.
Environnement du système
L’environnement système de Databricks Runtime 10.4 LTS ML diffère de Databricks Runtime 10.4 LTS comme suit :
-
DBUtils : Databricks Runtime ML n’inclut pas l’Utilitaire de bibliothèque (dbutils.library) (hérité).
Utilisez les commandes
%pipà la place. Consultez bibliothèques Python à l'échelle du notebook. - Pour les clusters GPU, Databricks Runtime ML inclut les bibliothèques GPU NVIDIA suivantes :
- CUDA==11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Bibliothèques
Les sections suivantes répertorient les bibliothèques incluses dans Databricks Runtime 10.4 LTS ML qui diffèrent de celles incluses dans Databricks Runtime 10.4 LTS.
Dans cette section :
- Bibliothèques de niveau supérieur
- bibliothèques Python
- Bibliothèques R
- bibliothèques Java et Scala (cluster Scala 2.12)
Bibliothèques de niveau supérieur
Databricks Runtime 10.4 LTS ML comprend les bibliothèquesde niveau supérieur suivantes :
- GraphFrames
- Horovod et HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
bibliothèques de Python
Databricks Runtime 10.4 LTS ML utilise Virtualenv pour Python gestion des packages et inclut de nombreux packages ML populaires.
En plus des packages spécifiés dans les sections suivantes, Databricks Runtime 10.4 LTS ML comprend également les packages suivants :
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.8
- automl 1.7.2
bibliothèques de Python sur les clusters processeur
Pour reproduire l’environnement Databricks Runtime ML Python dans votre environnement virtuel Python local, téléchargez le fichier requirements-10.4.txt et exécutez pip install -r requirements-10.4.txt. Cette commande installe toutes les bibliothèques open source que Databricks Runtime ML utilise, mais n’installe pas Azure Databricks bibliothèques développées, telles que databricks-automl, databricks-feature-store, ou le fork Databricks de hyperopt.
| Bibliothèque | Version | Bibliothèque | Version | Bibliothèque | Version |
|---|---|---|---|---|---|
| absl-py | 0.11.0 | Antergos Linux | 2015,10 (ISO-Rolling) | appdirs | 1.4.4 |
| argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
| générateur asynchrone | 1,10 | attributs | 20.3.0 | appel de retour | 0.2.0 |
| bcrypt | 3.2.0 | bidict | 0.21.4 | blanchir | 3.3.0 |
| félicité | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
| cachetools | 4.2.4 | catalogue | 2.0.6 | certifi | 2020.12.5 |
| cffi | 1.14.5 | chardet | 4.0.0 | cliquez | 7.1.2 |
| cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
| convertdate | 2.3.2 | chiffrement | 3.4.7 | cycliste | 0.10.0 |
| cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
| databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
| décorateur | 5.0.6 | defusedxml | 0.7.1 | aneth | 0.3.2 |
| cache de disque | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
| points d'entrée | 0,3 | ephem | 4.1.3 | aperçu des facettes | 1.0.0 |
| fasttext | 0.9.2 | verrouillage de fichier | 3.0.12 | Fiole | 1.1.2 |
| flatbuffers | 2 | fsspec | 0.9.0 | futur | 0.18.2 |
| Gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
| google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
| grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
| h5py | 3.1.0 | hijri-converter | 2.2.3 | vacances | 0,12 |
| Horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
| idna | 2.10 | ImageHash | 4.2.1 | déséquilibré-learn | 0.8.1 |
| importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
| ipython-genutils | 0.2.0 | ipywidgets (un outil de widgets interactifs pour Python) | 7.6.3 | isodate | 0.6.0 |
| itsdangerous | 1.1.0 | Jedi | 0.17.2 | Jinja2 | 2.11.3 |
| jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
| jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
| jupyterlab-pygments | 0.1.2 | jupyterlab-widgets (widgets pour JupyterLab) | 1.0.0 | keras | 2.8.0 |
| Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | Koalas | 1.8.2 |
| calendrier lunaire coréen | 0.2.1 | codes de langue | 3.3.0 | libclang | 13.0.0 |
| lightgbm | 3.3.2 | llvmlite | 0.38.0 | Calendrier Lunaire | 0.0.9 |
| Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
| matplotlib | 3.4.2 | missingno | 0.5.1 | désaccorder | 0.8.4 |
| mleap | 0.18.1 | mlflow-skinny (version légère de mlflow) | 1.24.0 | multiméthode | 1.7 |
| murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
| nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2,5 |
| nltk | 3.6.1 | carnet de notes | 6.3.0 | numba | 0.55.1 |
| numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
| empaquetage | 21,3 | Pandas | 1.2.4 | pandas-profiling | 3.1.0 |
| pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
| Pathy | 0.6.0 | dupe | 0.5.1 | Petastorm | 0.11.4 |
| pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
| Oreiller | 8.2.0 | pépin | 21.0.1 | tracé | 5.5.0 |
| pmdarima | 1.8.4 | prétraité | 3.0.5 | prometheus-client | 0.10.1 |
| prompt-toolkit | 3.0.17 | prophète | 1.0.1 | protobuf | 3.17.2 |
| psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
| pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
| pybind11 | 2.9.1 | pycparser | 2.20 | pydantic | 1.8.2 |
| Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
| PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
| pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 |
| python-dateutil | 2.8.1 | éditeur Python | 1.0.4 | python-engineio | 4.3.0 |
| python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
| PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
| requêtes | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
| Rsa | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
| scikit-learn | 0.24.1 | scipy (bibliothèque Python pour le calcul scientifique) | 1.6.2 | seaborn | 0.11.1 |
| Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1,2 |
| forme | 0.40.0 | simplejson | 3.17.2 | Six | 1.15.0 |
| segment | 0.0.7 | ouverture intelligente | 5.2.0 | smmap | 3.0.5 |
| Spacy | 3.2.1 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
| spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | sérieusement | 2.4.1 |
| ssh-import-id | 5.10 | statsmodels, une bibliothèque Python pour la modélisation statistique | 0.12.2 | tabuler | 0.8.7 |
| emmêlé-up-in-unicode | 0.1.0 | ténacité | 6.2.0 | TensorBoard (outil de visualisation pour le machine learning) | 2.8.0 |
| serveur de données TensorBoard | 0.6.1 | Plug-in de profilage pour TensorBoard (tensorboard-plugin-profile) | 2.5.0 | tensorboard-plugin-wit | 1.8.1 |
| tensorflow-cpu | 2.8.0 | estimateur TensorFlow | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 |
| termcolor | 1.1.0 | terminé | 0.9.4 | chemin de test | 0.4.4 |
| tf-estimateur-nightly | 2.8.0.dev2021122109 | Thinc | 8.0.12 | threadpoolctl | 2.1.0 |
| générateurs de jetons | 0.10.3 | torche | 1.10.2+ processeur | Torchvision | 0.11.3+cpu |
| tornade | 6.1 | tqdm | 4.59.0 | Traitlets | 5.0.5 |
| transformateurs | 4.16.2 | Typer | 0.3.2 | extensions de typage | 3.7.4.3 |
| ujson | 4.0.2 | mises à niveau automatiques | 0.1 | urllib3 | 1.25.11 |
| virtualenv | 20.4.1 | Visions | 0.7.4 | wasabi | 0.8.2 |
| wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.57.0 |
| Outil | 1.0.1 | roue | 0.36.2 | widgetsnbextension | 3.5.1 |
| enveloppé | 1.12.1 | xgboost | 1.5.2 | zipp | 3.4.1 |
bibliothèques Python sur des clusters GPU
| Bibliothèque | Version | Bibliothèque | Version | Bibliothèque | Version |
|---|---|---|---|---|---|
| absl-py | 0.11.0 | Antergos Linux | 2015,10 (ISO-Rolling) | appdirs | 1.4.4 |
| argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
| générateur asynchrone | 1,10 | attributs | 20.3.0 | appel de retour | 0.2.0 |
| bcrypt | 3.2.0 | bidict | 0.21.4 | blanchir | 3.3.0 |
| félicité | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
| cachetools | 4.2.4 | catalogue | 2.0.6 | certifi | 2020.12.5 |
| cffi | 1.14.5 | chardet | 4.0.0 | cliquez | 7.1.2 |
| cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
| convertdate | 2.3.2 | chiffrement | 3.4.7 | cycliste | 0.10.0 |
| cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
| databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
| décorateur | 5.0.6 | defusedxml | 0.7.1 | aneth | 0.3.2 |
| cache de disque | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
| points d'entrée | 0,3 | ephem | 4.1.3 | aperçu des facettes | 1.0.0 |
| fasttext | 0.9.2 | verrouillage de fichier | 3.0.12 | Fiole | 1.1.2 |
| flatbuffers | 2 | fsspec | 0.9.0 | futur | 0.18.2 |
| Gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
| google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
| grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
| h5py | 3.1.0 | hijri-converter | 2.2.3 | vacances | 0,12 |
| Horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
| idna | 2.10 | ImageHash | 4.2.1 | déséquilibré-learn | 0.8.1 |
| importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
| ipython-genutils | 0.2.0 | ipywidgets (un outil de widgets interactifs pour Python) | 7.6.3 | isodate | 0.6.0 |
| itsdangerous | 1.1.0 | Jedi | 0.17.2 | Jinja2 | 2.11.3 |
| jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
| jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
| jupyterlab-pygments | 0.1.2 | jupyterlab-widgets (widgets pour JupyterLab) | 1.0.0 | keras | 2.8.0 |
| Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | Koalas | 1.8.2 |
| calendrier lunaire coréen | 0.2.1 | codes de langue | 3.3.0 | libclang | 13.0.0 |
| lightgbm | 3.3.2 | llvmlite | 0.38.0 | Calendrier Lunaire | 0.0.9 |
| Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
| matplotlib | 3.4.2 | missingno | 0.5.1 | désaccorder | 0.8.4 |
| mleap | 0.18.1 | mlflow-skinny (version légère de mlflow) | 1.24.0 | multiméthode | 1.7 |
| murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
| nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2,5 |
| nltk | 3.6.1 | carnet de notes | 6.3.0 | numba | 0.55.1 |
| numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
| empaquetage | 21,3 | Pandas | 1.2.4 | pandas-profiling | 3.1.0 |
| pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
| Pathy | 0.6.0 | dupe | 0.5.1 | Petastorm | 0.11.4 |
| pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
| Oreiller | 8.2.0 | pépin | 21.0.1 | tracé | 5.5.0 |
| pmdarima | 1.8.4 | prétraité | 3.0.5 | prompt-toolkit | 3.0.17 |
| prophète | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
| psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
| pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.9.1 |
| pycparser | 2.20 | pydantic | 1.8.2 | Pygments | 2.8.1 |
| PyGObject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.4.0 |
| pyodbc | 4.0.30 | pyparsing | 2.4.7 | pyrsistent | 0.17.3 |
| pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 | python-dateutil | 2.8.1 |
| éditeur Python | 1.0.4 | python-engineio | 4.3.0 | python-socketio | 5.4.1 |
| pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
| pyzmq | 20.0.0 | regex | 2021.4.4 | requêtes | 2.25.1 |
| requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | Rsa | 4.7.2 |
| s3transfer | 0.3.7 | sacremoses | 0.0.46 | scikit-learn | 0.24.1 |
| scipy (bibliothèque Python pour le calcul scientifique) | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
| setuptools | 52.0.0 | setuptools-git | 1,2 | forme | 0.40.0 |
| simplejson | 3.17.2 | Six | 1.15.0 | segment | 0.0.7 |
| ouverture intelligente | 5.2.0 | smmap | 3.0.5 | Spacy | 3.2.1 |
| spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 |
| sqlparse | 0.4.1 | sérieusement | 2.4.1 | ssh-import-id | 5.10 |
| statsmodels, une bibliothèque Python pour la modélisation statistique | 0.12.2 | tabuler | 0.8.7 | emmêlé-up-in-unicode | 0.1.0 |
| ténacité | 6.2.0 | TensorBoard (outil de visualisation pour le machine learning) | 2.8.0 | serveur de données TensorBoard | 0.6.1 |
| Plug-in de profilage pour TensorBoard (tensorboard-plugin-profile) | 2.5.0 | tensorboard-plugin-wit | 1.8.1 | TensorFlow | 2.8.0 |
| estimateur TensorFlow | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 | termcolor | 1.1.0 |
| terminé | 0.9.4 | chemin de test | 0.4.4 | tf-estimateur-nightly | 2.8.0.dev2021122109 |
| Thinc | 8.0.12 | threadpoolctl | 2.1.0 | générateurs de jetons | 0.10.3 |
| torche | 1.10.2+cu111 | Torchvision | 0.11.3+cu111 | tornade | 6.1 |
| tqdm | 4.59.0 | Traitlets | 5.0.5 | transformateurs | 4.16.2 |
| Typer | 0.3.2 | extensions de typage | 3.7.4.3 | ujson | 4.0.2 |
| mises à niveau automatiques | 0.1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
| Visions | 0.7.4 | wasabi | 0.8.2 | wcwidth | 0.2.5 |
| webencodings | 0.5.1 | websocket-client | 0.57.0 | Outil | 1.0.1 |
| roue | 0.36.2 | widgetsnbextension | 3.5.1 | enveloppé | 1.12.1 |
| xgboost | 1.5.2 | zipp | 3.4.1 |
Packages Spark contenant des modules Python
| Paquet Spark | module Python | Version |
|---|---|---|
| graphframes | graphframes | 0.8.2-db1-spark3.2 |
Bibliothèques R
Les bibliothèques R sont identiques aux bibliothèques R dans Databricks Runtime 10.4 LTS.
bibliothèques Java et Scala (cluster Scala 2.12)
Outre les bibliothèques Java et Scala dans Databricks Runtime 10.4 LTS, Databricks Runtime 10.4 LTS ML contient les JAR suivants :
Clusters de processeurs
| ID de groupe | ID d’artefact | Version |
|---|---|---|
| com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
| ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
| ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
| ml.dmlc | xgboost4j_2.12 | 1.5.2 |
| org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
| org.mlflow | mlflow-client | 1.24.0 |
| org.mlflow | mlflow-spark | 1.24.0 |
| org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
| org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Clusters de GPU
| ID de groupe | ID d’artefact | Version |
|---|---|---|
| com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
| ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
| ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
| ml.dmlc | xgboost4j_2.12 | 1.5.2 |
| org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
| org.mlflow | mlflow-client | 1.24.0 |
| org.mlflow | mlflow-spark | 1.24.0 |
| org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
| org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |