Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Nota:
La compatibilidad con esta versión de Databricks Runtime ha finalizado. Para obtener la fecha de finalización del soporte técnico, consulte Historial de fin de soporte técnico y finalización del ciclo de vida. Para conocer todas las versiones de Databricks Runtime compatibles, consulte las notas de lanzamientos y compatibilidad de Databricks Runtime.
Databricks Runtime 10.4 LTS para Machine Learning proporciona un entorno deto-go listo para machine learning y ciencia de datos basado en Databricks Runtime 10.4 LTS (EoS). Databricks Runtime ML contiene muchas bibliotecas populares de aprendizaje automático, incluidas TensorFlow, PyTorch y XGBoost. Databricks Runtime ML incluye AutoML, una herramienta para entrenar automáticamente canalizaciones de aprendizaje automático. Databricks Runtime ML también admite el entrenamiento de aprendizaje profundo distribuido mediante Horovod.
Para obtener más información, incluidas las instrucciones para crear un clúster de Databricks Runtime ML, consulte IA y aprendizaje automático en Databricks.
Nuevas características y mejoras
Databricks Runtime 10.4 LTS ML se basa en Databricks Runtime 10.4 LTS. Para obtener información sobre las novedades de Databricks Runtime 10.4 LTS, incluidas apache Spark MLlib y SparkR, consulte las notas de la versión de Databricks Runtime 10.4 LTS (EoS).
Mejoras en AutoML
Se han realizado las siguientes mejoras en AutoML.
AutoML está disponible con carácter general
A partir de Databricks Runtime 10.4 LTS ML, AutoML está disponible con carácter general.
Imputación de valores ausentes
Ahora puede especificar cómo se imputan los valores NULL. De forma predeterminada, AutoML selecciona un método de imputación basado en el tipo de columna y el contenido. Vea Imputar los valores que faltan para obtener más información).
Selección de columnas desde la interfaz de usuario
Para problemas de clasificación y regresión, ahora puede usar la interfaz de usuario además de la API a fin de especificar las columnas que AutoML debe omitir durante sus cálculos. Vea selección de columnas.
Nuevo tipo de datos
AutoML ahora admite tipos de matrices numéricas.
Ubicación personalizada de experimentos y cuadernos generados
Ahora puede especificar una ubicación en el área de trabajo donde AutoML debe guardar los experimentos y cuadernos generados. Utilice el parámetro experiment_dir. Consulte AutoML Python API reference.
Mejoras en el Feature Store de Databricks
Se han realizado las siguientes mejoras en el Almacén de características de Databricks.
- Ahora puede registrar una tabla Delta existente como tabla de características.
Entorno del sistema
El entorno del sistema de Databricks Runtime 10.4 LTS ML se diferencia del de Databricks Runtime 10.4 LTS en lo siguiente:
-
DBUtils: Databricks Runtime ML no incluye la utilidad de biblioteca (dbutils.library) (heredada).
Use comandos
%pipen su lugar. Vea Bibliotecas de Python con ámbito específico para notebook. - En los clústeres de GPU, Databricks Runtime ML incluye las siguientes bibliotecas de GPU de NVIDIA:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
Bibliotecas
En las secciones siguientes se enumeran las bibliotecas incluidas en Databricks Runtime 10.4 LTS ML, que difieren de las incluidas en Databricks Runtime 10.4 LTS.
En esta sección:
- Bibliotecas de nivel superior
- bibliotecas Python
- Bibliotecas de R
- bibliotecas de Java y Scala (clúster de Scala 2.12)
Bibliotecas de nivel superior
Databricks Runtime 10.4 LTS ML incluye las siguientes bibliotecas de nivel superior:
- GraphFrames
- Horovod y HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector (conector para Spark y TensorFlow)
- TensorFlow
- TensorBoard
bibliotecas de Python
Databricks Runtime 10.4 LTS ML usa Virtualenv para la administración de paquetes de Python e incluye muchos paquetes populares de ML.
Además de los paquetes especificados en las secciones siguientes, Databricks Runtime 10.4 LTS ML también incluye los paquetes siguientes:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.8
- automl 1.7.2
bibliotecas de Python en clústeres de CPU
Para reproducir el entorno de ml de Databricks Runtime Python en el entorno virtual de Python local, descargue el archivo requirements-10.4.txt y ejecute pip install -r requirements-10.4.txt. Este comando instala todas las bibliotecas de open source que usa Databricks Runtime ML, pero no instala bibliotecas desarrolladas Azure Databricks, como databricks-automl, databricks-feature-store o la bifurcación de Databricks de hyperopt.
| Biblioteca | Versión | Biblioteca | Versión | Biblioteca | Versión |
|---|---|---|---|---|---|
| absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | directorios de aplicaciones | 1.4.4 |
| argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
| generador asíncrono | 1.10 | atributos | 20.3.0 | llamada de retorno | 0.2.0 |
| bcrypt | 3.2.0 | diccionario bidireccional | 0.21.4 | blanquear | 3.3.0 |
| felicidad | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
| cachetools | 4.2.4 | catálogo | 2.0.6 | certifi | 2020.12.5 |
| cffi | 1.14.5 | chardet | 4.0.0 | Haz clic | 7.1.2 |
| cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
| convertdate | 2.3.2 | criptografía | 3.4.7 | ciclista | 0.10.0 |
| cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
| databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
| decorador | 5.0.6 | defusedxml | 0.7.1 | eneldo | 0.3.2 |
| diskcache | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
| puntos de entrada | 0,3 | eméhem | 4.1.3 | visión general de las facetas | 1.0.0 |
| fasttext | 0.9.2 | bloqueo de archivo | 3.0.12 | Matraz | 1.1.2 |
| flatbuffers | 2.0 | fsspec | 0.9.0 | futuro | 0.18.2 |
| Gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
| Google Autenticación | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
| grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
| h5py | 3.1.0 | hijri-converter | 2.2.3 | vacaciones | 0,12 |
| Horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
| idna | 2.10 | Hash de imagen | 4.2.1 | aprendizaje con datos desequilibrados | 0.8.1 |
| importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
| ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
| Es peligroso | 1.1.0 | Jedi | 0.17.2 | Jinja2 | 2.11.3 |
| jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
| jsonschema | 3.2.0 | Cliente Jupyter | 6.1.12 | jupyter-core | 4.7.1 |
| jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
| Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | Koalas | 1.8.2 |
| calendario lunar coreano | 0.2.1 | códigos de idioma | 3.3.0 | libclang | 13.0.0 |
| lightgbm | 3.3.2 | llvmlite | 0.38.0 | Calendario Lunar | 0.0.9 |
| Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
| matplotlib | 3.4.2 | missingno | 0.5.1 | Mal sintonizado | 0.8.4 |
| mleap | 0.18.1 | mlflow-skinny | 1.24.0 | multimétodo | 1.7 |
| murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
| nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2,5 |
| NLTK | 3.6.1 | cuaderno | 6.3.0 | numba | 0.55.1 |
| numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
| empaquetado | 21,3 | Pandas | 1.2.4 | generación de perfiles de pandas | 3.1.0 |
| PandocFiltros | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
| patía | 0.6.0 | chivo expiatorio | 0.5.1 | petastorm | 0.11.4 |
| pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
| Almohada | 8.2.0 | pepita | 21.0.1 | trazado | 5.5.0 |
| pmdarima | 1.8.4 | preshed | 3.0.5 | Cliente-Prometeo | 0.10.1 |
| prompt-toolkit | 3.0.17 | profeta | 1.0.1 | protobuf | 3.17.2 |
| psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
| pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
| pybind11 | 2.9.1 | pycparser | 2,20 | pydantic | 1.8.2 |
| Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
| PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
| pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 |
| Python-dateutil | 2.8.1 | editor de Python | 1.0.4 | python-engineio | 4.3.0 |
| python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
| PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
| Solicitudes | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
| RSA | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
| scikit-learn | 0.24.1 | scipy | 1.6.2 | biblioteca de visualización de datos de Python llamada seaborn | 0.11.1 |
| Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
| Shap | 0.40.0 | simplejson | 3.17.2 | Seis | 1.15.0 |
| rebanador | 0.0.7 | smart-open | 5.2.0 | smmap | 3.0.5 |
| spaCy | 3.2.1 | spacy-legacy | 3.0.8 | espacy-loggers | 1.0.1 |
| spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | En serio | 2.4.1 |
| ssh-import-id | 5.10 | statsmodels (paquete de Python para análisis estadístico) | 0.12.2 | tabular | 0.8.7 |
| enredado-up-in-unicode | 0.1.0 | tenacidad | 6.2.0 | Tablero tensorizado | 2.8.0 |
| servidor-de-datos-de-tensorboard | 0.6.1 | tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 |
| tensorflow-cpu | 2.8.0 | Estimador de TensorFlow | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 |
| termcolor | 1.1.0 | terminado | 0.9.4 | ruta de prueba | 0.4.4 |
| tf-estimator-nightly | 2.8.0.dev2021122109 | thinc | 8.0.12 | threadpoolctl | 2.1.0 |
| tokenizadores | 0.10.3 | antorcha | 1.10.2+cpu | antorcha | 0.11.3+cpu |
| tornado | 6.1 | tqdm | 4.59.0 | traitlets | 5.0.5 |
| transformadores | 4.16.2 | Typer | 0.3.2 | extensiones de escritura | 3.7.4.3 |
| ujson | 4.0.2 | actualizaciones desatendidas | 0,1 | urllib3 | 1.25.11 |
| virtualenv | 20.4.1 | Visiones | 0.7.4 | wasabi | 0.8.2 |
| wcwidth | 0.2.5 | codificaciones web | 0.5.1 | cliente de websocket | 0.57.0 |
| Werkzeug | 1.0.1 | rueda | 0.36.2 | widgetsnbextension | 3.5.1 |
| envuelto | 1.12.1 | xgboost | 1.5.2 | zipp | 3.4.1 |
bibliotecas de Python en clústeres de GPU
| Biblioteca | Versión | Biblioteca | Versión | Biblioteca | Versión |
|---|---|---|---|---|---|
| absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | directorios de aplicaciones | 1.4.4 |
| argon2-cffi | 20.1.0 | Astor | 0.8.1 | astunparse | 1.6.3 |
| generador asíncrono | 1.10 | atributos | 20.3.0 | llamada de retorno | 0.2.0 |
| bcrypt | 3.2.0 | diccionario bidireccional | 0.21.4 | blanquear | 3.3.0 |
| felicidad | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
| cachetools | 4.2.4 | catálogo | 2.0.6 | certifi | 2020.12.5 |
| cffi | 1.14.5 | chardet | 4.0.0 | Haz clic | 7.1.2 |
| cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
| convertdate | 2.3.2 | criptografía | 3.4.7 | ciclista | 0.10.0 |
| cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
| databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
| decorador | 5.0.6 | defusedxml | 0.7.1 | eneldo | 0.3.2 |
| diskcache | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
| puntos de entrada | 0,3 | eméhem | 4.1.3 | visión general de las facetas | 1.0.0 |
| fasttext | 0.9.2 | bloqueo de archivo | 3.0.12 | Matraz | 1.1.2 |
| flatbuffers | 2.0 | fsspec | 0.9.0 | futuro | 0.18.2 |
| Gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
| Google Autenticación | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
| grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
| h5py | 3.1.0 | hijri-converter | 2.2.3 | vacaciones | 0,12 |
| Horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
| idna | 2.10 | Hash de imagen | 4.2.1 | aprendizaje con datos desequilibrados | 0.8.1 |
| importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
| ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
| Es peligroso | 1.1.0 | Jedi | 0.17.2 | Jinja2 | 2.11.3 |
| jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
| jsonschema | 3.2.0 | Cliente Jupyter | 6.1.12 | jupyter-core | 4.7.1 |
| jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
| Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | Koalas | 1.8.2 |
| calendario lunar coreano | 0.2.1 | códigos de idioma | 3.3.0 | libclang | 13.0.0 |
| lightgbm | 3.3.2 | llvmlite | 0.38.0 | Calendario Lunar | 0.0.9 |
| Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
| matplotlib | 3.4.2 | missingno | 0.5.1 | Mal sintonizado | 0.8.4 |
| mleap | 0.18.1 | mlflow-skinny | 1.24.0 | multimétodo | 1.7 |
| murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
| nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2,5 |
| NLTK | 3.6.1 | cuaderno | 6.3.0 | numba | 0.55.1 |
| numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
| empaquetado | 21,3 | Pandas | 1.2.4 | generación de perfiles de pandas | 3.1.0 |
| PandocFiltros | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
| patía | 0.6.0 | chivo expiatorio | 0.5.1 | petastorm | 0.11.4 |
| pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
| Almohada | 8.2.0 | pepita | 21.0.1 | trazado | 5.5.0 |
| pmdarima | 1.8.4 | preshed | 3.0.5 | prompt-toolkit | 3.0.17 |
| profeta | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
| psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
| pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.9.1 |
| pycparser | 2,20 | pydantic | 1.8.2 | Pygments | 2.8.1 |
| PyGObject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.4.0 |
| pyodbc | 4.0.30 | pyparsing | 2.4.7 | pyrsistent | 0.17.3 |
| pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 | Python-dateutil | 2.8.1 |
| editor de Python | 1.0.4 | python-engineio | 4.3.0 | python-socketio | 5.4.1 |
| pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
| pyzmq | 20.0.0 | regex | 2021.4.4 | Solicitudes | 2.25.1 |
| requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | RSA | 4.7.2 |
| s3transfer | 0.3.7 | sacremoses | 0.0.46 | scikit-learn | 0.24.1 |
| scipy | 1.6.2 | biblioteca de visualización de datos de Python llamada seaborn | 0.11.1 | Send2Trash | 1.5.0 |
| setuptools | 52.0.0 | setuptools-git | 1.2 | Shap | 0.40.0 |
| simplejson | 3.17.2 | Seis | 1.15.0 | rebanador | 0.0.7 |
| smart-open | 5.2.0 | smmap | 3.0.5 | spaCy | 3.2.1 |
| spacy-legacy | 3.0.8 | espacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 |
| sqlparse | 0.4.1 | En serio | 2.4.1 | ssh-import-id | 5.10 |
| statsmodels (paquete de Python para análisis estadístico) | 0.12.2 | tabular | 0.8.7 | enredado-up-in-unicode | 0.1.0 |
| tenacidad | 6.2.0 | Tablero tensorizado | 2.8.0 | servidor-de-datos-de-tensorboard | 0.6.1 |
| tensorboard-plugin-profile | 2.5.0 | tensorboard-plugin-wit | 1.8.1 | tensorflow | 2.8.0 |
| Estimador de TensorFlow | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 | termcolor | 1.1.0 |
| terminado | 0.9.4 | ruta de prueba | 0.4.4 | tf-estimator-nightly | 2.8.0.dev2021122109 |
| thinc | 8.0.12 | threadpoolctl | 2.1.0 | tokenizadores | 0.10.3 |
| antorcha | 1.10.2+cu111 | antorcha | 0.11.3+cu111 | tornado | 6.1 |
| tqdm | 4.59.0 | traitlets | 5.0.5 | transformadores | 4.16.2 |
| Typer | 0.3.2 | extensiones de escritura | 3.7.4.3 | ujson | 4.0.2 |
| actualizaciones desatendidas | 0,1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
| Visiones | 0.7.4 | wasabi | 0.8.2 | wcwidth | 0.2.5 |
| codificaciones web | 0.5.1 | cliente de websocket | 0.57.0 | Werkzeug | 1.0.1 |
| rueda | 0.36.2 | widgetsnbextension | 3.5.1 | envuelto | 1.12.1 |
| xgboost | 1.5.2 | zipp | 3.4.1 |
Paquetes de Spark que contienen módulos de Python
| Paquete de Spark | Módulo Python | Versión |
|---|---|---|
| graphframes | graphframes | 0.8.2-db1-spark3.2 |
Bibliotecas de R
Las bibliotecas de R son idénticas a las bibliotecas de R de Databricks Runtime 10.4 LTS.
bibliotecas de Java y Scala (clúster de Scala 2.12)
Además de Java y las bibliotecas de Scala en Databricks Runtime 10.4 LTS, Databricks Runtime 10.4 LTS ML contiene los siguientes JAR:
Clústeres de CPU
| Identificador de grupo | Identificador de artefacto | Versión |
|---|---|---|
| com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
| ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
| ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
| ml.dmlc | xgboost4j_2.12 | 1.5.2 |
| org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
| org.mlflow | mlflow-client | 1.24.0 |
| org.mlflow | mlflow-spark | 1.24.0 |
| org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
| org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
Clústeres de GPU
| Identificador de grupo | Identificador de artefacto | Versión |
|---|---|---|
| com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
| ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
| ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
| ml.dmlc | xgboost4j_2.12 | 1.5.2 |
| org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
| org.mlflow | mlflow-client | 1.24.0 |
| org.mlflow | mlflow-spark | 1.24.0 |
| org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
| org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |