Databricks Runtime 10.5 para Machine Learning (EoS)

Nota:

La compatibilidad con esta versión de Databricks Runtime ha finalizado. Para obtener la fecha de finalización del soporte técnico, consulte Historial de fin de soporte técnico y finalización del ciclo de vida. Para conocer todas las versiones de Databricks Runtime compatibles, consulte las notas de lanzamientos y compatibilidad de Databricks Runtime.

Databricks Runtime 10.5 para Machine Learning proporciona un entorno listo para usar para aprendizaje automático y ciencia de datos basado en Databricks Runtime 10.5 (EoS). Databricks Runtime ML contiene muchas bibliotecas de aprendizaje automático populares, como TensorFlow, PyTorch y XGBoost. Databricks Runtime ML incluye AutoML, una herramienta para entrenar automáticamente canalizaciones de aprendizaje automático. Databricks Runtime ML también admite el entrenamiento de aprendizaje profundo distribuido mediante Horovod.

Para más información, incluidas las instrucciones para crear un clúster de Databricks Runtime ML, consulte IA y aprendizaje automático en Databricks.

Nuevas características y mejoras

Databricks Runtime 10.5 ML se basa en Databricks Runtime 10.5. Para obtener información sobre las novedades de Databricks Runtime 10.5, incluidos Apache Spark MLlib y SparkR, consulte las notas de la versión de Databricks Runtime 10.5 (EoS).

Mejoras en AutoML

Se han realizado las siguientes mejoras en AutoML.

  • El uso mejorado de memoria permite que AutoML entrene en conjuntos de datos mayores.
  • Con la previsión de AutoML, ahora puede exportar las predicciones del mejor modelo a una tabla mediante la API. Si se proporciona output_database, AutoML guarda las predicciones del mejor modelo en una nueva tabla de la base de datos especificada. Si output_database no se especifica, las predicciones no se guardan.

Mejoras en el Feature Store de Databricks

Se han realizado las siguientes mejoras en el Almacén de características de Databricks.

  • Ahora puede eliminar una tabla de características existente con drop_table API. Esta acción también anula la tabla Delta subyacente.
  • Ahora puede usar la API Python para agregar una etiqueta a una tabla de características al crearla o registrarla y agregar, actualizar, eliminar o leer etiquetas en tablas de características existentes.

Entorno del sistema

El entorno del sistema de Databricks Runtime 10.5 ML se diferencia del de Databricks Runtime 10.5 en lo siguiente:

Bibliotecas

En las secciones siguientes se enumeran las bibliotecas incluidas en Databricks Runtime 10.5 ML, que difieren de las incluidas en Databricks Runtime 10.5.

En esta sección:

Bibliotecas de nivel superior

Databricks Runtime 10.5 ML incluye las siguientes bibliotecas de nivel superior:

bibliotecas de Python

Databricks Runtime 10.5 ML usa Virtualenv para Python administración de paquetes e incluye muchos paquetes populares de ML.

Además de los paquetes especificados en las secciones siguientes, Databricks Runtime 10.5 ML también incluye los siguientes:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0-db6
  • feature_store 0.4.1
  • automl 1.8.0

bibliotecas de Python en clústeres de CPU

Biblioteca Versión Biblioteca Versión Biblioteca Versión
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) directorios de aplicaciones 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
generador asíncrono 1.10 atributos 20.3.0 llamada de retorno 0.2.0
bcrypt 3.2.0 diccionario bidireccional 0.21.4 blanquear 3.3.0
felicidad 0.7.7 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 catálogo 2.0.7 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 Haz clic 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertirFecha 2.4.0 criptografía 3.4.7 ciclista 0.10.0
cymem 2.0.6 Cython 0.29.23 databricks-automl-runtime 0.2.7
databricks-cli 0.16.4 dbl-tempo 0.1.2 dbus-python 1.2.16
decorador (en contexto técnico, "decorator" es un patrón de diseño) 5.0.6 defusedxml 0.7.1 dill 0.3.2
diskcache 5.4.0 distlib 0.3.4 distro-info 0.23ubuntu1
puntos de entrada 0,3 ephem 4.1.3 visión general de las facetas 1.0.0
fasttext 0.9.2 bloqueo de archivos 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 futuro 0.18.2
gast 0.4.0 gitdb 4.0.9 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.3 vacaciones 0,13
Horovod 0.23.0 htmlmin 0.1.12 plataforma Huggingface-hub 0.5.1
idna 2.10 Hash de imagen 4.2.1 imbalanced-learn 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
Es peligroso 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 Cliente Jupyter 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.8.0
keras-preprocessing 1.1.2 kiwisolver 1.3.1 Koalas 1.8.2
calendario lunar coreano 0.2.1 códigos de idioma 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 Calendario Lunar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.1 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 multimétodo 1.8
murmurhash 1.0.6 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
NLTK 3.6.1 notebook 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
embalaje 21,3 Pandas 1.2.4 generación de perfiles de pandas 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
patía 0.6.1 chivo expiatorio 0.5.1 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.2 pickleshare 0.7.5
Almohada 8.2.0 pip 21.0.1 plotly 5.6.0
pmdarima 1.8.5 preshed 3.0.6 Cliente-Prometeo 0.10.1
prompt-toolkit 3.0.17 profeta 1.0.1 protobuf 3.17.2
psutil 5.8.0 psycopg2 2.8.5 ptyprocess 0.7.0
pyarrow 4.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.9.2 pycparser 2,20 pydantic (una biblioteca de validación de datos en Python) 1.8.2
Pygments 2.8.1 PyGObject 3.36.0 PyMeeus 0.5.11
PyNaCl 1.5.0 pyodbc 4.0.30 pyparsing 2.4.7
pyrsistent 0.17.3 pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7
Python-dateutil 2.8.1 editor de Python 1.0.4 python-engineio 4.3.0
python-socketio 5.4.1 pytz 2020.5 PyWavelets 1.1.1
PyYAML 5.4.1 pyzmq 20.0.0 regex 2021.4.4
solicitudes 2.25.1 requests-oauthlib 1.3.0 requests-unixsocket 0.2.0
rsa 4.8 s3transfer 0.3.7 sacremoses 0.0.49
scikit-learn 0.24.1 scipy 1.6.2 biblioteca de visualización de datos de Python llamada seaborn 0.11.1
Send2Trash 1.5.0 setuptools 52.0.0 setuptools-git 1.2
shap 0.40.0 simplejson 3.17.2 seis 1.15.0
rebanador 0.0.7 smart-open 5.2.1 smmap 3.0.5
spacy 3.2.3 spacy-legacy 3.0.9 espacy-loggers 1.0.2
spark-tensorflow-distributor (distribuidor de TensorFlow para Spark) 1.0.0 sqlparse 0.4.1 srsly 2.4.3
ssh-import-id 5.10 statsmodels (paquete de Python para análisis estadístico) 0.12.2 tabulate 0.8.7
enredado-up-in-unicode 0.1.0 tenacidad 6.2.0 tensorboard 2.8.0
servidor-de-datos-de-tensorboard 0.6.1 Perfil de plugin de TensorBoard 2.5.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.8.0 Estimador de TensorFlow 2.8.0 tensorflow-io-gcs-filesystem 0.24.0
termcolor 1.1.0 terminado 0.9.4 ruta de prueba 0.4.4
tf-estimator-nightly 2.8.0.dev2021122109 thinc 8.0.15 threadpoolctl 2.1.0
tokenizers 0.12.1 antorcha 1.10.2+cpu antorcha 0.11.3+cpu
tornado 6.1 tqdm 4.59.0 traitlets 5.0.5
Transformadores 4.17.0 typer 0.4.1 extensiones de escritura 3.7.4.3
ujson 4.0.2 unattended-upgrades 0,1 urllib3 1.25.11
virtualenv 20.4.1 Visiones 0.7.4 wasabi 0.9.1
wcwidth 0.2.5 codificaciones web 0.5.1 cliente de websocket 0.57.0
Werkzeug 1.0.1 rueda 0.36.2 widgetsnbextension 3.5.1
envuelto 1.12.1 xgboost 1.5.2 zipp 3.4.1

bibliotecas de Python en clústeres de GPU

Biblioteca Versión Biblioteca Versión Biblioteca Versión
absl-py 0.11.0 Antergos Linux 2015.10 (ISO-Rolling) directorios de aplicaciones 1.4.4
argon2-cffi 20.1.0 astor 0.8.1 astunparse 1.6.3
generador asíncrono 1.10 atributos 20.3.0 llamada de retorno 0.2.0
bcrypt 3.2.0 diccionario bidireccional 0.21.4 blanquear 3.3.0
felicidad 0.7.7 boto3 1.16.7 botocore 1.19.7
cachetools 4.2.4 catálogo 2.0.7 certifi 2020.12.5
cffi 1.14.5 chardet 4.0.0 Haz clic 7.1.2
cloudpickle 1.6.0 cmdstanpy 0.9.68 configparser 5.0.1
convertirFecha 2.4.0 criptografía 3.4.7 ciclista 0.10.0
cymem 2.0.6 Cython 0.29.23 databricks-automl-runtime 0.2.7
databricks-cli 0.16.4 dbl-tempo 0.1.2 dbus-python 1.2.16
decorador (en contexto técnico, "decorator" es un patrón de diseño) 5.0.6 defusedxml 0.7.1 dill 0.3.2
diskcache 5.4.0 distlib 0.3.4 distro-info 0.23ubuntu1
puntos de entrada 0,3 ephem 4.1.3 visión general de las facetas 1.0.0
fasttext 0.9.2 bloqueo de archivos 3.0.12 Flask 1.1.2
flatbuffers 2.0 fsspec 0.9.0 futuro 0.18.2
gast 0.4.0 gitdb 4.0.9 GitPython 3.1.12
google-auth 1.22.1 google-auth-oauthlib 0.4.2 google-pasta 0.2.0
grpcio 1.39.0 gunicorn 20.0.4 gviz-api 1.10.0
h5py 3.1.0 hijri-converter 2.2.3 vacaciones 0,13
Horovod 0.23.0 htmlmin 0.1.12 plataforma Huggingface-hub 0.5.1
idna 2.10 Hash de imagen 4.2.1 imbalanced-learn 0.8.1
importlib-metadata 3.10.0 ipykernel 5.3.4 ipython 7.22.0
ipython-genutils 0.2.0 ipywidgets 7.6.3 isodate 0.6.0
Es peligroso 1.1.0 Jedi 0.17.2 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.3.0
jsonschema 3.2.0 Cliente Jupyter 6.1.12 jupyter-core 4.7.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.8.0
keras-preprocessing 1.1.2 kiwisolver 1.3.1 Koalas 1.8.2
calendario lunar coreano 0.2.1 códigos de idioma 3.3.0 libclang 13.0.0
lightgbm 3.3.2 llvmlite 0.38.0 Calendario Lunar 0.0.9
Mako 1.1.3 Markdown 3.3.3 MarkupSafe 2.0.1
matplotlib 3.4.2 missingno 0.5.1 mistune 0.8.4
mleap 0.18.1 mlflow-skinny 1.24.0 multimétodo 1.8
murmurhash 1.0.6 nbclient 0.5.3 nbconvert 6.0.7
nbformat 5.1.3 nest-asyncio 1.5.1 networkx 2,5
NLTK 3.6.1 notebook 6.3.0 numba 0.55.1
numpy 1.20.1 oauthlib 3.1.0 opt-einsum 3.3.0
embalaje 21,3 Pandas 1.2.4 generación de perfiles de pandas 3.1.0
pandocfilters 1.4.3 paramiko 2.7.2 parso 0.7.0
patía 0.6.1 chivo expiatorio 0.5.1 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.2 pickleshare 0.7.5
Almohada 8.2.0 pip 21.0.1 plotly 5.6.0
pmdarima 1.8.5 preshed 3.0.6 prompt-toolkit 3.0.17
profeta 1.0.1 protobuf 3.17.2 psutil 5.8.0
psycopg2 2.8.5 ptyprocess 0.7.0 pyarrow 4.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.9.2
pycparser 2,20 pydantic (una biblioteca de validación de datos en Python) 1.8.2 Pygments 2.8.1
PyGObject 3.36.0 PyMeeus 0.5.11 PyNaCl 1.5.0
pyodbc 4.0.30 pyparsing 2.4.7 pyrsistent 0.17.3
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7 Python-dateutil 2.8.1
editor de Python 1.0.4 python-engineio 4.3.0 python-socketio 5.4.1
pytz 2020.5 PyWavelets 1.1.1 PyYAML 5.4.1
pyzmq 20.0.0 regex 2021.4.4 solicitudes 2.25.1
requests-oauthlib 1.3.0 requests-unixsocket 0.2.0 rsa 4.8
s3transfer 0.3.7 sacremoses 0.0.49 scikit-learn 0.24.1
scipy 1.6.2 biblioteca de visualización de datos de Python llamada seaborn 0.11.1 Send2Trash 1.5.0
setuptools 52.0.0 setuptools-git 1.2 shap 0.40.0
simplejson 3.17.2 seis 1.15.0 rebanador 0.0.7
smart-open 5.2.1 smmap 3.0.5 spacy 3.2.3
spacy-legacy 3.0.9 espacy-loggers 1.0.2 spark-tensorflow-distributor (distribuidor de TensorFlow para Spark) 1.0.0
sqlparse 0.4.1 srsly 2.4.3 ssh-import-id 5.10
statsmodels (paquete de Python para análisis estadístico) 0.12.2 tabulate 0.8.7 enredado-up-in-unicode 0.1.0
tenacidad 6.2.0 tensorboard 2.8.0 servidor-de-datos-de-tensorboard 0.6.1
Perfil de plugin de TensorBoard 2.5.0 tensorboard-plugin-wit 1.8.1 TensorFlow 2.8.0
Estimador de TensorFlow 2.8.0 tensorflow-io-gcs-filesystem 0.24.0 termcolor 1.1.0
terminado 0.9.4 ruta de prueba 0.4.4 tf-estimator-nightly 2.8.0.dev2021122109
thinc 8.0.15 threadpoolctl 2.1.0 tokenizers 0.12.1
antorcha 1.10.2+cu113 antorcha 0.11.3+cu113 tornado 6.1
tqdm 4.59.0 traitlets 5.0.5 Transformadores 4.17.0
typer 0.4.1 extensiones de escritura 3.7.4.3 ujson 4.0.2
unattended-upgrades 0,1 urllib3 1.25.11 virtualenv 20.4.1
Visiones 0.7.4 wasabi 0.9.1 wcwidth 0.2.5
codificaciones web 0.5.1 cliente de websocket 0.57.0 Werkzeug 1.0.1
rueda 0.36.2 widgetsnbextension 3.5.1 envuelto 1.12.1
xgboost 1.5.2 zipp 3.4.1

Paquetes de Spark que contienen módulos de Python

Paquete de Spark Módulo Python Versión
graphframes graphframes 0.8.2-db1-spark3.2

Bibliotecas de R

Las bibliotecas de R son idénticas a las bibliotecas de R de Databricks Runtime 10.5.

bibliotecas de Java y Scala (clúster de Scala 2.12)

Además de las bibliotecas de Java y Scala en Databricks Runtime 10.5, Databricks Runtime 10.5 ML contiene los siguientes JAR:

Clústeres de CPU

Identificador de grupo Id. de artefacto Versión
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Clústeres de GPU

Identificador de grupo Id. de artefacto Versión
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 0.18.1-23eb1ef
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.24.0
org.mlflow mlflow-spark 1.24.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0