Databricks Runtime 13.0 para Machine Learning (EoS)

Nota:

La compatibilidad con esta versión de Databricks Runtime ha finalizado. Para obtener la fecha de finalización del soporte técnico, consulte Historial de fin de soporte técnico y finalización del ciclo de vida. Para conocer todas las versiones de Databricks Runtime compatibles, consulte las notas de lanzamientos y compatibilidad de Databricks Runtime.

Databricks Runtime 13.0 para aprendizaje automático proporciona un entorno listo para usar para aprendizaje automático y Ciencia de Datos basado en Databricks Runtime 13.0 (EoS). Databricks Runtime ML contiene muchas bibliotecas de aprendizaje automático populares, como TensorFlow, PyTorch y XGBoost. Databricks Runtime ML incluye AutoML, una herramienta para entrenar automáticamente canalizaciones de aprendizaje automático. Databricks Runtime ML también admite el entrenamiento de aprendizaje profundo distribuido mediante Horovod.

Para más información, incluidas las instrucciones para crear un clúster de Databricks Runtime ML, consulte IA y aprendizaje automático en Databricks.

Nuevas características y mejoras

Databricks Runtime 13.0 ML se basa en Databricks Runtime 13.0. Para obtener información sobre las novedades de Databricks Runtime 13.0, incluidos Apache Spark MLlib y SparkR, consulte las notas de la versión de Databricks Runtime 13.0 (EoS).

Cambios en AutoML

En Databricks Runtime 13.0 ML y versiones posteriores, AutoML no se admite para áreas de trabajo con cumplimiento de FedRAMP .

Para obtener más información sobre AutoML, consulte ¿Qué es AutoML?.

Mejoras en el Feature Store de Databricks

En las áreas de trabajo habilitadas para el catálogo de Unity en un clúster que ejecuta Databricks Runtime 13.0 ML o superior, puede publicar tablas de características de área de trabajo y catálogo de Unity en almacenes en línea de Cosmos DB.

Para obtener más información sobre El almacén de características de Databricks, consulte Almacén de características de Databricks.

Entorno del sistema

El entorno del sistema de Databricks Runtime 13.0 ML se diferencia del de Databricks Runtime 13.0 en los siguientes aspectos:

Databricks Runtime 13.0 ML incluye XGBoost 1.7.2, que no admite clústeres de GPU con capacidad de proceso 5.2 ni versiones anteriores.

El paquete miniconda se ha quitado de Databricks Runtime 13.0 ML.

Bibliotecas

En las siguientes secciones, se enumeran las bibliotecas que se incluyen en Databricks Runtime 13.0 ML, que difieren de las que se incluyen en Databricks Runtime 13.0.

En esta sección:

Bibliotecas de nivel superior

Databricks Runtime 13.0 ML incluye las siguientes bibliotecas de nivel superior:

bibliotecas de Python

Databricks Runtime 13.0 ML usa Virtualenv para Python administración de paquetes e incluye muchos paquetes populares de ML.

Las siguientes bibliotecas de Python se han introducido con Databricks Runtime 13.0 ML:

  • acelerar
  • Conjuntos de datos
  • evaluar
  • ydata-profiling

Además de los paquetes especificados en las siguientes secciones, Databricks Runtime 13.0 ML también incluye estos paquetes:

  • hyperopt 0.2.7+db3
  • sparkdl 3.0.0_db1
  • automl 1.17.0

Para reproducir el entorno de ML de Databricks Runtime Python en su entorno virtual de Python local, descargue el archivo requirements-13.0.txt y ejecute pip install -r requirements-13.0.txt. Este comando instala todas las bibliotecas de open source que usa Databricks Runtime ML, pero no instala bibliotecas desarrolladas por Databricks, como databricks-automl, databricks-feature-store o la bifurcación de Databricks de hyperopt.

bibliotecas de Python en clústeres de CPU

Biblioteca Versión Biblioteca Versión Biblioteca Versión
absl-py 1.0.0 acelerar 0.16.0 aiohttp 3.8.4
aiosignal 1.3.1 directorios de aplicaciones 1.4.4 argon2-cffi 21.3.0
argon2-cffi-bindings 21.2.0 astor 0.8.1 "asttokens" 2.2.1
astunparse 1.6.3 async-timeout 4.0.2 atributos 21.4.0
azure-core 1.26.3 azure-cosmos 4.3.1b1 llamada de retorno 0.2.0
bcrypt 3.2.0 beautifulsoup4 4.11.1 negro 22.6.0
blanquear 4.1.0 intermitente 1.4 felicidad 0.7.9
boto3 1.24.28 botocore 1.27.28 cachetools 4.2.4
catálogo 2.0.8 codificadores de categorías 2.6.0 certifi 2022.9.14
cffi 1.15.1 chardet 4.0.0 normalizador de conjuntos de caracteres 2.0.4
Haz clic 8.0.4 cloudpickle 2.0.0 cmdstanpy 1.1.0
confitería 0.0.4 configparser 5.2.0 convertirFecha 2.4.0
criptografía 37.0.1 ciclista 0.11.0 cymem 2.0.7
Cython 0.29.32 databricks-automl-runtime 0.2.16 databricks-cli 0.17.4
databricks-feature-store 0.11.0 Conjuntos de datos 2.10.0 dbl-tempo 0.1.12
dbus-python 1.2.18 debugpy 1.5.1 decorador (en contexto técnico, "decorator" es un patrón de diseño) 5.1.1
defusedxml 0.7.1 dill 0.3.4 diskcache 5.4.0
distlib 0.3.6 Conversión de docstring a markdown 0.11 puntos de entrada 0,4
ephem 4.1.4 evaluar 0.4.0 executing 1.2.0
visión general de las facetas 1.0.2 fastjsonschema 2.16.3 fasttext 0.9.2
bloqueo de archivos 3.6.0 Flask 1.1.2 flatbuffers 23.3.3
fonttools 4.25.0 frozenlist 1.3.3 fsspec 2022.7.1
futuro 0.18.2 gast 0.4.0 gitdb 4.0.10
GitPython 3.1.27 google-auth 1.33.0 google-auth-oauthlib 0.4.6
google-pasta 0.2.0 googleapis-common-protos 1.56.4 grpcio 1.48.1
grpcio-status 1.48.1 gunicorn 20.1.0 gviz-api 1.10.0
h5py 3.7.0 hijri-converter 2.2.4 vacaciones 0,19
Horovod 0.27.0 htmlmin 0.1.12 httplib2 0.20.2
plataforma Huggingface-hub 0.13.2 idna 3.3 Hash de imagen 4.3.1
imbalanced-learn 0.8.1 importlib-metadata 4.11.3 ipykernel 6.17.1
ipython 8.10.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate 0.6.1 Es peligroso 2.0.1 Jedi 0.18.1
jeepney (vehículo de transporte público típico de Filipinas) 0.7.1 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.2.0 joblibspark 0.5.1 jsonschema 4.16.0
Cliente Jupyter 7.3.4 jupyter_core 4.11.2 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.11.0 llavero 23.5.0
kiwisolver 1.4.2 calendario lunar coreano 0.3.1 códigos de idioma 3.3.0
launchpadlib 1.10.16 lazr.restfulclient 0.14.4 lazr.uri 1.0.6
libclang 15.0.6.1 lightgbm 3.3.5 llvmlite 0.38.0
Calendario Lunar 0.0.9 Mako 1.2.0 Markdown 3.3.4
MarkupSafe 2.0.1 matplotlib 3.5.2 matplotlib-inline 0.1.6
Mccabe 0.7.0 mistune 0.8.4 mleap 0.20.0
mlflow-skinny 2.2.1 more-itertools 8.10.0 Multidic 6.0.4
multimétodo 1.9.1 multiprocess 0.70.12.2 murmurhash 1.0.9
mypy-extensions 0.4.3 nbclient 0.5.13 nbconvert 6.4.4
nbformat 5.5.0 nest-asyncio 1.5.5 networkx 2.8.4
NLTK 3.7 nodeenv 1.7.0 notebook 6.4.12
numba 0.55.1 numpy 1.21.5 oauthlib 3.2.0
opt-einsum 3.3.0 embalaje 21,3 Pandas 1.4.4
generación de perfiles de pandas 3.6.6 pandocfilters 1.5.0 paramiko 2.9.2
parso 0.8.3 especificación de ruta (pathspec) 0.9.0 patía 0.10.1
chivo expiatorio 0.5.2 petastorm 0.12.1 pexpect 4.8.0
phik 0.12.3 pickleshare 0.7.5 Almohada 9.2.0
pip 22.2.2 platformdirs 2.5.2 plotly 5.9.0
pluggy 1.0.0 pmdarima 2.0.2 preshed 3.0.8
Cliente-Prometeo 0.14.1 prompt-toolkit 3.0.36 profeta 1.1.2
protobuf 3.19.4 psutil 5.9.0 psycopg2 2.9.3
ptyprocess 0.7.0 pure-eval 0.2.2 pyarrow 7.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.10.3
pycparser 2.21 pydantic (una biblioteca de validación de datos en Python) 1.10.6 pyflakes 3.0.1
Pygments 2.11.2 PyGObject 3.42.1 PyJWT 2.3.0
PyMeeus 0.5.12 PyNaCl 1.5.0 pyodbc 4.0.32
pyparsing 3.0.9 pyright 1.1.294 pyrsistent 0.18.0
Python-dateutil 2.8.2 editor de Python 1.0.4 python-lsp-jsonrpc 1.0.0
python-lsp-servidor 1.7.1 configuración de herramienta Python 1.2.2 pytz 2022.1
PyWavelets 1.3.0 PyYAML 6,0 pyzmq 23.2.0
regex 2022.7.9 solicitudes 2.28.1 requests-oauthlib 1.3.1
respuestas 0.18.0 cuerda 1.7.0 rsa 4,9
s3transfer 0.6.0 scikit-learn 1.1.1 scipy 1.9.1
biblioteca de visualización de datos de Python llamada seaborn 0.11.2 SecretStorage 3.3.1 Send2Trash 1.8.0
setuptools 63.4.1 shap 0.41.0 simplejson 3.17.6
seis 1.16.0 rebanador 0.0.7 smart-open 5.2.1
smmap 5.0.0 soupsieve 2.3.1 spacy 3.5.0
spacy-legacy 3.0.12 espacy-loggers 1.0.4 spark-tensorflow-distributor (distribuidor de TensorFlow para Spark) 1.0.0
sqlparse 0.4.2 srsly 2.4.6 ssh-import-id 5.11
stack-data 0.6.2 statsmodels (paquete de Python para análisis estadístico) 0.13.2 tabulate 0.8.10
enredado-up-in-unicode 0.2.0 tenacidad 8.0.1 tensorboard 2.11.0
servidor-de-datos-de-tensorboard 0.6.1 Perfil de plugin de TensorBoard 2.11.1 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.11.0 Estimador de TensorFlow 2.11.0 tensorflow-io-gcs-filesystem 0.31.0
termcolor 2.2.0 terminado 0.13.1 ruta de prueba 0.6.0
thinc 8.1.9 threadpoolctl 2.2.0 tokenize-rt 4.2.1
tokenizers 0.13.2 tomli 2.0.1 antorcha 1.13.1+cpu
antorcha 0.14.1+cpu tornado 6.1 tqdm 4.64.1
traitlets 5.1.1 Transformadores 4.26.1 typeguard 2.13.3
typer 0.7.0 typing_extensions 4.3.0 ujson 5.4.0
unattended-upgrades 0,1 urllib3 1.26.11 virtualenv 20.16.3
Visiones 0.7.5 wadllib 1.3.6 wasabi 1.1.1
wcwidth 0.2.5 codificaciones web 0.5.1 cliente de websocket 0.58.0
Werkzeug 2.0.3 ¿Qué es el parche? 1.0.2 rueda 0.37.1
widgetsnbextension 3.6.1 envuelto 1.14.1 xgboost 1.7.4
xxhash 3.2.0 yapf 0.31.0 yarl 1.8.2
ydata-profiling 4.1.0 zipp 3.8.0

bibliotecas de Python en clústeres de GPU

Biblioteca Versión Biblioteca Versión Biblioteca Versión
absl-py 1.0.0 acelerar 0.16.0 aiohttp 3.8.4
aiosignal 1.3.1 directorios de aplicaciones 1.4.4 argon2-cffi 21.3.0
argon2-cffi-bindings 21.2.0 astor 0.8.1 "asttokens" 2.2.1
astunparse 1.6.3 async-timeout 4.0.2 atributos 21.4.0
azure-core 1.26.3 azure-cosmos 4.3.1b1 llamada de retorno 0.2.0
bcrypt 3.2.0 beautifulsoup4 4.11.1 negro 22.6.0
blanquear 4.1.0 intermitente 1.4 felicidad 0.7.9
boto3 1.24.28 botocore 1.27.28 cachetools 4.2.4
catálogo 2.0.8 codificadores de categorías 2.6.0 certifi 2022.9.14
cffi 1.15.1 chardet 4.0.0 normalizador de conjuntos de caracteres 2.0.4
Haz clic 8.0.4 cloudpickle 2.0.0 cmdstanpy 1.1.0
confitería 0.0.4 configparser 5.2.0 convertirFecha 2.4.0
criptografía 37.0.1 ciclista 0.11.0 cymem 2.0.7
Cython 0.29.32 databricks-automl-runtime 0.2.16 databricks-cli 0.17.4
databricks-feature-store 0.11.0 Conjuntos de datos 2.10.0 dbl-tempo 0.1.12
dbus-python 1.2.18 debugpy 1.5.1 decorador (en contexto técnico, "decorator" es un patrón de diseño) 5.1.1
defusedxml 0.7.1 dill 0.3.4 diskcache 5.4.0
distlib 0.3.6 Conversión de docstring a markdown 0.11 puntos de entrada 0,4
ephem 4.1.4 evaluar 0.4.0 executing 1.2.0
visión general de las facetas 1.0.2 fastjsonschema 2.16.3 fasttext 0.9.2
bloqueo de archivos 3.6.0 Flask 1.1.2 flatbuffers 23.3.3
fonttools 4.25.0 frozenlist 1.3.3 fsspec 2022.7.1
futuro 0.18.2 gast 0.4.0 gitdb 4.0.10
GitPython 3.1.27 google-auth 1.33.0 google-auth-oauthlib 0.4.6
google-pasta 0.2.0 googleapis-common-protos 1.56.4 grpcio 1.48.1
grpcio-status 1.48.1 gunicorn 20.1.0 gviz-api 1.10.0
h5py 3.7.0 hijri-converter 2.2.4 vacaciones 0,19
Horovod 0.27.0 htmlmin 0.1.12 httplib2 0.20.2
plataforma Huggingface-hub 0.13.1 idna 3.3 Hash de imagen 4.3.1
imbalanced-learn 0.8.1 importlib-metadata 4.11.3 ipykernel 6.17.1
ipython 8.10.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate 0.6.1 Es peligroso 2.0.1 Jedi 0.18.1
jeepney (vehículo de transporte público típico de Filipinas) 0.7.1 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.2.0 joblibspark 0.5.1 jsonschema 4.16.0
Cliente Jupyter 7.3.4 jupyter_core 4.11.2 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.11.0 llavero 23.5.0
kiwisolver 1.4.2 calendario lunar coreano 0.3.1 códigos de idioma 3.3.0
launchpadlib 1.10.16 lazr.restfulclient 0.14.4 lazr.uri 1.0.6
libclang 15.0.6.1 lightgbm 3.3.5 llvmlite 0.38.0
Calendario Lunar 0.0.9 Mako 1.2.0 Markdown 3.3.4
MarkupSafe 2.0.1 matplotlib 3.5.2 matplotlib-inline 0.1.6
Mccabe 0.7.0 mistune 0.8.4 mleap 0.20.0
mlflow-skinny 2.2.1 more-itertools 8.10.0 Multidic 6.0.4
multimétodo 1.9.1 multiprocess 0.70.12.2 murmurhash 1.0.9
mypy-extensions 0.4.3 nbclient 0.5.13 nbconvert 6.4.4
nbformat 5.5.0 nest-asyncio 1.5.5 networkx 2.8.4
NLTK 3.7 nodeenv 1.7.0 notebook 6.4.12
numba 0.55.1 numpy 1.21.5 oauthlib 3.2.0
opt-einsum 3.3.0 embalaje 21,3 Pandas 1.4.4
generación de perfiles de pandas 3.6.6 pandocfilters 1.5.0 paramiko 2.9.2
parso 0.8.3 especificación de ruta (pathspec) 0.9.0 patía 0.10.1
chivo expiatorio 0.5.2 petastorm 0.12.1 pexpect 4.8.0
phik 0.12.3 pickleshare 0.7.5 Almohada 9.2.0
pip 22.2.2 platformdirs 2.5.2 plotly 5.9.0
pluggy 1.0.0 pmdarima 2.0.2 preshed 3.0.8
prompt-toolkit 3.0.36 profeta 1.1.2 protobuf 3.19.4
psutil 5.9.0 psycopg2 2.9.3 ptyprocess 0.7.0
pure-eval 0.2.2 pyarrow 7.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.10.3 pycparser 2.21
pydantic (una biblioteca de validación de datos en Python) 1.10.6 pyflakes 3.0.1 Pygments 2.11.2
PyGObject 3.42.1 PyJWT 2.3.0 PyMeeus 0.5.12
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing 3.0.9
pyright 1.1.294 pyrsistent 0.18.0 Python-dateutil 2.8.2
editor de Python 1.0.4 python-lsp-jsonrpc 1.0.0 python-lsp-servidor 1.7.1
configuración de herramienta Python 1.2.2 pytz 2022.1 PyWavelets 1.3.0
PyYAML 6,0 pyzmq 23.2.0 regex 2022.7.9
solicitudes 2.28.1 requests-oauthlib 1.3.1 respuestas 0.18.0
cuerda 1.7.0 rsa 4,9 s3transfer 0.6.0
scikit-learn 1.1.1 scipy 1.9.1 biblioteca de visualización de datos de Python llamada seaborn 0.11.2
SecretStorage 3.3.1 Send2Trash 1.8.0 setuptools 63.4.1
shap 0.41.0 simplejson 3.17.6 seis 1.16.0
rebanador 0.0.7 smart-open 5.2.1 smmap 5.0.0
soupsieve 2.3.1 spacy 3.5.0 spacy-legacy 3.0.12
espacy-loggers 1.0.4 spark-tensorflow-distributor (distribuidor de TensorFlow para Spark) 1.0.0 sqlparse 0.4.2
srsly 2.4.6 ssh-import-id 5.11 stack-data 0.6.2
statsmodels (paquete de Python para análisis estadístico) 0.13.2 tabulate 0.8.10 enredado-up-in-unicode 0.2.0
tenacidad 8.0.1 tensorboard 2.11.0 servidor-de-datos-de-tensorboard 0.6.1
Perfil de plugin de TensorBoard 2.11.1 tensorboard-plugin-wit 1.8.1 TensorFlow 2.11.0
Estimador de TensorFlow 2.11.0 tensorflow-io-gcs-filesystem 0.31.0 termcolor 2.2.0
terminado 0.13.1 ruta de prueba 0.6.0 thinc 8.1.9
threadpoolctl 2.2.0 tokenize-rt 4.2.1 tokenizers 0.13.2
tomli 2.0.1 antorcha 1.13.1+cu117 antorcha 0.14.1+cu117
tornado 6.1 tqdm 4.64.1 traitlets 5.1.1
Transformadores 4.26.1 typeguard 2.13.3 typer 0.7.0
typing_extensions 4.3.0 ujson 5.4.0 unattended-upgrades 0,1
urllib3 1.26.11 virtualenv 20.16.3 Visiones 0.7.5
wadllib 1.3.6 wasabi 1.1.1 wcwidth 0.2.5
codificaciones web 0.5.1 cliente de websocket 0.58.0 Werkzeug 2.0.3
¿Qué es el parche? 1.0.2 rueda 0.37.1 widgetsnbextension 3.6.1
envuelto 1.14.1 xgboost 1.7.4 xxhash 3.2.0
yapf 0.31.0 yarl 1.8.2 ydata-profiling 4.1.0
zipp 3.8.0

Bibliotecas de R

Las bibliotecas de R son idénticas a las bibliotecas de R de Databricks Runtime 13.0.

bibliotecas de Java y Scala (clúster de Scala 2.12)

Además de Java y las bibliotecas de Scala en Databricks Runtime 13.0, Databricks Runtime 13.0 ML contiene los siguientes JAR:

Clústeres de CPU

Identificador de grupo Id. de artefacto Versión
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db2
ml.dmlc xgboost4j-spark_2.12 1.7.3
ml.dmlc xgboost4j_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 2.2.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

Clústeres de GPU

Identificador de grupo Id. de artefacto Versión
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db2
ml.dmlc xgboost4j-gpu_2.12 1.7.3
ml.dmlc xgboost4j-spark-gpu_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 2.2.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0