Databricks Runtime 13.1 para Aprendizagem de Máquina (EoS)

Observação

O suporte para esta versão do Databricks Runtime terminou. Para a data de fim de suporte, consulte Fim de suporte e histórico de fim de vida útil. Para todas as versões suportadas do Databricks Runtime, consulte Versões e compatibilidade das notas de versão do Databricks Runtime.

O Databricks Runtime 13.1 para Machine Learning fornece um ambiente pronto para machine learning e ciência de dados baseado no Databricks Runtime 13.1 (EoS). O Databricks Runtime ML contém muitas bibliotecas populares de aprendizado de máquina, incluindo TensorFlow, PyTorch e XGBoost. O Databricks Runtime ML inclui o AutoML, uma ferramenta para treinar automaticamente pipelines de aprendizado de máquina. O Databricks Runtime ML também suporta treinamento distribuído de aprendizado profundo usando o Horovod.

Para obter mais informações, incluindo instruções para criar um cluster de ML do Databricks Runtime, consulte IA e aprendizado de máquina no Databricks.

Novos recursos e melhorias

O Databricks Runtime 13.1 ML é construído sobre o Databricks Runtime 13.1. Para obter informações sobre o que há de novo no Databricks Runtime 13.1, incluindo Apache Spark MLlib e SparkR, consulte as notas de versão do Databricks Runtime 13.1 (EoS ).

Alterações no Databricks Feature Store

No Databricks Runtime 13.1 ML e versões superiores, nos repositórios MySQL, publish_table utiliza o tipo LONGTEXT para dados de texto em tabelas de características. Se publicar uma tabela usando o Databricks Runtime 13.1 ML e, em seguida, precisar escrever nela usando o Databricks Runtime 13.0 ou inferior, deverá usar publish_table no modo de substituição ou eliminar e publicar novamente a tabela online.

Ambiente do sistema

O ambiente do sistema no Databricks Runtime 13.1 ML difere do Databricks Runtime 13.1 da seguinte forma:

O Databricks Runtime 13.1 ML inclui o XGBoost 1.7.5, que não suporta clusters de GPU com capacidade de computação 5.2 e inferior.

Bibliotecas

As seções a seguir listam as bibliotecas incluídas no Databricks Runtime 13.1 ML que diferem daquelas incluídas no Databricks Runtime 13.1.

Nesta secção:

Bibliotecas de nível superior

O Databricks Runtime 13.1 ML inclui as seguintes bibliotecas de camada superior:

Bibliotecas Python

O Databricks Runtime 13.1 ML utiliza o Virtualenv para gestão de pacotes em Python e inclui muitos pacotes populares de ML.

As seguintes bibliotecas Python foram introduzidas com o Databricks Runtime 13.1 ML:

  • langchain
  • librosa
  • Pytesseract
  • Peça de frase
  • transformadores de frases
  • arquivo de som
  • tiktoken

Além dos pacotes especificados nas seções a seguir, o Databricks Runtime 13.1 ML também inclui os seguintes pacotes:

  • hiperopt 0.2.7+db3
  • Sparkdl 3.0.0_db1
  • AutoML 1.18.0 |

Para reproduzir o ambiente Databricks Runtime ML Python no seu ambiente virtual Python local, descarregue o ficheiro requirements-13.1.txt e execute pip install -r requirements-13.1.txt. Este comando instala todas as bibliotecas open source que o Databricks Runtime ML utiliza, mas não instala as bibliotecas desenvolvidas pelo Databricks, como databricks-automl, databricks-feature-store, ou o fork Databricks de hyperopt.

Bibliotecas Python em clusters de CPU

Biblioteca Versão Biblioteca Versão Biblioteca Versão
ABSL-PY 1.0.0 acelerar 0.18.0 AIOHTTP 3.8.4
aiosignal 1.3.1 appdirs 1.4.4 argon2-cffi 21.3.0
argon2-cffi-vinculações 21.2.0 Astor 0.8.1 AstTokens 2.2.1
astunparse 1.6.3 limite de tempo assíncrono 4.0.2 Atributos 21.4.0
audioread 3.0.0 azure-core 1.26.4 Azure-Cosmos 4.3.1b1
Azure Storage Blob 12.16.0 Armazenamento de Ficheiros Azure Data Lake 12.11.0 Chamada de retorno 0.2.0
bcrypt 3.2.0 Beautiful Soup 4 4.11.1 preto 22.6.0
lixívia 4.1.0 pisca 1.4 felicidade 0.7.9
boto3 1.24.28 Botocore 1.27.28 Ferramentas de cache 4.2.4
catálogo 2.0.8 codificadores de categorias 2.6.0 certifi 2022.9.14
cffi 1.15.1 Chardet 4.0.0 Normalizador de Charset 2.0.4
clicar 8.0.4 Cloudpickle 2.0.0 cmdstanpy 1.1.0
Confeção 0.0.4 configparser 5.2.0 convertdate 2.4.0
criptografia 37.0.1 ciclista 0.11.0 cymem 2.0.7
Cython 0.29.32 databricks-automl-runtime 0.2.16 databricks-cli 0.17.6
a funcionalidade databricks-feature-store 0.12.0 DataClasses-JSON 0.5.7 conjuntos de dados 2.12.0
dbl-tempo 0.1.23 dbus-python 1.2.18 debugpy 1.5.1
decorador 5.1.1 defusedxml 0.7.1 aneto 0.3.4
cache de disco 5.6.1 Distlib 0.3.6 docstring-para-markdown 0,12
pontos de entrada 0.4 Ephem 4.1.4 avaliar 0.4.0
executar 1.2.0 facetas-visão geral 1.0.3 fastjsonschema 2.16.3
FastText 0.9.2 bloqueio de arquivo 3.6.0 Flask 1.1.2
flatbuffers 23.3.3 Fonttools 4.25.0 Frozenlist 1.3.3
fsspec 2022.7.1 Futuro 0.18.2 gast 0.4.0
GitDB 4.0.10 GitPython 3.1.27 google-api-core 2.8.2
Google-Auth (Autenticação) 1.33.0 google-auth-oauthlib (biblioteca de autenticação OAuth do Google) 0.4.6 Google Cloud Core 2.3.2
google-armazenamento-em-nuvem 2.8.0 Google-CRC32C 1.5.0 Google-Pasta 0.2.0
google-media-reutilizável 2.5.0 googleapis-common-protos 1.56.4 greenlet 1.1.1
Grpcio 1.48.1 grpcio-status 1.48.1 Gunicorn 20.1.0
GVIZ-API 1.10.0 H5PY 3.7.0 Conversor de Hijri 2.3.1
feriados 0.22 Horovod (dança tradicional russa) 0.27.0 htmlmin 0.1.12
httplib2 0.20.2 Hugging Face Hub 0.14.1 IDNA 3.3
ImageHash 4.3.1 aprendizagem não balanceada 0.8.1 importlib-metadata 4.11.3
Ipykernel 6.17.1 IPython 8.10.0 ipython-genutils 0.2.0
ipywidgets 7.7.2 isodate 0.6.1 é perigoso 2.0.1
Jedi 0.18.1 Jeepney 0.7.1 Jinja2 2.11.3
jmespath 0.10.0 Joblib 1.2.0 Joblibspark 0.5.1
jsonschema 4.16.0 Jupyter Client 7.3.4 jupyter_core 4.11.2
Jupyterlab-Pygments 0.1.2 jupyterlab-widgets 1.0.0 Keras 2.11.0
porta-chaves 23.5.0 kiwisolver 1.4.2 calendário lunar coreano 0.3.1
langchain 0.0.152 códigos de idioma 3.3.0 launchpadlib 1.10.16
lazr.restfulclient 0.14.4 lazr.uri 1.0.6 carregador lento (lazy_loader) 0.2
libclang 15.0.6.1 librosa 0.10.0 LightGBM 3.3.5
llvmlite 0.38.0 LunarCalendário 0.0.9 Mako 1.2.0
Markdown 3.3.4 MarkupSafe 2.0.1 Espuma 3.19.0
marshmallow-enum 1.5.1 Matplotlib 3.5.2 matplotlib-inline 0.1.6
Mccabe 0.7.0 Mistune 0.8.4 mleap 0.20.0
mlflow-skinny 2.3.1 more-itertools 8.10.0 msgpack 1.0.5
multidict 6.0.4 multimétodo 1.9.1 multiprocesso 0.70.12.2
Murmurhash 1.0.9 mypy-extensions 0.4.3 nbclient 0.5.13
nbconvert 6.4.4 nbformat 5.5.0 nest-asyncio 1.5.5
networkx 2.8.4 NLTK 3.7 nodeenv 1.7.0
bloco de notas 6.4.12 numba 0.55.1 numexpr 2.8.4
numpy 1.21.5 OAuthlib 3.2.0 OpenAI 0.27.4
openapi-esquema-pydantic 1.2.4 opt-einsum 3.3.0 embalagem 21,3
pandas 1.4.4 PandocFilters 1.5.0 Paramiko 2.9.2
Parso 0.8.3 PathSpec 0.9.0 patia 0.10.1
vítima 0.5.2 petastorm 0.12.1 pexpect 4.8.0
Phik 0.12.3 pickleshare 0.7.5 Almofada 9.2.0
pip 22.2.2 platformdirs 2.5.2 enredo 5.9.0
pluggy 1.0.0 pmdarima 2.0.3 cachorrinho 1.7.0
Preshed 3.0.8 Prometheus-Cliente 0.14.1 kit de ferramentas de prompt 3.0.36
profeta 1.1.2 Protobuf 3.19.4 psutil 5.9.0
psycopg2 2.9.3 ptyprocess 0.7.0 puro-eval 0.2.2
Pyarrow 8.0.0 pyasn1 0.4.8 pyasn1-módulos 0.2.8
pybind11 2.10.4 Pycparser 2.21 Pidântico 1.10.6
Pyflakes 3.0.1 Pigmentos 2.11.2 PyGObject 3.42.1
PyJWT 2.3.0 PyMeeus 0.5.12 PyNaCl 1.5.0
pyodbc 4.0.32 pyparsing 3.0.9 Pyright 1.1.294
pyrsistent 0.18.0 Pytesseract 0.3.10 python-dateutil (uma biblioteca de software para manipulação de datas em Python) 2.8.2
editor de Python 1.0.4 python-lsp-jsonrpc 1.0.0 python-lsp-servidor 1.7.1
pytoolconfig 1.2.2 Pytz 2022.1 PyWavelets 1.3.0
PyYAML 6,0 Pyzmq 23.2.0 regex 2022.7.9
pedidos 2.28.1 requests-oauthlib 1.3.1 Respostas 0.18.0
corda 1.7.0 RSA 4,9 s3transfer 0.6.0
scikit-learn (biblioteca de aprendizado de máquina em Python) 1.1.1 SciPy 1.9.1 nascido no mar 0.11.2
Armazenamento Secreto 3.3.1 Send2Trash 1.8.0 transformadores de frases 2.2.2
Peça de frase 0.1.97 Ferramentas de configuração 63.4.1 forma 0.41.0
simplejson 3.17.6 seis 1.16.0 cortador 0.0.7
smart-open 5.2.1 smmap 5.0.0 arquivo de som 0.12.1
Soupsieve 2.3.1 soxr 0.3.5 espaçoso 3.5.1
Spacy-legado 3.0.12 spacy-loggers 1.0.4 spark-tensorflow-distributor 1.0.0
SQLAlchemy 1.4.39 SQLPARSE 0.4.2 a sério? 2.4.6
ssh-import-id 5.11 dados de pilha 0.6.2 statsmodels (uma biblioteca de Python para modelos estatísticos) 0.13.2
organizar em tabela 0.8.10 enredado em Unicode 0.2.0 tenacidade 8.1.0
TensorBoard 2.11.0 TensorBoard-Servidor de Dados 0.6.1 TensorBoard Plugin Profile 2.11.2
Tensorboard-plugin-wit 1.8.1 TensorFlow CPU 2.11.0 TensorFlow-Estimador 2.11.0
TensorFlow-IO-GCS-FileSystem 0.32.0 Termcolor 2.3.0 concluído 0.13.1
caminho de teste 0.6.0 Thinc 8.1.9 ThreadPoolCtl 2.2.0
tiktoken 0.3.3 tokenize-rt 4.2.1 Tokenizadores 0.13.3
Tomli 2.0.1 tocha 1.13.1+cpu Torchvision 0.14.1+cpu
tornado 6.1 tqdm 4.64.1 traitlets 5.1.1
transformadores 4.28.1 Protetor de Tipografia 2.13.3 mecanógrafo 0.7.0
inspeção de digitação 0.8.0 typing_extensions (extensões de digitação) 4.3.0 Ujson 5.4.0
Atualizações não supervisionadas 0.1 urllib3 1.26.11 virtualenv 20.16.3
visões 0.7.5 wadllib 1.3.6 Wasabi 1.1.1
wcwidth 0.2.5 codificações da web 0.5.1 Websocket-cliente 0.58.0
Werkzeug 2.0.3 whatthepatch (ferramenta para comparação de patches) 1.0.2 wheel 0.37.1
widgetsnbextension 3.6.1 embrulhado 1.14.1 xgboost 1.7.5
xxhash 3.2.0 Yapf 0.31.0 yarl 1.9.2
ydata-profiling 4.1.2 zipp 3.8.0

Bibliotecas Python em clusters de GPU

Biblioteca Versão Biblioteca Versão Biblioteca Versão
ABSL-PY 1.0.0 acelerar 0.18.0 AIOHTTP 3.8.4
aiosignal 1.3.1 appdirs 1.4.4 argon2-cffi 21.3.0
argon2-cffi-vinculações 21.2.0 Astor 0.8.1 AstTokens 2.2.1
astunparse 1.6.3 limite de tempo assíncrono 4.0.2 Atributos 21.4.0
audioread 3.0.0 azure-core 1.26.4 Azure-Cosmos 4.3.1b1
Azure Storage Blob 12.16.0 Armazenamento de Ficheiros Azure Data Lake 12.11.0 Chamada de retorno 0.2.0
bcrypt 3.2.0 Beautiful Soup 4 4.11.1 preto 22.6.0
lixívia 4.1.0 pisca 1.4 felicidade 0.7.9
boto3 1.24.28 Botocore 1.27.28 Ferramentas de cache 4.2.4
catálogo 2.0.8 codificadores de categorias 2.6.0 certifi 2022.9.14
cffi 1.15.1 Chardet 4.0.0 Normalizador de Charset 2.0.4
clicar 8.0.4 Cloudpickle 2.0.0 cmdstanpy 1.1.0
Confeção 0.0.4 configparser 5.2.0 convertdate 2.4.0
criptografia 37.0.1 ciclista 0.11.0 cymem 2.0.7
Cython 0.29.32 databricks-automl-runtime 0.2.16 databricks-cli 0.17.6
a funcionalidade databricks-feature-store 0.12.0 DataClasses-JSON 0.5.7 conjuntos de dados 2.12.0
dbl-tempo 0.1.23 dbus-python 1.2.18 debugpy 1.5.1
decorador 5.1.1 defusedxml 0.7.1 aneto 0.3.4
cache de disco 5.6.1 Distlib 0.3.6 docstring-para-markdown 0,12
pontos de entrada 0.4 Ephem 4.1.4 avaliar 0.4.0
executar 1.2.0 facetas-visão geral 1.0.3 fastjsonschema 2.16.3
FastText 0.9.2 bloqueio de arquivo 3.6.0 Flask 1.1.2
flatbuffers 23.3.3 Fonttools 4.25.0 Frozenlist 1.3.3
fsspec 2022.7.1 Futuro 0.18.2 gast 0.4.0
GitDB 4.0.10 GitPython 3.1.27 google-api-core 2.8.2
Google-Auth (Autenticação) 1.33.0 google-auth-oauthlib (biblioteca de autenticação OAuth do Google) 0.4.6 Google Cloud Core 2.3.2
google-armazenamento-em-nuvem 2.8.0 Google-CRC32C 1.5.0 Google-Pasta 0.2.0
google-media-reutilizável 2.5.0 googleapis-common-protos 1.56.4 greenlet 1.1.1
Grpcio 1.48.1 grpcio-status 1.48.1 Gunicorn 20.1.0
GVIZ-API 1.10.0 H5PY 3.7.0 Conversor de Hijri 2.3.1
feriados 0.22 Horovod (dança tradicional russa) 0.27.0 htmlmin 0.1.12
httplib2 0.20.2 Hugging Face Hub 0.14.1 IDNA 3.3
ImageHash 4.3.1 aprendizagem não balanceada 0.8.1 importlib-metadata 4.11.3
Ipykernel 6.17.1 IPython 8.10.0 ipython-genutils 0.2.0
ipywidgets 7.7.2 isodate 0.6.1 é perigoso 2.0.1
Jedi 0.18.1 Jeepney 0.7.1 Jinja2 2.11.3
jmespath 0.10.0 Joblib 1.2.0 Joblibspark 0.5.1
jsonschema 4.16.0 Jupyter Client 7.3.4 jupyter_core 4.11.2
Jupyterlab-Pygments 0.1.2 jupyterlab-widgets 1.0.0 Keras 2.11.0
porta-chaves 23.5.0 kiwisolver 1.4.2 calendário lunar coreano 0.3.1
langchain 0.0.152 códigos de idioma 3.3.0 launchpadlib 1.10.16
lazr.restfulclient 0.14.4 lazr.uri 1.0.6 carregador lento (lazy_loader) 0.2
libclang 15.0.6.1 librosa 0.10.0 LightGBM 3.3.5
llvmlite 0.38.0 LunarCalendário 0.0.9 Mako 1.2.0
Markdown 3.3.4 MarkupSafe 2.0.1 Espuma 3.19.0
marshmallow-enum 1.5.1 Matplotlib 3.5.2 matplotlib-inline 0.1.6
Mccabe 0.7.0 Mistune 0.8.4 mleap 0.20.0
mlflow-skinny 2.3.1 more-itertools 8.10.0 msgpack 1.0.5
multidict 6.0.4 multimétodo 1.9.1 multiprocesso 0.70.12.2
Murmurhash 1.0.9 mypy-extensions 0.4.3 nbclient 0.5.13
nbconvert 6.4.4 nbformat 5.5.0 nest-asyncio 1.5.5
networkx 2.8.4 NLTK 3.7 nodeenv 1.7.0
bloco de notas 6.4.12 numba 0.55.1 numexpr 2.8.4
numpy 1.21.5 OAuthlib 3.2.0 OpenAI 0.27.4
openapi-esquema-pydantic 1.2.4 opt-einsum 3.3.0 embalagem 21,3
pandas 1.4.4 PandocFilters 1.5.0 Paramiko 2.9.2
Parso 0.8.3 PathSpec 0.9.0 patia 0.10.1
vítima 0.5.2 petastorm 0.12.1 pexpect 4.8.0
Phik 0.12.3 pickleshare 0.7.5 Almofada 9.2.0
pip 22.2.2 platformdirs 2.5.2 enredo 5.9.0
pluggy 1.0.0 pmdarima 2.0.3 cachorrinho 1.7.0
Preshed 3.0.8 kit de ferramentas de prompt 3.0.36 profeta 1.1.2
Protobuf 3.19.4 psutil 5.9.0 psycopg2 2.9.3
ptyprocess 0.7.0 puro-eval 0.2.2 Pyarrow 8.0.0
pyasn1 0.4.8 pyasn1-módulos 0.2.8 pybind11 2.10.4
Pycparser 2.21 Pidântico 1.10.6 Pyflakes 3.0.1
Pigmentos 2.11.2 PyGObject 3.42.1 PyJWT 2.3.0
PyMeeus 0.5.12 PyNaCl 1.5.0 pyodbc 4.0.32
pyparsing 3.0.9 Pyright 1.1.294 pyrsistent 0.18.0
Pytesseract 0.3.10 python-dateutil (uma biblioteca de software para manipulação de datas em Python) 2.8.2 editor de Python 1.0.4
python-lsp-jsonrpc 1.0.0 python-lsp-servidor 1.7.1 pytoolconfig 1.2.2
Pytz 2022.1 PyWavelets 1.3.0 PyYAML 6,0
Pyzmq 23.2.0 regex 2022.7.9 pedidos 2.28.1
requests-oauthlib 1.3.1 Respostas 0.18.0 corda 1.7.0
RSA 4,9 s3transfer 0.6.0 scikit-learn (biblioteca de aprendizado de máquina em Python) 1.1.1
SciPy 1.9.1 nascido no mar 0.11.2 Armazenamento Secreto 3.3.1
Send2Trash 1.8.0 transformadores de frases 2.2.2 Peça de frase 0.1.97
Ferramentas de configuração 63.4.1 forma 0.41.0 simplejson 3.17.6
seis 1.16.0 cortador 0.0.7 smart-open 5.2.1
smmap 5.0.0 arquivo de som 0.12.1 Soupsieve 2.3.1
soxr 0.3.5 espaçoso 3.5.1 Spacy-legado 3.0.12
spacy-loggers 1.0.4 spark-tensorflow-distributor 1.0.0 SQLPARSE 0.4.2
a sério? 2.4.6 ssh-import-id 5.11 dados de pilha 0.6.2
statsmodels (uma biblioteca de Python para modelos estatísticos) 0.13.2 organizar em tabela 0.8.10 enredado em Unicode 0.2.0
tenacidade 8.1.0 TensorBoard 2.11.0 TensorBoard-Servidor de Dados 0.6.1
TensorBoard Plugin Profile 2.11.2 Tensorboard-plugin-wit 1.8.1 TensorFlow 2.11.0
TensorFlow-Estimador 2.11.0 TensorFlow-IO-GCS-FileSystem 0.32.0 Termcolor 2.3.0
concluído 0.13.1 caminho de teste 0.6.0 Thinc 8.1.9
ThreadPoolCtl 2.2.0 tiktoken 0.3.3 tokenize-rt 4.2.1
Tokenizadores 0.13.3 Tomli 2.0.1 tocha 1.13.1+cu117
Torchvision 0.14.1+cu117 tornado 6.1 tqdm 4.64.1
traitlets 5.1.1 transformadores 4.28.1 Protetor de Tipografia 2.13.3
mecanógrafo 0.7.0 inspeção de digitação 0.8.0 typing_extensions (extensões de digitação) 4.3.0
Ujson 5.4.0 Atualizações não supervisionadas 0.1 urllib3 1.26.11
virtualenv 20.16.3 visões 0.7.5 wadllib 1.3.6
Wasabi 1.1.1 wcwidth 0.2.5 codificações da web 0.5.1
Websocket-cliente 0.58.0 Werkzeug 2.0.3 whatthepatch (ferramenta para comparação de patches) 1.0.2
wheel 0.37.1 widgetsnbextension 3.6.1 embrulhado 1.14.1
xgboost 1.7.5 xxhash 3.2.0 Yapf 0.31.0
yarl 1.9.2 ydata-profiling 4.1.2 zipp 3.8.0

Bibliotecas R

As bibliotecas R são idênticas às bibliotecas R no Databricks Runtime 13.1.

Bibliotecas Java e Scala (cluster Scala 2.12)

Para além das bibliotecas Java e Scala no Databricks Runtime 13.1, o Databricks Runtime 13.1 ML contém os seguintes JARs:

Clusters de CPU

ID do grupo ID do artefato Versão
com.typesafe.akka akka-actor_2,12 2.5.23
ml.dmlc xgboost4j-spark_2,12 1.7.3
ml.dmlc xgboost4j_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow cliente 2.3.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 (conector de Spark para TensorFlow versão 2.12) 1.15.0

Clusters de GPU

ID do grupo ID do artefato Versão
com.typesafe.akka akka-actor_2,12 2.5.23
ml.dmlc xgboost4j-gpu_2,12 1.7.3
ml.dmlc xgboost4j-spark-gpu_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow cliente 2.3.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 (conector de Spark para TensorFlow versão 2.12) 1.15.0