Verwenden von Scikit-learn in Azure Databricks

Diese Seite enthält Beispiele für die Verwendung des scikit-learn-Pakets zum Trainieren von Machine Learning-Modellen in Azure Databricks. scikit-learn ist eine der populärsten Python-Bibliotheken für Single-Node Machine Learning und ist in Databricks Runtime und Databricks Runtime ML enthalten. Siehe Databricks Runtime Release Notes für die Version der scikit-learn-Bibliothek, die in der Laufzeitumgebung Ihres Clusters enthalten ist.

Sie können diese Notebooks importieren und in Ihrem Azure Databricks-Arbeitsbereich ausführen.

Einfaches Beispiel mit Scikit-Learn

Dieses Notebook bietet eine kurze Übersicht über das Machine Learning-Modell-Training auf Azure Databricks. Es verwendet das scikit-learn-Paket, um ein einfaches Klassifizierungsmodell zu trainieren. Es veranschaulicht auch die Verwendung von MLflow to track the model development process, and Optuna to automate hyperparameter tuning.

Tipp

Weisen Sie Genie Code (Agent-Modus) an, dies für Sie zu erledigen.

Create tables in Unity Catalog for these datasets and then use those tables to train a classification model to predict wine quality.
/databricks-datasets/wine-quality/winequality-white.csv and /databricks-datasets/wine-quality/winequality-red.csv

Wenn Ihr Arbeitsbereich für Unity Catalog aktiviert ist, verwenden Sie diese Version des Notebooks:

scikit-learn Klassifizierungs-Notebook (Unity Catalog)

Notebook abrufen

Wenn Ihr Arbeitsbereich nicht für Unity Catalog aktiviert ist, verwenden Sie diese Version des Notebooks:

Scikit-learn-Klassifizierungsnotebook

Notebook abrufen

Komplettbeispiel mit scikit-learn auf Azure Databricks

Dieses Notebook veranschaulicht anhand von scikit-learn ein vollständiges End-to-End-Beispiel für das Laden von Daten, das Modelltraining, die verteilte Hyperparameteroptimierung und den Modellrückschluss. Außerdem veranschaulicht es die Modelllebenszyklusverwaltung mithilfe der MLflow-Modellregistrierung, um Ihre Modelle zu protokollieren und zu registrieren.

Wenn Ihr Arbeitsbereich für Unity Catalog aktiviert ist, verwenden Sie diese Version des Notebooks:

Verwenden von scikit-learn mit MLflow-Integration in Databricks (Unity Catalog)

Notebook abrufen

Wenn Ihr Arbeitsbereich nicht für Unity Catalog aktiviert ist, verwenden Sie diese Version des Notebooks:

Verwenden von scikit-learn mit MLflow-Integration in Databricks

Notebook abrufen