April 2019

Diese Features und Azure Databricks-Plattformverbesserungen wurden im April 2019 veröffentlicht.

Hinweis

Releases werden gestaffelt. Ihr Azure Databricks-Konto wird möglicherweise erst eine Woche nach dem Datum der ersten Veröffentlichung aktualisiert.

MLflow in Azure Databricks (GA)

25. April 2019

Verwalteter MLflow in Azure Databricks ist jetzt allgemein verfügbar. MLflow in Azure Databricks bietet eine gehostete Version von MLflow, die vollständig in das Databricks-Sicherheitsmodell und den interaktiven Arbeitsbereich integriert ist. Siehe MLflow auf Databricks.

Delta Lake auf Azure Databricks

24. April 2019

Databricks hat das Delta Lake-Projekt als Open Source zur Verfügung gestellt. Delta Lake ist eine Speicherebene, die die Zuverlässigkeit von Data Lakes, die auf HDFS und Cloudspeicher basieren, erhöht, indem sie ACID-Transaktionen durch optimistische Parallelitätskontrolle zwischen den Schreibvorgängen und Schnappschussisolation für konsistente Lesevorgänge während dieser Schreibvorgänge ermöglicht. Delta Lake bietet außerdem eine integrierte Datenversionsverwaltung für einfache Rollbacks und die Reproduktion von Berichten.

Hinweis

Was früher als Databricks Delta bezeichnet wurde, ist jetzt das Open-Source-Projekt Delta Lake – zuzüglich der auf Azure Databricks verfügbaren Optimierungen. Sehen Sie , was ist Delta Lake in Azure Databricks?.

MLflow in der Seitenleiste

9. – 16. April 2019: Version 2.95

Sie können nun die MLflow-Ausführungen und die Notebookrevisionen, die diese Ausführungen erzeugt haben, in einer Seitenleiste neben Ihrem Notebook anzeigen. Klicken Sie auf der rechten Randleiste des Notizbuchs auf das Symbol .

Weitere Informationen finden Sie unter Erstellen eines Notebookexperiments.

Automatischer Zugriff auf Azure Data Lake Storage Gen1 und Gen2 über Microsoft Entra ID-Anmeldeinformationen (GA)

9. – 16. April 2019: Version 2.95

Wir freuen uns, die allgemeine Verfügbarkeit der automatischen Authentifizierung für Azure Data Lake Storage Gen1 und Gen2 von Azure Databricks-Clustern aus bekannt zu geben. Dabei wird dieselbe Microsoft Entra ID-Identität verwendet, mit der Sie sich bei Azure Databricks anmelden.

Aktivieren Sie einfach das Microsoft Entra ID-Anmeldeinformationen-Passthrough für Ihren Cluster, und die von Ihnen in diesem Cluster ausgeführten Befehle können auf Ihre Daten in Azure Data Lake Storage Gen1 und Gen2 zugreifen, ohne dass Sie Dienstprinzipal-Anmeldeinformationen für den Zugriff auf den Speicher konfigurieren müssen.

Weitere Informationen finden Sie unter Zugriff auf Azure Data Lake Storage mithilfe von Passthrough (Legacy) für Microsoft Entra ID-Anmeldeinformationen.

Databricks Runtime 5.3 (GA)

3. April 2019

Databricks Runtime 5.3 ist jetzt allgemein verfügbar. Databricks Runtime 5.3 enthält neue Delta Lake-Features und -Upgrades sowie aktualisierte Python-, R-, Java- und Scala-Bibliotheken.

Zu den wichtigsten Upgrades gehören:

  • Databricks Delta-Zeitreise jetzt allgemein verfügbar (GA)
  • MySQL-Tabellenreplikation auf Delta, Public Preview
  • Optimierter DBFS FUSE-Ordner für Deep Learning-Workloads
  • Verbesserungen der Notebook-spezifischen Bibliothek
  • Neue Databricks Advisor-Hinweise

Databricks Runtime 5.3 ML (GA)

3. April 2019

Mit Databricks Runtime 5.3 für Machine Learning haben wir unsere erste GA-Version der Databricks Runtime ML erreicht! Databricks Runtime ML bietet eine einsatzbereite Umgebung für Machine Learning und Data Science. Es basiert auf Databricks Runtime und enthält viele beliebte Machine Learning-Bibliotheken, einschließlich TensorFlow, PyTorch, Keras und XGBoost. Außerdem unterstützt das System verteiltes Training mit Horovod.

Diese Version basiert auf Databricks Runtime 5.3 und enthält zusätzliche Bibliotheken, einige unterschiedliche Bibliotheksversionen und eine Conda-Paketverwaltung für Python-Bibliotheken. Zu den wichtigsten neuen Features seit Databricks Runtime 5.2 ML Beta gehören:

  • MLlib-Integration in MLflow (Private Vorschau), die die automatische Protokollierung von MLflow-Ausführungen für Modelle ermöglicht, die mit den PySpark-Optimierungsalgorithmen CrossValidator und TrainValidationSplit angepasst wurden.

    Wenn Sie an der Vorschau teilnehmen möchten, wenden Sie sich an Ihr Databricks-Kundenteam.

  • Upgrades auf die Bibliotheken PyArrow, Horovod und TensorboardX.

    Das PyArrow-Update bietet die Möglichkeit, BinaryType bei der pfeilbasierten Konvertierung zu verwenden und in einer Pandas-UDF verfügbar zu machen.

Weitere Informationen zum Erstellen eines Databricks Runtime ML-Clusters finden Sie unter KI und Machine Learning in Databricks.