Grundlegendes zu wichtigen Komponenten von Lakeflow-Aufträgen

Abgeschlossen

Lakeflow-Aufträge bestehen aus mehreren wichtigen Komponenten, die die effiziente Orchestrierung und Ausführung von Datenverarbeitungsaufgaben in der Cloud ermöglichen. Dies sind die Hauptkomponenten:

  • Aufträge: Aufträge bilden die Hauptkomponente in Lakeflow-Aufträgen. Sie ermöglichen es Ihnen, automatisierte Aufgaben wie das Ausführen von Notebooks, Skripts oder kompilierten Java-Archiven (JARs) zu definieren und zu planen. Aufträge können für einen Zeitplan ausgelöst oder manuell ausgeführt werden, und sie können so eingerichtet werden, dass Abhängigkeiten und komplexe Workflows behandelt werden.

  • Aufgaben: Databricks-Aufträge unterstützen eine Vielzahl von Aufgabentypen, wie Notebooks, Skripts und Pakete, SQL-Abfragen, Pipelines und Kontrollflussaufgaben. Sie können auch Abhängigkeiten zwischen Aufgaben definieren, um komplexe Workflows mit mehreren Schritten zu orchestrieren. Aufgaben werden als zyklisches Diagramm (Directed Acyclic Graph, DAG) organisiert, das die Ausführungsreihenfolge und Abhängigkeitsbeziehungen visuell darstellt.

  • Compute: Azure Databricks bietet drei Berechnungsoptionen für die Ausführung von Aufgaben. Serverless compute ist die Standardeinstellung für unterstützte Aufgabentypen – Azure Databricks die Infrastruktur automatisch verwaltet, sodass Sie keine Clustereinstellungen konfigurieren müssen. Classic Jobs Compute gibt Ihnen die Kontrolle über die Clusterkonfiguration (Spark-Version, Instanztypen, automatische Skalierungsrichtlinien) und wird verwendet, wenn bestimmte Konfigurationen oder Bibliotheken erforderlich sind. SQL-Lagerhäuser führen SQL-Abfrageaufgaben aus und stellen eine Verbindung mit einem vorhandenen serverlosen oder pro SQL Warehouse in Ihrem Arbeitsbereich her.

  • Zeitplan und Auslöser: Zeitplan und Auslöser bestimmen, wie und wann Aufträge ausgeführt werden. Aufträge können manuell, auf geplanter Basis (mithilfe von Cron-Ausdrücken) oder als Reaktion auf bestimmte Auslöser ausgelöst werden. Dies bietet Flexibilität bei der Orchestrierung von Lakeflow-Aufträgen.

  • Notebooks: Databricks-Notebooks sind kollaborative Dokumente, die lauffähigen Code, Visualisierungen und erzählenden Text enthalten. Sie sind eine gemeinsame Ausführungseinheit in Lakeflow-Aufträgen und können verwendet werden, um komplexe Datentransformationen, Visualisierungen und Machine Learning-Modelle zu orchestrieren.

  • Bibliotheken: Bibliotheken in Databricks enthalten Pakete oder Module, die von Notebooks und Aufträgen verwendet werden können. Module können Python-Pakete, Java/Scala-Bibliotheken oder R-Pakete enthalten. Bibliotheken können an Cluster angefügt und für Aufgaben zur Verwendung während der Ausführung verfügbar gemacht werden.

  • Überwachung und Protokollierung: Azure Databricks bietet Tools zur Überwachung der Leistung von Aufträgen und Clustern. Protokolle und Metriken werden automatisch gesammelt, sodass Sie Probleme diagnostizieren und die Leistung optimieren können. Die Integration mit Azure Monitor ermöglicht umfassende Überwachung und Warnung im gesamten Azure-Ökosystem.

  • Automation: Databricks bietet die Databricks-Befehlszeilenschnittstelle (Command Line Interface, CLI), die Databricks-SDKs sowie die REST-API für die programmgesteuerte Erstellung und Verwaltung von Aufträgen und ermöglicht so die Integration in externe Systeme und Automatisierungstools.

Diese Komponenten arbeiten zusammen, um ein robustes Framework für die Verwaltung von Datenworkflows bereitzustellen und eine effiziente Verarbeitung und Zusammenarbeit in einer sicheren und skalierbaren Cloudumgebung zu ermöglichen.