Verwenden von Datenflüssen in Pipelines

Wenn Sie komplexe Pipelines mit mehreren Datenflüssen erstellen, kann ihr logischer Fluss große Auswirkungen auf die Zeitplanung und die Kosten haben. In diesem Abschnitt werden die Auswirkungen verschiedener Architekturstrategien behandelt.

Paralleles Ausführen von Datenflüssen

Wenn Sie mehrere Datenflüsse parallel ausführen, löst der Dienst separate Spark-Cluster für jede Aktivität aus. Dadurch kann jeder Auftrag isoliert und parallel ausgeführt werden, führt jedoch zu mehreren Clustern, die gleichzeitig ausgeführt werden.

Wenn Ihre Datenflüsse parallel ausgeführt werden, empfehlen wir, die Azure-IR-Zeit nicht für das Live-Feature zu aktivieren, da dies zu mehreren ungenutzten Warmpools führt.

Tipp

Statt denselben Datenfluss für jede Aktivität mehrmals auszuführen, stellen Sie Ihre Daten in einem Datensee bereit und verwenden Sie Wildcardpfade, um die Daten in einem einzelnen Datenfluss zu verarbeiten.

Sequenzielles Ausführen von Datenflüssen

Wenn Sie Ihre Datenflussaktivitäten in Sequenz ausführen, empfiehlt es sich, eine TTL in der Azure IR-Konfiguration festzulegen. Der Dienst verwendet die Computeressourcen wieder, was zu einer schnelleren Startzeit des Clusters führt. Jede Aktivität ist weiterhin isoliert und empfängt für jede Ausführung einen neuen Spark-Kontext.

Überladen eines einzelnen Datenflusses

Wenn Sie alle Ihre Logik innerhalb eines einzelnen Datenflusses platzieren, führt der Dienst den gesamten Auftrag in einer einzelnen Spark-Instanz aus. Dies mag zwar wie eine Möglichkeit zum Reduzieren der Kosten erscheinen, aber es kombiniert verschiedene logische Flüsse und kann schwierig sein, sie zu überwachen und zu debuggen. Wenn eine Komponente fehlschlägt, schlagen auch alle anderen Teile des Auftrags fehl. Das Organisieren von Datenflüssen durch unabhängige Geschäftslogik wird empfohlen. Wenn der Datenfluss zu groß wird, erleichtert das Aufteilen in separate Komponenten die Überwachung und das Debuggen. Obwohl die Anzahl der Transformationen in einem Datenfluss nicht begrenzt ist, macht zu viele die Aufgabe komplex.

Senken parallel ausführen

Das Standardverhalten von Datenfluss-Senken besteht darin, dass jede Senke nacheinander ausgeführt wird und der Datenfluss abgebrochen wird, wenn ein Fehler in der Senke auftritt. Darüber hinaus werden alle Senken standardmäßig auf dieselbe Gruppe festgelegt, es sei denn, Sie gehen in die Datenflusseigenschaften und legen unterschiedliche Prioritäten für die Senken fest.

Mit Datenflüssen können Sie Sinken in Gruppen über die Registerkarte "Datenflusseigenschaften" im Ui-Designer gruppieren. Sie können sowohl die Reihenfolge der Ausführung Ihrer Senken festlegen als auch Senken mit derselben Gruppennummer gruppieren. Um Gruppen zu verwalten, können Sie den Dienst bitten, Senken in derselben Gruppe parallel auszuführen.

In der Pipeline ist das Ausführen der Datenflussaktivität unter dem Abschnitt "Senkeneigenschaften" eine Option zum Aktivieren des parallelen Senkenladevorgangs. Wenn Sie "Parallel ausführen" aktivieren, weisen Sie Datenflüsse darauf hin, gleichzeitig in die verbundenen Senken zu schreiben, anstatt nacheinander. Um die parallele Option nutzen zu können, müssen die Senken gruppiert und mit demselben Datenstrom über eine Neue Verzweigung oder eine bedingte Aufteilung verbunden sein.

Zugreifen auf Azure Synapse-Datenbankvorlagen in Pipelines

Sie können eine Azure Synapse-Datenbankvorlage verwenden, wenn Sie eine Pipeline erstellen. Wählen Sie beim Erstellen eines neuen Datenflusses in den Quell- oder Senkeneinstellungen Arbeitsbereich DB aus. In der Dropdownliste der Datenbank werden die datenbanken aufgelistet, die über die Datenbankvorlage erstellt wurden. Die Arbeitsbereich-DB-Option ist nur für neue Datenflüsse verfügbar, sie ist nicht verfügbar, wenn Sie eine vorhandene Pipeline aus dem Synapse Studio Gallery verwenden.

Weitere Artikel zum Datenfluss finden Sie in Bezug auf die Leistung:

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-26