Erfassen von Daten aus Event Hubs im Delta-Lake-Format

In diesem Artikel wird erläutert, wie Sie mithilfe des No-Code-Editor-Tools Streamingdaten automatisch in Event Hubs sammeln und diese in einem Azure Data Lake Storage Gen2-Konto im Delta Lake-Format erfassen.

Voraussetzungen

  • Sie müssen Ihre Azure Event Hubs und Azure Data Lake Storage Gen2 Ressourcen öffentlich zugänglich machen. Platzieren Sie sie nicht hinter einer Firewall oder sichern Sie sie in einem Azure Virtual Network.
  • Sie müssen die Daten in Ihren Event Hubs im JSON-, CSV- oder Avro-Format serialisieren.

Konfigurieren eines Auftrags zum Aufzeichnen von Daten

Verwenden Sie die folgenden Schritte, um einen Stream Analytics-Auftrag zum Aufzeichnen von Daten in Azure Data Lake Storage Gen2 zu konfigurieren.

  1. Wechseln Sie im Azure-Portal zu Ihrem Event Hub.

  2. Wählen Sie Features>Daten verarbeiten aus, und klicken Sie auf der Karte Daten im Delta Lake-Format in ADLS Gen2 erfassen auf Start.
    Screenshot: Startkarten zum Verarbeiten von Event Hubs-Daten.

    Alternativ können Sie Features>Capture auswählen und die Option Delta Lake im Ausgabeereignis-Serialisierungsformat auswählen. Wählen Sie dann die Startdatenerfassungskonfiguration aus. Screenshot: Einstiegspunkt für das Erstellen von Erfassungsdaten

  3. Geben Sie einen Namen zur Identifizierung des Stream Analytics-Auftrags ein. Klicken Sie auf Erstellen.
    Screenshot: Fenster „Neuer Stream Analytics-Auftrag“, in dem der Auftragsname eingegeben wird.

  4. Geben Sie in Event Hubs den Serialisierungstyp Ihrer Daten sowie die Authentifizierungsmethode an, die der Auftrag zum Herstellen einer Verbindung mit Event Hubs verwenden soll. Wählen Sie dann Verbinden aus. Screenshot: Event Hubs-Verbindungskonfiguration.

  5. Wenn die Verbindung erfolgreich eingerichtet worden ist, wird Folgendes angezeigt:

    • Felder, die in den Eingabedaten vorhanden sind. Sie können Feld hinzufügen oder das Symbol mit den drei Punkten neben einem Feld auswählen, um den Namen optional zu entfernen oder zu ändern.
    • Ein Livebeispiel eingehender Daten in der Tabelle Datenvorschau unterhalb der Diagrammansicht. Es wird regelmäßig aktualisiert. Sie können Streamingvorschau anhalten auswählen, um eine statische Ansicht der Beispieleingabe anzuzeigen.
      Screenshot: Beispieldaten unter der Datenvorschau.
  6. Wählen Sie die Kachel Azure Data Lake Storage Gen2 aus, um die Konfiguration zu bearbeiten.

  7. Führen Sie auf der Seite für die Azure Data Lake Storage Gen2-Konfiguration die folgenden Schritte aus:

    1. Wählen Sie im Dropdownmenü das Abonnement, den Speicherkontonamen und den Container aus.

    2. Nachdem Sie das Abonnement ausgewählt haben, werden die Authentifizierungsmethode und der Speicherkontoschlüssel automatisch ausgefüllt.

    3. Geben Sie für Delta-Tabellenpfad die Position und den Namen der in Azure Data Lake Storage Gen2 gespeicherten Delta Lake-Tabelle an. Sie können ein einzelnes Pfadsegment oder mehrere Pfadsegmente verwenden, um den Pfad zur Deltatabelle sowie den Deltatabellennamen zu definieren. Weitere Informationen finden Sie in der Tabelle "Write to Delta Lake".

    4. Wählen Sie Verbinden.

      Erster Screenshot, der das Fenster „Blob“ anzeigt, in dem Sie die Verbindungskonfiguration eines Blobs bearbeiten.

  8. Wenn die Verbindung hergestellt wurde, werden die Felder angezeigt, die in den Ausgabedaten vorhanden sind.

  9. Wählen Sie auf der Befehlsleiste Speichern aus, um Ihre Konfiguration zu speichern.

  10. Wählen Sie auf der Befehlsleiste Starten aus, um den Streamingdatenfluss zu starten und Daten zu erfassen. Führen Sie dann im Auftragsfenster "Stream Analytics starten " folgendes aus:

    1. Wählen Sie die Startzeit der Ausgabe aus.
    2. Wählen Sie die Anzahl der Streamingeinheiten (SU) aus, mit denen der Auftrag ausgeführt wird. SUs stellen die Rechenressourcen dar, die zum Ausführen eines Stream Analytics-Auftrags zugeordnet werden. Weitere Informationen finden Sie unter Streamingeinheiten in Azure Stream Analytics.
      Screenshot: Fenster „Stream Analytics-Auftrag starten“, in dem Sie die Startzeit der Ausgabe, die Streamingeinheiten und die Fehlerbehandlung festlegen.
  11. Nachdem Sie Start ausgewählt haben, beginnt die Ausführung des Auftrags innerhalb von zwei Minuten, und die Metriken werden im Registerkartenbereich angezeigt, wie in der folgenden Abbildung gezeigt. Screenshot zeigt das Metrikdiagramm.

  12. Sie können den neuen Auftrag auf der Registerkarte "Stream Analytics-Aufträge " sehen. Screenshot mit ausgewähltem Link

Ausgabe überprüfen

Vergewissern Sie sich, dass die Parquet-Dateien im Delta Lake-Format im Azure Data Lake Storage-Container generiert werden.

Screenshot der generierten Parquet-Dateien im ADLS-Container (Azure Data Lake Storage).

Überlegungen bei der Verwendung des Georeplikationsfeatures von Event Hubs

Für Azure Event Hubs wurde kürzlich das Feature Georeplikation als öffentliche Vorschauversion eingeführt. Dieses Feature unterscheidet sich von der Geo-Desaster-Wiederherstellung-Funktion von Azure Event Hubs.

Wenn der Failover-Typ Erzwungen und die Replikationskonsistenz Asynchron ist, garantiert der Stream Analytics Job nicht genau eine Ausgabe an einen Azure Event Hubs.

Azure Stream Analytics, als Produzent mit einem Event Hub als Ausgang, kann während der Failover-Dauer und während der Drosselung durch Event Hubs eine Wasserzeichen-Verzögerung des Jobs beobachten, falls die Replikation zwischen primär und sekundär die maximal konfigurierte Verzögerung erreicht.

Azure Stream Analytics, als Konsument mit Event Hubs als Input, könnte eine Wasserzeichen-Verzögerung des Jobs während der Failover-Dauer beobachten und möglicherweise Daten überspringen oder doppelte Daten finden, nachdem der Failover abgeschlossen ist.

Starten Sie aufgrund dieser Einschränkungen den Stream Analytics-Auftrag mit entsprechender Startzeit direkt nach Abschluss des Event Hubs-Failovers neu. Da sich die Georeplikationsfunktion von Event Hubs in der öffentlichen Vorschau befindet, verwenden Sie dieses Muster zu diesem Zeitpunkt nicht für Stream Analytics-Aufträge für die Produktion. Das aktuelle Stream Analytics-Verhalten wird verbessert, bevor das Event Hubs-Georeplikationsfeature allgemein verfügbar ist und in Stream Analytics-Produktionsaufträgen verwendet werden kann.

Nächste Schritte

Jetzt wissen Sie, wie Sie mit dem No-Code-Editor von Stream Analytics einen Auftrag erstellen, der Event Hubs-Daten in Azure Data Lake Storage Gen2 im Delta Lake-Format erfasst. Als Nächstes können Sie mehr über Azure Stream Analytics erfahren und wie Sie den von Ihnen erstellten Auftrag überwachen.