Freigeben über


Aufzeichnen von Daten aus Event Hubs im Parquetformat

In diesem Artikel wird erläutert, wie Sie den No-Code-Editor zum automatischen Aufzeichnen von Streamingdaten in Event Hubs in einem Azure Data Lake Storage Gen2-Konto im Parquet-Format verwenden.

Voraussetzungen

  • Ein Azure Event Hubs-Namespace mit einem Event Hub und einem Azure Data Lake Storage Gen2-Konto mit einem Container zum Speichern der aufgezeichneten Daten. Diese Ressourcen müssen öffentlich zugänglich sein und dürfen sich nicht hinter einer Firewall befinden oder in einem virtuellen Azure-Netzwerk gesichert werden.

    Wenn Sie keinen Event Hub haben, erstellen Sie einen, indem Sie die Anweisungen unter Schnellstart: Erstellen eines Event Hubs befolgen.

    Wenn Sie nicht über ein Data Lake Storage Gen2-Konto verfügen, erstellen Sie ein Konto anhand der Anweisungen unter Erstellen eines Speicherkontos.

  • Die Daten in Ihrer Event Hubs-Instanz (Event Hub) müssen entweder im JSON-, CSV- oder Avro-Format serialisiert werden. Führen Sie auf der Seite Event Hubs-Instanz für Ihre Event Hubs-Instanz die folgenden Schritte aus:

    1. Wählen Sie im Menü auf der linken Seite die Option Daten-Explorer aus.

    2. Wählen Sie im mittleren Bereich Ereignisse senden aus.

    3. Wählen Sie im Bereich Ereignisse senden für Dataset auswählen die Option Aktiendaten aus.

    4. Wählen Sie Send (Senden) aus.

      Screenshot: Die Seite „Daten generieren“ zum Generieren von Beispielbestandsdaten

Einen Auftrag zur Datenerfassung konfigurieren

Verwenden Sie die folgenden Schritte, um einen Stream Analytics-Auftrag zum Aufzeichnen von Daten in Azure Data Lake Storage Gen2 zu konfigurieren.

  1. Wechseln Sie im Azure-Portal zu Ihrem Event Hub.

  2. Wählen Sie im linken Menü unter "Features" die Option "Prozessdaten" aus. Wählen Sie anschließend auf der Kachel Daten im Parquet-Format in ADLS Gen2 erfassen die Option Start aus.

    Screenshot: Startkarten zum Starten der Verarbeitung von Event Hubs-Daten.

  3. Geben Sie einen Namen für Ihren Stream Analytics-Auftrag ein, und wählen Sie dann Erstellen aus.

    Screenshot: Fenster „Neuer Stream Analytics-Auftrag“, in dem der Auftragsname eingegeben wird.

  4. Geben Sie in Event Hubs den Serialisierungstyp Ihrer Daten sowie die Authentifizierungsmethode an, die der Auftrag zum Herstellen einer Verbindung mit Event Hubs verwenden soll. Behalten Sie für dieses Tutorial die Standardeinstellungen bei. Wählen Sie dann Verbinden aus.

    Screenshot: Event Hubs-Verbindungskonfiguration.

  5. Wenn die Verbindung erfolgreich eingerichtet worden ist, wird Folgendes angezeigt:

    • Felder, die in den Eingabedaten vorhanden sind. Sie können Feld hinzufügen oder das Symbol mit den drei Punkten neben einem Feld auswählen, um den Namen optional zu entfernen oder zu ändern.

    • Ein Live-Datenbeispiel der eingehenden Daten in der Tabelle Datenvorschau unter der Diagrammansicht. Es wird regelmäßig aktualisiert. Sie können Streamingvorschau anhalten auswählen, um eine statische Ansicht der Beispieleingabe anzuzeigen.

      Screenshot: Beispieldaten unter der Datenvorschau.

  6. Wählen Sie die Kachel Azure Data Lake Storage Gen2 aus, um die Konfiguration zu bearbeiten.

  7. Führen Sie auf der Seite für die Azure Data Lake Storage Gen2-Konfiguration die folgenden Schritte aus:

    1. Wählen Sie im Dropdownmenü das Abonnement, den Speicherkontonamen und den Container aus.

    2. Nachdem Sie das Abonnement ausgewählt haben, werden die Authentifizierungsmethode und der Speicherkontoschlüssel automatisch ausgefüllt.

    3. Wählen Sie Parquet als Serialisierungsformat aus.

      Screenshot: Konfigurationsseite für Data Lake Storage Gen2

    4. Für Streaming-Blobs ist das Verzeichnispfadmuster ein dynamischer Wert. Das Datum muss Teil des Dateipfads für das Blob sein , auf das verwiesen wird {date}. Informationen zu benutzerdefinierten Pfadmustern finden Sie unter Azure Stream Analytics, benutzerdefinierte Blob-Ausgabepartitionierung.

      Erster Screenshot, der das Fenster „Blob“ anzeigt, in dem Sie die Verbindungskonfiguration eines Blobs bearbeiten.

    5. Wählen Sie Verbinden aus.

  8. Wenn die Verbindung hergestellt wurde, werden die Felder angezeigt, die in den Ausgabedaten vorhanden sind.

  9. Wählen Sie auf der Befehlsleiste Speichern aus, um Ihre Konfiguration zu speichern.

    Screenshot der Schaltfläche

  10. Wählen Sie auf der Befehlsleiste Starten aus, um den Streamingdatenfluss zu starten und Daten zu erfassen. Führen Sie dann im Auftragsfenster "Stream Analytics starten " folgendes aus:

    1. Wählen Sie die Startzeit der Ausgabe aus.

    2. Wählen Sie den Tarif aus.

    3. Wählen Sie die Anzahl der Streamingeinheiten (SU) aus, mit denen der Auftrag ausgeführt wird. SU stehen für die Computerressourcen, die einem Stream Analytics-Auftrag zugewiesen sind. Weitere Informationen finden Sie unter Streamingeinheiten in Azure Stream Analytics.

      Screenshot: Fenster „Stream Analytics-Auftrag starten“, in dem Sie die Startzeit der Ausgabe, die Streamingeinheiten und die Fehlerbehandlung festlegen.

  11. Wählen Sie "X " in der oberen rechten Ecke aus, um das Stream Analytics-Auftragsfenster zu schließen.

  12. Der Stream-Analyseauftrag wird auf der Registerkarte " Stream Analytics-Auftrag " der Seite " Prozessdaten " für Ihren Event Hub angezeigt.

    Screenshot des Stream Analytics-Auftrags auf der Seite „Daten verarbeiten“

Überprüfung der Ausgabe

  1. Öffnen Sie die Seite „Event Hubs-Instanz“ für Ihr Event Hub, und führen Sie die folgenden Schritte aus:

    1. Wählen Sie im Menü auf der linken Seite die Option Daten-Explorer aus.
    2. Wählen Sie im mittleren Bereich Ereignisse senden aus.
    3. Wählen Sie im Bereich Ereignisse senden für Dataset auswählen die Option Aktiendaten aus.
    4. Wählen Sie Send (Senden) aus.
  2. Stellen Sie sicher, dass die PARQUET-Dateien im Azure Data Lake Storage-Container generiert werden.

    Screenshot: Generierte Parquet-Dateien im Azure Data Lake Storage-Container.

  3. Wählen Sie nun auf der Seite "Event Hubs-Instanz" im linken Menü " Prozessdaten " aus. Wechseln Sie zur Registerkarte Stream Analytics-Aufträge. Wählen Sie Metriken öffnen aus, um sie zu überwachen. Fügen Sie Eingabemetriken zum Diagramm hinzu, indem Sie auf der Symbolleiste Metrik hinzufügen verwenden. Wenn die Metriken im Diagramm nicht angezeigt werden, warten Sie einige Minuten, und aktualisieren Sie die Seite.

    Screenshot: Ausgewählter Link „Metriken öffnen“.

    Hier sehen Sie einen Beispielscreenshot von Metriken mit Eingabe- und Ausgabeereignissen.

    Screenshot: Metriken des Stream Analytics-Auftrags.

Überlegungen bei der Verwendung des Georeplikationsfeatures von Event Hubs

Für Azure Event Hubs wurde kürzlich das Feature Georeplikation als öffentliche Vorschauversion eingeführt. Dieses Feature unterscheidet sich von der Funktion Geo-Disaster-Wiederherstellung von Azure Event Hubs.

Wenn der Failovertyp Erzwungen ist und die Replikationskonsistenz Asynchron, garantiert der Stream Analytics-Auftrag keine genau einmalige Ausgabe an ein Azure Event Hubs-Ziel.

Als Producer mit einem Event Hub als Ausgabedestination kann in Azure Stream Analytics während eines Failovers oder bei Drosselung durch Event Hubs eine Wasserzeichenverzögerung im Auftrag beobachtet werden, falls die Replikationsverzögerung zwischen dem primären und dem sekundären Replikat die maximal konfigurierte Verzögerung erreicht.

In Azure Stream Analytics, wenn Event Hubs als Eingabe verwendet wird und als Consumer fungiert, kann es während eines Failovers zu einer Wasserzeichenverzögerung kommen. Nach Abschluss des Failovers könnten dann Daten übersprungen oder doppelte Daten gefunden werden.

Aufgrund dieser Nachteile empfehlen wir, den Stream Analytics-Auftrag mit entsprechender Startzeit direkt nach Abschluss des Event Hubs-Failovers neu zu starten. Da sich das Georeplikationsfeature von Event Hubs zudem in der öffentlichen Vorschau befindet, wird derzeit nicht empfohlen, dieses Muster für Stream Analytics-Aufträge in der Produktion zu verwenden. Das aktuelle Stream Analytics-Verhalten wird verbessert, bevor das Event Hubs-Georeplikationsfeature allgemein verfügbar ist und in Stream Analytics-Produktionsaufträgen verwendet werden kann.

Jetzt wissen Sie, wie Sie den No-Code-Editor von Stream Analytics verwenden, um einen Auftrag zu erstellen, der Event Hubs-Daten in Azure Data Lake Storage Gen2 im Parquetformat aufzeichnet. Als Nächstes können Sie mehr über Azure Stream Analytics erfahren und wie Sie den von Ihnen erstellten Auftrag überwachen.