Gegevens van Event Hubs opnemen in Delta Lake-indeling

In dit artikel wordt uitgelegd hoe u de no-code-editor gebruikt om automatisch streaminggegevens in Event Hubs op te slaan in een Azure Data Lake Storage Gen2-account in Delta Lake-indeling.

Vereisten

  • U moet uw Azure Event Hubs en Azure Data Lake Storage Gen2 resources openbaar toegankelijk maken. Plaats ze niet achter een firewall of beveilig ze in een Azure Virtual Network.
  • U moet de gegevens in uw Event Hubs serialiseren in JSON-, CSV- of Avro-indeling.

Een taak configureren om gegevens vast te leggen

Gebruik de volgende stappen om een Stream Analytics-taak te configureren voor het vastleggen van gegevens in Azure Data Lake Storage Gen2.

  1. Ga in Azure Portal naar uw Event Hub.

  2. Selecteer Functies>Verwerkingsgegevens en selecteer Start op de Capture data naar ADLS Gen2 in Delta Lake-formaat kaart.
    Schermopname die de startkaarten voor het verwerken van Event Hubs-gegevens toont.

    U kunt ook Features>Capture selecteren en de Delta Lake-optie selecteren onder de serialisatie-indeling van uitvoerevenementen. Selecteer vervolgens de configuratie voor het vastleggen van gegevens starten. Schermopname die het beginpunt toont van het creëren van opnamegegevens.

  3. Voer een naam in om uw Stream Analytics-taak te identificeren. Selecteer Maken.
    Schermopname van het venster Nieuwe Stream Analytics-taak waarin u de taaknaam invoert.

  4. Geef het serialisatietype van uw gegevens op in de Event Hubs en de verificatiemethode die door de taak wordt gebruikt om verbinding te maken met Event Hubs. Selecteer vervolgens Connect. Schermopname van de configuratie van de Event Hubs-verbinding.

  5. Wanneer de verbinding tot stand is gebracht, ziet u:

    • Velden die aanwezig zijn in de invoergegevens. U kunt Veld toevoegen kiezen of u kunt het driepuntsymbool naast een veld selecteren om desgewenst het te verwijderen, te hernoemen of de naam te wijzigen.
    • Een livevoorbeeld van binnenkomende gegevens in de tabel Gegevensvoorbeeld onder de diagramweergave. Het wordt periodiek vernieuwd. U kunt Streamingvoorbeeld onderbreken selecteren om een statische weergave van de voorbeeldinvoer te bekijken.
      Schermopname van voorbeeldgegevens onder Gegevensvoorbeeld.
  6. Selecteer de tegel Azure Data Lake Storage Gen2 om de configuratie te bewerken.

  7. Voer op de configuratiepagina van Azure Data Lake Storage Gen2 de volgende stappen uit:

    1. Selecteer het abonnement, de naam van het opslagaccount en de container in de vervolgkeuzelijst.

    2. Nadat u het abonnement hebt geselecteerd, worden de verificatiemethode en de sleutel van het opslagaccount automatisch ingevuld.

    3. Geef voor Delta-tabelpad de locatie en naam op van de Delta Lake-tabel die is opgeslagen in Azure Data Lake Storage Gen2. U kunt ervoor kiezen om een of meer padsegmenten te gebruiken om het pad naar de deltatabel en de naam van de deltatabel te definiëren. Zie Schrijven naar Delta Lake-tabel voor meer informatie.

    4. Selecteer Verbinding maken.

      Eerste schermopname van het blobvenster waarin u de verbindingsconfiguratie van een blob bewerkt.

  8. Wanneer de verbinding tot stand is gebracht, ziet u velden die aanwezig zijn in de uitvoergegevens.

  9. Selecteer Opslaan op de opdrachtbalk om uw configuratie op te slaan.

  10. Selecteer Starten op de opdrachtbalk om de streamingstroom te starten om gegevens vast te leggen. Vervolgens in het venster Stream Analytics-taak starten:

    1. Kies de begintijd van de uitvoer.
    2. Selecteer het aantal streaming-eenheden (SU) waarmee de taak wordt uitgevoerd. SU vertegenwoordigt de rekenresources die zijn toegewezen om een Stream Analytics-taak uit te voeren. Zie Streaming-eenheden in Azure Stream Analytics voor meer informatie.
      Schermopname van het venster Stream Analytics-taak starten waarin u de begintijd van de uitvoer, streaming-eenheden en foutafhandeling instelt.
  11. Nadat u Start hebt geselecteerd, wordt de taak binnen twee minuten uitgevoerd en worden de metrische gegevens geopend in de tabbladsectie, zoals wordt weergegeven in de volgende afbeelding. Schermopname van het diagram met metrische gegevens.

  12. U ziet de nieuwe taak op het tabblad Stream Analytics-taken . Schermopname van de koppeling Metrische gegevens openen geselecteerd.

Uitvoer controleren

Controleer of de parquet-bestanden met de Delta Lake-indeling zijn gegenereerd in de Azure Data Lake Storage-container.

Schermopname van de gegenereerde Parquet-bestanden in de Azure Data Lake Storage-container (ADLS).

Overwegingen bij het gebruik van de functie Geo-replicatie van Event Hubs

Azure Event Hubs heeft onlangs de functie Geo-replicatie gelanceerd in de openbare preview. Deze functie verschilt van de functie Geo Disaster Recovery van Azure Event Hubs.

Wanneer het failovertype Geforceerd en de replicatieconsistentie Asynchroon is, garandeert de Stream Analytics-job geen exacte enkelvoudige uitvoer naar een Azure Event Hubs-output.

Azure Stream Analytics, als producent met een Event Hub als uitvoer, kan de watermerkvertraging in de taak observeren tijdens de failoverperiode en tijdens beperking door Event Hubs, in het geval dat de replicatievertraging tussen de primaire en secundaire de maximaal geconfigureerde vertraging bereikt.

Azure Stream Analytics, als consument met Event Hubs als invoer, kan tijdens de failover mogelijk een watermark delay in de taak waarnemen en mogelijk gegevens overslaan of dubbele gegevens vinden nadat de failover is voltooid.

Als gevolg van deze opmerkingen start u de Stream Analytics-taak opnieuw op met de juiste begintijd direct nadat de Failover van Event Hubs is voltooid. Aangezien de functie Geo-replicatie van Event Hubs in openbare preview is, gebruikt u dit patroon op dit moment niet voor productie Stream Analytics-taken. Het huidige gedrag van Stream Analytics wordt verbeterd voordat de Geo-replicatiefunctie van Event Hubs algemeen beschikbaar is en kan worden gebruikt in Stream Analytics-productietaken.

Volgende stappen

U weet nu hoe u de Stream Analytics zonder code-editor kunt gebruiken om een taak te maken waarmee Event Hubs-gegevens worden vastgelegd in Azure Data Lake Storage Gen2 in Delta Lake-indeling. Vervolgens vindt u meer informatie over Azure Stream Analytics en hoe u de taak bewaakt die u hebt gemaakt.