End-to-end-scenario van Data Factory: Inleiding en Architectuur

In deze zelfstudie wordt u in ongeveer een uur begeleid bij een volledig scenario voor gegevensintegratie. U leert de belangrijkste mogelijkheden van Data Factory in Microsoft Fabric en hoe u deze toepast op algemene gegevenswerkstromen.

Wat u gaat bouwen

Deze zelfstudie bevat een inleiding en drie modules:

Datafabriek in Microsoft Fabric

Microsoft Fabric is een geïntegreerd analyseplatform dat betrekking heeft op gegevensverplaatsing, data lakes, data engineering, gegevensintegratie, gegevenswetenschap, realtime analyses en business intelligence. U hoeft geen services van meerdere leveranciers samen te voegen.

Data Factory in Fabric combineert het gebruiksgemak van Power Query met de schaal van Azure Data Factory. Het biedt weinig code, met AI ingeschakelde gegevensvoorbereiding, petabyte-schaaltransformatie en honderden connectors met hybride en multicloudconnectiviteit.

Belangrijkste kenmerken

Data Factory biedt drie kernmogelijkheden voor uw behoeften voor gegevensintegratie:

  • Gegevensopname met kopieertaak: een kopieertaak is het aanbevolen startpunt voor gegevensopname. Hiermee worden petabyte-schaalgegevens van honderden gegevensbronnen naar uw Lakehouse verplaatst, met systeemeigen ondersteuning voor bulksgewijs, incrementeel kopiëren en kopiëren op basis van CDC, zonder dat u een pijplijn hoeft te bouwen.
  • Gegevenstransformatie: Dataflow Gen2 biedt een interface met weinig code voor het transformeren van uw gegevens met meer dan 300 transformaties. U kunt resultaten laden in meerdere bestemmingen, zoals Azure SQL Database, Lakehouse en meer.
  • End-to-end automatisering: Pijplijnen organiseren activiteiten, waaronder kopieertaak, gegevensstroom, notebook en meer. Koppel activiteiten aan elkaar om sequentieel of parallel uit te voeren. Bewaak uw volledige gegevensintegratiestroom op één plaats.

Zelfstudiearchitectuur

U verkent alle drie de belangrijkste functies tijdens het voltooien van een end-to-end scenario voor gegevensintegratie.

Het scenario bevat drie modules:

  1. Gegevens opnemen met een Kopieertaak: Maak een zelfstandige Kopieertaak om onbewerkte gegevens vanuit Blob Storage op te nemen in een bronzen tabel in een Lakehouse.
  2. Gegevens transformeren met een gegevensstroom: verwerk de onbewerkte gegevens uit uw bronstabel en verplaats deze naar een gouden tabel.
  3. Organiseren en automatiseren met een pijplijn: maak een pijplijn om de kopieertaak en gegevensstroom te organiseren, een e-mailmelding te verzenden en de hele stroom te plannen.

Diagram met de gegevensstroom en modules die in deze zelfstudie worden behandeld.

In deze zelfstudie wordt gebruikgemaakt van de voorbeeldgegevensset NYC-Taxi . Wanneer u klaar bent, kunt u dagelijkse kortingen op taxitarieven voor een specifieke periode analyseren met behulp van Data Factory in Microsoft Fabric.

Volgende stap