Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
In deze zelfstudie wordt u in ongeveer een uur begeleid bij een volledig scenario voor gegevensintegratie. U leert de belangrijkste mogelijkheden van Data Factory in Microsoft Fabric en hoe u deze toepast op algemene gegevenswerkstromen.
Wat u gaat bouwen
Deze zelfstudie bevat een inleiding en drie modules:
- Module 1: Gegevens opnemen met een kopieertaak: maak een zelfstandige kopieertaak om onbewerkte gegevens van Blob Storage op te nemen in een bronzen tabel in een Lakehouse.
- Module 2: Gegevens transformeren met een gegevensstroom: Onbewerkte gegevens uit uw bronzen tabel verwerken en verplaatsen naar een gouden tabel in Lakehouse.
- Module 3- Organiseren en automatiseren met een pijplijn: Maak een pijplijn voor het organiseren van de kopieertaak en gegevensstroom, verzend een e-mailmelding wanneer taken zijn voltooid en plan de hele stroom.
Datafabriek in Microsoft Fabric
Microsoft Fabric is een geïntegreerd analyseplatform dat betrekking heeft op gegevensverplaatsing, data lakes, data engineering, gegevensintegratie, gegevenswetenschap, realtime analyses en business intelligence. U hoeft geen services van meerdere leveranciers samen te voegen.
Data Factory in Fabric combineert het gebruiksgemak van Power Query met de schaal van Azure Data Factory. Het biedt weinig code, met AI ingeschakelde gegevensvoorbereiding, petabyte-schaaltransformatie en honderden connectors met hybride en multicloudconnectiviteit.
Belangrijkste kenmerken
Data Factory biedt drie kernmogelijkheden voor uw behoeften voor gegevensintegratie:
- Gegevensopname met kopieertaak: een kopieertaak is het aanbevolen startpunt voor gegevensopname. Hiermee worden petabyte-schaalgegevens van honderden gegevensbronnen naar uw Lakehouse verplaatst, met systeemeigen ondersteuning voor bulksgewijs, incrementeel kopiëren en kopiëren op basis van CDC, zonder dat u een pijplijn hoeft te bouwen.
- Gegevenstransformatie: Dataflow Gen2 biedt een interface met weinig code voor het transformeren van uw gegevens met meer dan 300 transformaties. U kunt resultaten laden in meerdere bestemmingen, zoals Azure SQL Database, Lakehouse en meer.
- End-to-end automatisering: Pijplijnen organiseren activiteiten, waaronder kopieertaak, gegevensstroom, notebook en meer. Koppel activiteiten aan elkaar om sequentieel of parallel uit te voeren. Bewaak uw volledige gegevensintegratiestroom op één plaats.
Zelfstudiearchitectuur
U verkent alle drie de belangrijkste functies tijdens het voltooien van een end-to-end scenario voor gegevensintegratie.
Het scenario bevat drie modules:
- Gegevens opnemen met een Kopieertaak: Maak een zelfstandige Kopieertaak om onbewerkte gegevens vanuit Blob Storage op te nemen in een bronzen tabel in een Lakehouse.
- Gegevens transformeren met een gegevensstroom: verwerk de onbewerkte gegevens uit uw bronstabel en verplaats deze naar een gouden tabel.
- Organiseren en automatiseren met een pijplijn: maak een pijplijn om de kopieertaak en gegevensstroom te organiseren, een e-mailmelding te verzenden en de hele stroom te plannen.
In deze zelfstudie wordt gebruikgemaakt van de voorbeeldgegevensset NYC-Taxi . Wanneer u klaar bent, kunt u dagelijkse kortingen op taxitarieven voor een specifieke periode analyseren met behulp van Data Factory in Microsoft Fabric.