Werken met Data Factory-pijplijnen
Als u wilt werken met data factory-pijplijnen, is het noodzakelijk om te begrijpen wat een pijplijn in Azure Data Factory is.
Een pijplijn in Azure Data Factory vertegenwoordigt een logische groepering van activiteiten waarbij de activiteiten samen een bepaalde taak uitvoeren.
Een voorbeeld van een combinatie van activiteiten in één pijplijn kan zijn het inlezen en opschonen van logboekgegevens in combinatie met een gegevensstroom die de opgeschoonde logboekgegevens analyseert.
Met een pijplijn kunt u de afzonderlijke activiteiten beheren als een geheel, die anders individueel zouden worden beheerd. Hiermee kunt u de activiteiten efficiënt implementeren en plannen met behulp van één pijplijn, versus elke activiteit onafhankelijk beheren.
Activiteiten in een pijplijn worden acties genoemd die u op uw gegevens uitvoert. Een activiteit kan nul of meer invoerdatasets hebben en een of meer uitvoerdatasets produceren.
Een voorbeeld van een actie kan het gebruik zijn van een kopieeractiviteit, waarbij u gegevens kopieert van een Azure SQL Database naar een Azure Data Lake Storage Gen2. Als u wilt voortbouwen op dit voorbeeld, kunt u een gegevensstroomactiviteit of een Azure Databricks Notebook-activiteit gebruiken voor het verwerken en transformeren van de gegevens die naar uw Azure Data Lake Storage Gen2-account zijn gekopieerd om de gegevens gereed te maken voor business intelligence-rapportageoplossingen zoals Microsoft Fabric.
Omdat er veel activiteiten mogelijk zijn in een pijplijn in Azure Data Factory, hebben we de activiteiten gegroepeerd in drie categorieën:
- Activiteiten voor gegevensverplaatsing: De kopieeractiviteit in Data Factory kopieert gegevens uit een brongegevensarchief naar een sinkgegevensarchief.
- Activiteiten voor gegevenstransformatie: Azure Data Factory ondersteunt transformatieactiviteiten zoals Gegevensstroom, Azure Function, Spark en andere activiteiten die kunnen worden toegevoegd aan pijplijnen, afzonderlijk of gekoppeld aan een andere activiteit.
- Controleactiviteiten: Voorbeelden van controlestroomactiviteiten zijn 'get metadata', 'For Each' en 'Execute Pipeline'.
Activiteiten kunnen van elkaar afhankelijk zijn. Wat we bedoelen, is dat de activiteitsafhankelijkheid bepaalt hoe volgende activiteiten afhankelijk zijn van eerdere activiteiten. De afhankelijkheid zelf kan worden gebaseerd op een voorwaarde om door te gaan met de uitvoering van eerdere gedefinieerde activiteiten om een taak te voltooien. Een activiteit die afhankelijk is van een of meer eerdere activiteiten, kan verschillende afhankelijkheidsvoorwaarden hebben.
De vier afhankelijkheidsvoorwaarden zijn:
- Geslaagd
- Mislukt
- Overgeslagen
- Voltooid
Als een pijplijn bijvoorbeeld een activiteit A heeft, gevolgd door een activiteit B en activiteit B heeft als afhankelijkheidsvoorwaarde dat activiteit A 'Geslaagd' is, dan wordt activiteit B alleen uitgevoerd als activiteit A de status van geslaagd heeft.
Als u meerdere activiteiten in een pijplijn hebt en volgende activiteiten niet afhankelijk zijn van eerdere activiteiten, kunnen de activiteiten parallel worden uitgevoerd.