Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Den här artikeln introducerar dlt-meta, ett Databricks Labs-projekt som innehåller verktyg för att generera pipelines från metadata som du underhåller.
Anmärkning
Dlt-metaprojektet med öppen källkod, precis som alla projekt i GitHub-kontot för databrickslabs, finns endast i utforskningssyfte. Azure Databricks stöder det inte eller tillhandahåller serviceavtal (SLA) för det. Skicka inte in Azure Databricks-supportärenden för problem som rör det här projektet. Skapa i stället ett GitHub-problem, som kommer att granskas när tiden tillåter.
Vad är dlt-meta?
Med Lakeflow Spark Deklarativa pipelines kan du deklarativt ange en tabell och generera ett flöde i en pipeline som både skapar tabellen och håller den uppdaterad när källdata ändras. Men om din organisation har hundratals tabeller är det tidskrävande att generera och hantera dessa pipelines, vilket kan leda till inkonsekventa metoder.
Projektet dlt-meta är ett metadatadrivet metaprogrammeringsramverk som är utformat för att fungera med Lakeflow Spark Deklarativa Pipelines. Det här ramverket möjliggör automatisering av brons- och silverdatapipelines genom att använda metadata som registrerats i en uppsättning JSON- och YAML-filer. DLT-metamotorn använder Python-kod för att dynamiskt generera pipelinekod för de flöden som beskrivs i dina metadata. Du genererar metadata om dina pipelines och dlt-meta genererar dina pipelines.
Med logiken centraliserad på ett ställe (metadata) är systemet snabbare, återanvändbart och enklare att underhålla.
Anmärkning
Dlt-meta-projektet namngavs för den äldre Delta Live Tables-funktionen i Azure Databricks. Delta Live Tables har ersatts av Lakeflow Spark Declarative Pipelines och dlt-meta fungerar med Lakeflow Spark Declarative Pipelines.
Fördelar med dlt-meta
Det finns två huvudsakliga användningsfall för dlt-meta:
- Mata in och rensa ett stort antal tabeller helt enkelt.
- Framtvinga datateknikstandarder för flera pipelines och användare.
Fördelarna med att använda en metadatadriven metod är:
- Att underhålla metadata kan göras utan kunskap om Python- eller SQL-kod.
- Att underhålla metadata i stället för koden kräver mindre omkostnader och minskar felen.
- Koden genereras av dlt-meta, så den förblir konsekvent och har mindre anpassad kod över pipelines och publicerade tabeller.
- Du kan enkelt gruppera tabeller i pipelines i metadata, vilket genererar det antal pipelines som behövs för att mest effektivt uppdatera dina data.
Hur fungerar det?
Följande bild visar en översikt över dlt-metasystemet:
- Du skapar metadatafilerna som indata till dlt-meta för att ange källfiler och utdata, kvalitetsregler och nödvändig bearbetning.
- DLT-metamotorn kompilerar registreringsfilerna till en dataflödesspecifikation, kallad DataflowSpec och lagrar den för senare användning.
- DLT-metamotorn använder DataflowSpec för att skapa pipelines som genererar dina bronstabeller. Detta använder dina metadatafiler för att läsa källdata och tillämpa rätt dataförväntningar för att matcha dina kvalitetsregler.
- DLT-metamotorn använder sedan DataflowSpec för att skapa ytterligare pipelines som genererar dina silvertabeller. Detta använder dina metadatafiler för att tillämpa lämpliga transformeringar och annan bearbetning för systemet.
Du kör pipelines som genereras av dlt-meta för att hålla utdata aktuella när dina källdata uppdateras.
Hur kommer jag igång?
Om du vill använda dlt-meta måste du:
- Distribuera och konfigurera dlt-meta-lösningen.
- Förbered metadata för tabellerna brons och silver.
- Skapa ett jobb för att registrera metadata.
- Använd metadata för att skapa pipelines för dina tabeller.
Dokumentationen om dlt-meta på GitHub innehåller en självstudiekurs som hjälper dig att komma igång med den här processen. Mer information finns i Komma igång med dlt-meta på GitHub.