Informations de référence sur le développeur de pipelines

Cette section contient des informations de référence et des instructions pour les développeurs de pipelines.

Le chargement et les transformations des données sont implémentés dans des pipelines par des requêtes qui définissent des tables de streaming et des vues matérialisées. Pour implémenter ces requêtes, Lakeflow Spark Declarative Pipelines prend en charge les interfaces SQL et Python. Étant donné que ces interfaces fournissent des fonctionnalités équivalentes pour la plupart des cas d’usage de traitement des données, les développeurs de pipelines peuvent choisir l’interface avec laquelle ils sont les plus à l’aise.

développement Python

Créez des pipelines à l’aide du code Python.

Sujet Descriptif
Développer le code de pipeline avec Python Vue d’ensemble du développement de pipelines dans Python.
Lakeflow Spark Declarative Pipelines Python référence de langage Documentation de référence de Python pour le module pipelines.
Gérer les dépendances Python pour les pipelines Instructions pour la gestion des bibliothèques Python dans les pipelines.
Importer des modules Python à partir de dossiers Git ou de fichiers d’espace de travail Instructions d’utilisation de modules Python que vous avez stockés dans Azure Databricks.

Développement SQL

Créez des pipelines à l’aide du code SQL.

Sujet Descriptif
Développer du code de pipelines déclaratifs Spark Lakeflow avec SQL Vue d’ensemble du développement de pipelines dans SQL.
Informations de référence sur le langage SQL de pipeline Documentation de référence sur la syntaxe SQL pour les pipelines déclaratifs Spark Lakeflow.
Utiliser des pipelines dans Databricks SQL Utilisez Databricks SQL pour utiliser des pipelines.

Autres rubriques de développement

Les sujets suivants décrivent d’autres méthodes pour développer des pipelines.

Sujet Descriptif
Convertir un pipeline en projet groupé Convertissez un pipeline existant en offre groupée, ce qui vous permet de gérer votre configuration de traitement des données dans un fichier YAML contrôlé par la source pour faciliter la maintenance et les déploiements automatisés dans les environnements cibles.
Métaprogrammation avec des pipelines déclaratifs Lakeflow Spark Créez des pipelines avec dlt-meta. Utilisez la bibliothèque open source dlt-meta pour automatiser la création de pipelines avec une infrastructure basée sur les métadonnées.
Tutoriel : Créer plusieurs flux avec différents paramètres. Créez plusieurs flux dans une boucle dans Python.
Développer du code de pipeline dans votre environnement de développement local Vue d’ensemble des options de développement de pipelines localement.