Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Important
Cette fonctionnalité est disponible en préversion publique.
Lakeflow Designer vous permet de créer des flux de travail de transformation de données sur un canevas visuel, glisser-déplacer. Cette page explique comment créer une préparation de données visuelles — de l'ajout d'une source de données et du chaînage d'opérateurs à l'aperçu des résultats et à l'écriture dans le Unity Catalog.
Pour générer une préparation visuelle des données :
- Vérifier la configuration requise
- Créer une préparation des données visuelles
- Ajouter une source de données
- Ajouter et configurer des opérateurs
- Opérateurs de connexion
- Aperçu des résultats
- Écrire des résultats dans le catalogue Unity
- Planifier ou exécuter en production
Exigences
Pour utiliser Lakeflow Designer, vous devez disposer des éléments suivants :
- Un espace de travail Azure Databricks avec Unity Catalog activé.
-
CAN USEautorisation pour au moins une ressource de calcul (soit serverless, soit à usage général). - Azure Databricks fonctionnalités d'IA d'assistance activées. Si un modèle n’est pas disponible dans votre région, vous devrez peut-être également activer le traitement intergéographique.
Créer une préparation des données visuelles
Pour créer une préparation des données visuelles, cliquez sur Nouveautés de la barre latérale et sélectionnez Préparation des données visuelles.
Le concepteur s’ouvre avec un écran d’accueil dans lequel vous pouvez ajouter une source de données ou explorer un exemple de préparation visuelle des données.
Ajouter une source de données
Chaque flux de travail concepteur commence par une ou plusieurs sources de données. L’opérateur Source représente une source de données sur le canevas.
Pour ajouter une source de données :
- Ajoutez un opérateur Source. Dans l’écran d’accueil, cliquez sur Sélectionner l’opérateur source. Dans le canevas, ouvrez le menu opérateur et sélectionnez Source.
- Dans le volet De configuration source, choisissez comment importer vos données. Vous pouvez rechercher une table existante, charger un fichier CSV ou Excel local, créer une table à partir d’un fichier ou importer à partir de Google Drive ou SharePoint.
- Sélectionnez ou configurez votre source de données. L’opérateur Source apparaît sur le canevas.
Vous pouvez également faire glisser-déplacer un fichier CSV ou Excel directement sur le canevas pour créer rapidement un opérateur source.
Pour modifier la source ultérieurement, ouvrez l’opérateur Source et cliquez sur Sélectionner une nouvelle source de données. La modification de la source invalide le cache de sortie pour tous les opérateurs en aval.
Pour plus d’informations sur chaque option d’ingestion, consultez Ingestion de données dans Lakeflow Designer.
Ajouter et configurer des opérateurs
Pour ajouter un opérateur, ouvrez le menu opérateur dans le volet latéral sur le côté gauche du canevas. Cliquez sur un opérateur pour l’ajouter au canevas ou faites glisser un opérateur du menu vers le canevas. Vous pouvez également cliquer sur le + bouton en regard de n’importe quel opérateur existant pour ajouter un nouvel opérateur avec une connexion automatique.
Pour configurer un opérateur, double-cliquez dessus ou maintenez le pointeur dessus, puis cliquez sur (Opérateur Modifier) pour ouvrir le volet de configuration. Définissez les options de ce type d’opérateur, puis cliquez sur Appliquer.
Pour plus d’informations sur chaque opérateur disponible, consultez les opérateurs intégrés dans Lakeflow Designer.
Opérateurs de connexion
Pour connecter deux opérateurs, cliquez et faites glisser de la poignée de sortie (le petit cercle sur le bord droit d’un opérateur) vers la poignée d’entrée (le petit cercle sur le bord gauche de l’opérateur suivant). Cela spécifie que les données circulent du premier opérateur dans la seconde. Les flux de données vont de gauche à droite via la préparation visuelle des données.
Certains opérateurs, tels que Join and Combine, acceptent plusieurs entrées.
Utiliser le code Genie
À tout moment lors de la modification dans Lakeflow Designer, vous pouvez créer des commandes vers Genie Code afin d'obtenir de l'aide.
Lorsque vous utilisez Genie Code, les boutons suivants fournissent des fonctionnalités supplémentaires :
-
: charge une image à utiliser dans le cadre de l’invite.
-
: Utilisez pour mentionner des objets, tels que des tables ou des fichiers, à utiliser comme partie du message d'invite.
-
: démarre un nouveau thread de conversation avec un nouveau contexte d’agent.
-
: Ouvre le panneau latéral de l’historique des conversations et une vue plus détaillée de ce que fait l’agent.
Aperçu des résultats
Sélectionnez n’importe quel opérateur pour afficher les résultats dans le volet de sortie en bas de l’écran. Pour la plupart des types d’opérateurs, les données d’entrée se situent à gauche et les données de sortie se situent à droite.
Par défaut, les opérateurs s’exécutent sur un échantillon des données de jusqu’à 1 000 lignes. Pour s’exécuter avec le jeu de données complet, cliquez sur Exemple de jeu de données dans le volet de sortie et basculez vers le jeu de données complet.
Avertissement
L’exécution avec le jeu de données complet réexécute tous les opérateurs en amont avec le jeu de données complet, illimité et cela peut prendre beaucoup de temps.
Profilage des données
Dans le volet de sortie, vous pouvez choisir d’afficher les détails des données dans votre sortie. Dans le coin supérieur droit du volet de sortie, choisissez Bouton de barre latérale pour ouvrir les détails de la sélection. Sélectionnez un sous-ensemble de vos données pour afficher des détails sur votre sélection.
Écrire des résultats dans le catalogue Unity
Ajoutez un opérateur de sortie pour écrire vos résultats dans une table dans le catalogue Unity :
- Ouvrez le menu opérateur et sélectionnez Sortie, ou cliquez à côté de votre dernier opérateur et sélectionnez Sortie.
- Connectez le handle de sortie de votre dernière transformation au handle d’entrée de l’opérateur de sortie s’il n’est pas déjà connecté.
- Double-cliquez sur l’opérateur Sortie pour ouvrir son volet de configuration.
- Tapez un nom de table et sélectionnez l’emplacement de sortie (catalogue et schéma).
- Cliquez sur Exécuter.
Planifier ou exécuter en production
Vous pouvez automatiser vos flux de travail en les planifiant en tant que travaux.
- Planifier directement : cliquez sur le bouton Planifier dans le menu supérieur pour créer un travail planifié pour votre préparation des données visuelles.
- Add à un travail : créez un travail Azure Databricks et choisissez la préparation des données visuelles du Concepteur en tant que tâche. Cela vous permet de combiner cette préparation des données visuelles avec d’autres tâches dans un pipeline plus grand.
Conseils supplémentaires lors de l’utilisation du canevas
Les actions suivantes sont disponibles sur le canevas pour vous aider à modifier votre préparation des données visuelles.
- Renommer un opérateur : cliquez sur le champ de texte en haut de n’importe quel volet de configuration pour renommer l’opérateur. Les noms descriptifs facilitent la préparation de vos données visuelles en un clin d’œil. Certains opérateurs, tels que l’opérateur SQL, peuvent référencer la sortie d’autres opérateurs par nom.
-
Copiez un opérateur : maintenez le pointeur sur un opérateur et cliquez sur
Ou sélectionnez un opérateur, puis appuyez sur Cmd/Ctrl+C , puis Cmd/Ctrl+V.
-
Disposition automatique : cliquez sur
Dans la barre d’outils inférieure gauche pour organiser automatiquement tous les opérateurs dans une disposition compacte.
-
Mode Ajuster : Cliquez sur
dans la barre d’outils en bas à gauche pour afficher tous les opérateurs dans la zone de visualisation actuelle.
- Annuler et rétablir : appuyez sur Cmd/Ctrl+Z et Cmd/Ctrl+Maj+Z, ou utilisez les boutons dans la barre d’outils supérieure.