Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Important
Cette fonctionnalité est disponible en préversion publique.
Lakeflow Designer inclut des opérateurs intégrés pour les tâches courantes de préparation et de transformation des données. Ouvrez le menu opérateur dans le volet latéral de gauche pour parcourir les opérateurs par catégorie, ou utilisez Rechercher un opérateur... en haut du panneau. Pour ouvrir le volet de configuration d’un opérateur après l’avoir ajouté au canevas, double-cliquez dessus ou maintenez le pointeur dessus, puis cliquez sur (Opérateur Modifier).
Source et sortie
Source
Importe des données dans le Concepteur. L’opérateur Source lit à partir d’une table de catalogue Unity ou d’autres sources prises en charge. Il comporte deux étapes :
- Sélection d’une table ou d’un fichier : recherchez une table ou un fichier par nom, ou parcourez le catalogue et le schéma. Vous pouvez également créer une table à partir de ce volet.
- Résumé du tableau : après avoir sélectionné une table, le volet de configuration affiche le nom, le propriétaire et l’heure de la dernière mise à jour de la table. Cliquez sur Sélectionner une nouvelle source de données pour modifier la source. La modification de la source invalide le cache de sortie pour tous les opérateurs en aval.
Pour obtenir la plage complète d’options d’ingestion de données, consultez Ingestion de données dans Lakeflow Designer.
Sortie
Exporte des données hors du Concepteur en écrivant des résultats dans une table dans le catalogue Unity.
Dans le volet Configuration de sortie, spécifiez :
- Nom de la table : nom de la table à créer.
- Emplacement de sortie : catalogue et schéma où la table est créée.
Cliquez sur Exécuter pour exécuter la préparation des données visuelles et écrire des résultats.
FONCTION IA
Exécute une opération IA intégrée sur vos données. Dans le volet de configuration, ouvrez Sélectionner une fonction et choisissez l’une des fonctions ci-dessous. Chaque fonction expose des options dans le volet pour les entrées (par exemple, les colonnes, les invites, les étiquettes ou les langues) et les sorties.
| Function | Description |
|---|---|
ai_analyze_sentiment |
Effectue une analyse des sentiments sur le texte d’entrée. |
ai_classify |
Classifie le texte ou les documents analysés à l’aide d’étiquettes que vous fournissez. |
ai_extract |
Extrait des données structurées à partir de documents texte ou analysés à l’aide de champs que vous définissez. |
ai_fix_grammar |
Corrige les erreurs grammaticales dans le texte. |
ai_gen |
Répond à une invite fournie par l’utilisateur par rapport à l’entrée. |
ai_mask |
Masque les entités spécifiées dans le texte (par exemple, pour la dé-identification). |
ai_similarity |
Compare deux chaînes et retourne un score de similarité sémantique. |
ai_summarize |
Génère un résumé du texte. |
ai_translate |
Traduit du texte dans une langue cible que vous spécifiez. |
Transformations
Les opérateurs suivants effectuent des transformations sur vos données.
Aggregate
Résume les lignes en regroupant les données et en calculant les valeurs d’agrégation.
- Agréger par : sélectionnez une colonne, choisissez une fonction d’agrégation et fournissez un nom pour la colonne de sortie. Cliquez sur + Ajouter une agrégation pour en ajouter d’autres.
- Regrouper par : sélectionnez les colonnes à regrouper. Cliquez sur + Ajouter un regroupement pour en ajouter d’autres.
Fonctions d’agrégation prises en charge : AVG, COUNT, MAX, MEAN, MEDIAN, MIN, PERCENTILE, STDDEV, SUM, VARIANCE.
Note
Les colonnes utilisées dans Group by sont automatiquement incluses dans la sortie.
Combinaison
Fusionne les données de deux tables avec des schémas correspondants en une seule sortie.
- Définir l’opération : choisissez Union, Intersect ou Except.
- Stratégie de fusion : choisissez Distinct pour exclure les lignes dupliquées de la sortie, ou Toutes pour conserver toutes les lignes, y compris les doublons.
Filtrer
Sélectionne les lignes correspondantes en conservant uniquement les lignes qui répondent à une ou plusieurs conditions, à l’aide d’un générateur de conditions graphique. Pour chaque condition, sélectionnez une colonne, un type de condition et une valeur à mettre en correspondance conditionnellement.
Types de conditions pris en charge :
- Est égal à / N’est pas égal à
- Est l’un des / n’est pas l’un des
- Contains / Ne contient pas
- Commence par / Ne commence pas par
- Se termine par / Ne se termine pas par
- Supérieur à / Inférieur à
- Est null / n’est pas null
Join
Lie deux tables sur une clé en combinant deux jeux de données d’entrée en fonction des valeurs de colonne correspondantes.
Pour configurer une jointure :
- Sélectionnez les deux tables d’entrée à joindre.
- Spécifiez au moins une condition de jointure en sélectionnant les colonnes correspondantes dans les deux tables. Cliquez sur + Ajouter une expression de jointure pour ajouter d’autres conditions.
- Sélectionnez le type de jointure : jointure complète, jointure interne, jointuregauche ou jointure droite.
- Facultatif : choisissez les colonnes à inclure dans la sortie. Par défaut, toutes les colonnes des deux tables sont incluses. Les noms de colonnes en double reçoivent un préfixe de nom de table.
- Facultatif : ajoutez des colonnes d’expression personnalisée en fonction du résultat joint.
Limit
Limite le nombre de lignes en passant uniquement jusqu’au nombre maximal de lignes que vous spécifiez.
Ajouter un tableau croisé dynamique
Remodele les données tabulaires dans deux directions. Utilisez les onglets en haut du volet de configuration pour choisir le mode :
- Lignes → Colonnes (pivot) : transformez des valeurs distinctes dans une colonne en nouveaux en-têtes de colonne et remplissez ces colonnes avec des valeurs agrégées d’une autre colonne.
- Colonnes → lignes (unpivot) : pliez une ou plusieurs colonnes en lignes ; définissez les noms des colonnes clé et valeur de sortie.
Dans les lignes → mode Colonnes :
- Colonne pivot : choisissez la colonne dont les valeurs distinctes deviennent les nouveaux en-têtes.
- Valeur &agrégation : choisissez la colonne dont les valeurs remplissent les cellules pivotées, puis sélectionnez une fonction d’agrégation (par exemple, SUM, AVG, COUNT, MIN ou MAX). Configurez la façon dont les valeurs manquantes sont gérées (par exemple, null ou zéro), si elles sont disponibles dans le volet.
Dans Colonnes → mode Lignes , sélectionnez les colonnes à dissocier et configurez les noms des colonnes clé et valeur de sortie.
Inclure des colonnes : utilisez la table pour choisir les colonnes qui restent dans la sortie en même temps que les valeurs pivotées ou non pivotées (et pour supprimer les colonnes dont vous n’avez pas besoin avant la transformation). Le concepteur déduit les colonnes fixes (regroupement) des colonnes que vous n’affectez pas aux rôles pivot, valeur ou non croisé dynamique.
Trier
Commande des lignes sur une ou plusieurs colonnes. Pour chaque colonne, choisissez ASC (croissant) ou DESC (décroissant). Cliquez sur + Ajouter une expression de tri pour trier par des colonnes supplémentaires. Le tri suit l’ordre lexical standard.
SQL
Écrit du code SQL personnalisé pour toute transformation non couverte par les autres opérateurs.
Tapez une instruction SQL SELECT dans l’éditeur. Pour référencer la sortie d’un opérateur d’entrée, utilisez le nom de cet opérateur comme nom de table dans votre requête. Par exemple:
SELECT COUNT(*)
FROM aggregate_2
WHERE 1 = 1
Cliquez sur Dans l’éditeur, ouvrez le volet de code SQL complet et découvrez comment votre instruction s’intègre dans le flux de travail complet.
Transform
Sélectionne, crée ou transforme des colonnes à partir des données d’entrée.
Dans le volet De configuration de transformation :
- Inclure ou exclure des colonnes : utilisez les cases à cocher pour choisir les colonnes qui passent à la sortie. Cochez la case d’en-tête pour sélectionner toutes les colonnes ou désactivez la sélection.
- Renommer une colonne : tapez un nouveau nom dans le champ Renommer en regard de n’importe quelle colonne.
- Réorganiser les colonnes : faites glisser la poignée sur le côté gauche d’une ligne pour modifier l’ordre des colonnes.
- Ajouter une colonne personnalisée : Cliquez + Ajouter une colonne personnalisée pour ouvrir l’éditeur d’expression. Voir ci-dessous.
Colonnes personnalisées
L’éditeur d’expressions vous permet de définir de nouvelles colonnes à l’aide d’un langage naturel ou d’un code. L’éditeur a deux zones d’entrée et est bidirectionnel :
- Description : Tapez une description du langage naturel de ce que vous souhaitez que la colonne fasse. Le concepteur utilise Genie pour générer l’expression de code correspondante ci-dessous.
- Expression : si vous préférez écrire ou modifier du code directement, cliquez sur le bouton Modifier l’expression. La modification de l’expression génère automatiquement une description du langage naturel.
Pour supprimer une colonne personnalisée, maintenez le pointeur sur sa ligne, puis cliquez sur
Python
Exécute des Python personnalisés (PySpark) sur les données d’entrée. Votre code reçoit des jeux de données en amont en tant que DataFrames Spark et doit affecter un seul DataFrame à result, ce qui devient la sortie de cet opérateur. Utilisez le volet de configuration pour connecter des entrées et passer en revue les options que l’éditeur fournit.
inputs["data"] est une liste de DataFrames d’entrée, dans l’ordre en amont. Le volet détails de l’opérateur affiche les noms de chaque entrée, dans l’ordre. Par exemple : Available inputs: inputs["data"][0] (customers), inputs["Data"][1] (sales).
Un modèle minimal consiste à utiliser la première entrée lorsqu’elle est présente ou à un DataFrame vide dans le cas contraire :
# inputs["data"] is a list of input DataFrames
result = inputs["data"][0] if inputs["data"] else spark.createDataFrame([], "col: string")
À partir de là, vous pouvez chaîner des opérations dataFrame (par exemple, select, , filterwithColumnou jointures) result avant la fin de l’affectation, ou remplacer result par un nouveau DataFrame créé à partir de inputs["data"].
Organisation
Note
Ajoute une note sur le canevas pour vous permettre de documenter le flux de travail lui-même : son objectif, ses hypothèses, ses mises en garde ou son contexte de transfert pour toute personne qui ouvre la préparation des données visuelles ultérieurement. Le contenu de la note prend en charge Markdown, ce qui vous permet d’utiliser des titres, des listes, des liens et de l’accentuation où le texte brut n’est pas suffisant. Les notes n’affectent pas la façon dont les données transitent par les opérateurs.
Group
Regroupe visuellement des opérateurs sur le canevas sans modifier la façon dont les données circulent entre elles, ce qui est utile lorsqu’une préparation des données visuelles augmente ou que vous souhaitez refléter les étapes logiques.
Pour générer un groupe :
- Faire glisser des opérateurs dans un groupe : faites glisser un ou plusieurs opérateurs sur un groupe pour les ajouter.
- Créez un groupe à partir d’une sélection : sélectionnez un ou plusieurs opérateurs, ouvrez le menu contextuel (clic droit) et choisissez Créer un groupe pour encapsuler la sélection dans un nouveau groupe.
Une fois que les opérateurs se trouvent dans un groupe, vous pouvez donner au groupe un nom descriptif et le réduire ou le développer pour afficher ou masquer son contenu sur le canevas.