Importer et interroger des données à l’aide du complément Azure Databricks Excel

Important

Cette fonctionnalité est disponible en préversion publique.

Note

Le complément Azure Databricks Excel n’est pas disponible dans les régions Azure Government ou Azure Chine.

Le complément Azure Databricks Excel connecte votre espace de travail Azure Databricks à Microsoft Excel, en apportant directement des données Lakehouse régies dans vos feuilles de calcul pour vous aider à passer des données aux décisions plus rapidement.

Cette page explique comment utiliser le complément Azure Databricks Excel pour importer et analyser des données à partir de Azure Databricks dans Excel. Vous pouvez parcourir et importer des tables Azure Databricks via une interface intuitive où aucune connaissance SQL n’est requise. Bien que le complément offre la possibilité d’exécuter des requêtes SQL personnalisées, il est facultatif.

Conditions préalables

Avant d’utiliser le complément Excel, vérifiez que vous l’avez configurez.

Sélectionner un entrepôt SQL

Choisissez l’entrepôt SQL à utiliser :

  1. En haut à droite du volet de complément Azure Databricks dans Excel, cliquez sur le menu déroulant.
  2. Sélectionnez l’entrepôt SQL que vous souhaitez utiliser.

Importer des données à partir de Azure Databricks

Importez des données à partir de Azure Databricks dans Excel en sélectionnant une table, en écrivant une requête SQL ou en important une table pivot.

Note

Vous pouvez importer des vues de métriques du catalogue Unity à l’aide de tableaux croisés dynamiques, de requêtes SQL et de fonctions personnalisées.

Créer des tableaux croisés dynamiques

Pour créer un tableau croisé dynamique à partir des tables et des vues Unity Catalog dans Excel :

  1. Dans le volet Azure Databricks Excel Complément, sous l’onglet New import , sélectionnez Select data comme méthode Import.

  2. Sous Catalogue, sélectionnez la table à partir de laquelle vous souhaitez créer un tableau croisé dynamique, puis cliquez sur Sélectionner.

  3. Cochez la case Données Pivot .

  4. Configurez vos lignes, colonnes, valeurs et filtres en fonction des besoins.

  5. (Facultatif) Pour afficher un exemple de l’importation, cliquez sur Aperçu.

  6. (Facultatif) Définissez une limite de lignes pour votre importation.

  7. Importez vos résultats. Choisissez l’un des éléments suivants :

    • Cliquez sur Savez et importez pour enregistrer la requête à réutiliser dans le classeur Excel et importer les résultats.
    • Cliquez sur la flèche vers le bas, puis cliquez sur Importer les résultats pour importer les résultats sans enregistrer la requête. Utilisez cette option lorsque vous souhaitez continuer à modifier une importation.

    Note

    Les tableaux croisés dynamiques ne peuvent être importés que dans une nouvelle feuille.

Lorsque vous utilisez des métriques du catalogue Unity dans des tableaux croisés dynamiques, vous pouvez voir Sum(measure) apparaître dans les résultats. Ce comportement est attendu et aucune agrégation supplémentaire ne se produit. Excel nécessite que les valeurs aient une fonction d’agrégation, mais parce que les données contiennent des valeurs uniques, aucune agrégation ne se produit.

Sélectionner des tables

Les données sont importées en tant qu’objet tableau Excel. Vous pouvez déplacer la table ou renommer la feuille, et le complément Excel actualise les données dans le nouvel emplacement.

Pour importer des données à partir d’une table Azure Databricks, procédez comme suit :

  1. Dans le volet Azure Databricks Excel Complément, sous l’onglet New import , sélectionnez Select data comme méthode Import.

  2. Choisissez une table à importer à partir de l’Explorateur de catalogues. Vous pouvez filtrer le catalogue par propriétaire, état de certification et autres propriétés à l’aide de l’icône Sliders.

  3. Cliquez sur Sélectionner.

  4. Sous Colonnes, cliquez sur la flèche vers le bas et désélectionnez les colonnes que vous ne souhaitez pas importer, ou laissez toutes les colonnes sélectionnées pour importer l’intégralité de la table.

  5. (Facultatif) Pour définir des filtres, cliquez en + regard de Filtres, sélectionnez la colonne à laquelle vous souhaitez appliquer un filtre, puis entrez votre condition de filtre. Pour obtenir la liste des filtres disponibles, consultez Filtres pris en charge.

    Pour les filtres qui nécessitent une valeur, vous pouvez effectuer l’une des opérations suivantes :

    • Entrez la valeur.
    • Pour générer une liste allant jusqu’à 75 valeurs de filtre distinctes que vous pouvez utiliser, cliquez sur Valeurs, puis Obtenez des valeurs de filtre. Cliquez sur la flèche vers le bas et sélectionnez une ou plusieurs valeurs dans la liste.
    • Pour utiliser une référence de cellule, cliquez sur Cellules, sélectionnez une cellule ou une plage de cellules, puis cliquez sur le bouton du curseur.

    Note

    Les valeurs de filtre ne peuvent pas contenir de virgule. Pour filtrer les valeurs qui contiennent des virgules, utilisez plutôt la méthode d’importation SQL Write

  6. (Facultatif) Pour afficher un exemple de l’importation, cliquez sur Aperçu.

  7. (Facultatif) Vous pouvez définir une limite de lignes pour restreindre le nombre de lignes importées.

  8. (Facultatif) Pour identifier facilement vos données importées, vous pouvez entrer un nom d’importation.

  9. Sous Destination de sortie, choisissez d’importer les données dans une nouvelle feuille ou la feuille active. Si vous importez dans la feuille active, les données commencent par la référence de cellule que vous entrez (par défaut A1).

  10. Importez vos résultats. Choisissez l’un des éléments suivants :

    • Cliquez sur Savez et importez pour enregistrer la requête à réutiliser dans le classeur Excel et importer les résultats.
    • Cliquez sur la flèche vers le bas, puis cliquez sur Importer les résultats pour importer les résultats sans enregistrer la requête. Utilisez cette option lorsque vous souhaitez continuer à modifier une importation.

Filtres pris en charge

Lorsque vous importez des données en sélectionnant une table, vous pouvez appliquer des filtres pour affiner les résultats. Le tableau suivant décrit chaque filtre disponible et son entrée attendue.

Filtrer Entrée attendue Description
IS NULL Aucun Recherche les lignes où la valeur de colonne est Null.
IS NOT NULL Aucun Recherche les lignes où la valeur de colonne n’est pas null.
EQUALS Un nombre ou une chaîne de texte Recherche les lignes où la valeur de colonne correspond exactement à la valeur spécifiée.
NOT EQUALS Un nombre ou une chaîne de texte Recherche les lignes où la valeur de colonne ne correspond pas à la valeur spécifiée.
IN Un ou plusieurs nombres ou chaînes de texte, séparés par des virgules Recherche les lignes où la valeur de colonne correspond à l’une des valeurs spécifiées.
NOT IN Un ou plusieurs nombres ou chaînes de texte, séparés par des virgules Recherche les lignes où la valeur de colonne ne correspond à aucune des valeurs spécifiées.
LIKE Un modèle utilisant % (n’importe quel caractère) et _ (caractère unique) comme caractères génériques.
%smith correspond à n’importe quelle valeur se terminant par « smith ».
t_p correspond à des valeurs telles que « tap », « tip » ou « top ».
Recherche les lignes où la valeur de colonne correspond au modèle. Respectent la casse.
NOT LIKE Un modèle utilisant % (n’importe quel caractère) et _ (caractère unique) comme caractères génériques.
%test% exclut les valeurs contenant « test ».
_at exclut les valeurs telles que « bat », « cat » ou « hat ».
Recherche les lignes où la valeur de colonne ne correspond pas au modèle. Respectent la casse.
ILIKE Un modèle utilisant % (n’importe quel caractère) et _ (caractère unique) comme caractères génériques.
%Smith correspond aux valeurs telles que « smith », « Smith » ou « SMITH ».
_ob correspond à « Bob », « rob », ou « Rob ».
Recherche les lignes où la valeur de colonne correspond au modèle. Insensible à la casse.
STARTS WITH Une chaîne de texte Recherche les lignes où la valeur de colonne commence par le texte spécifié.
ENDS WITH Une chaîne de texte Recherche les lignes où la valeur de colonne se termine par le texte spécifié.
CONTAINS Une chaîne de texte Recherche les lignes où la valeur de colonne contient le texte spécifié n’importe où dans la chaîne.

Écrire des requêtes SQL

La méthode d’importation Write SQL prend en charge les fonctions SQL et les procédures stockées.

Pour exécuter des requêtes SQL personnalisées sur votre espace de travail Azure Databricks, procédez comme suit :

  1. Dans le volet Azure Databricks Excel complément, sous l’onglet New import, sélectionnez Write SQL comme méthode Import.

  2. Entrez un nom pour votre requête pour l’identifier ultérieurement.

  3. Écrivez une nouvelle requête ou utilisez une requête existante à partir de votre espace de travail Azure Databricks.

    • Écrivez votre requête SQL dans l’éditeur. Vous pouvez interroger n’importe quelle table dans le catalogue Unity que vous avez les autorisations d’accès.

      • Cliquez sur l’icône Données. Explorateur de catalogues pour afficher vos schémas et tables.
    • Pour utiliser une requête à partir de votre espace de travail Azure Databricks ou d’une requête existante dans Excel, cliquez sur l'icône de dossier. Si vous utilisez une requête existante à partir de votre espace de travail Azure Databricks, les modifications apportées dans Excel ne sont pas reflétées sur Azure Databricks.

      Note

      Les requêtes doivent être enregistrées explicitement dans Azure Databricks à l’aide du bouton Save dans l’éditeur de requête avant d’apparaître dans Excel.

  4. (Facultatif) Pour ajouter des paramètres de requête, cliquez sur +Ajouter en regard des paramètres. Cliquez sur le paramètre et entrez le nom du paramètre et la valeur du paramètre.

    • Pour la valeur du paramètre, vous pouvez entrer une valeur spécifique ou cliquer sur la zone et le bouton flèche pour spécifier une référence de cellule. Sélectionnez une cellule ou une plage de cellules, puis cliquez sur la flèche pour remplir automatiquement la valeur du paramètre.
  5. Sous Destination de sortie, choisissez d’importer les données dans une nouvelle feuille ou la feuille active. Si vous importez dans la feuille active, les données commencent par la référence de cellule que vous entrez (par défaut A1).

  6. Pour afficher un aperçu des résultats de votre requête, cliquez sur Exécuter.

  7. Importez vos résultats. Choisissez l’un des éléments suivants :

    • Cliquez sur Savez et importez pour enregistrer la requête à réutiliser dans le classeur Excel et importer les résultats.
    • Cliquez sur la flèche vers le bas, puis cliquez sur Importer les résultats pour importer les résultats sans enregistrer la requête. Utilisez cette option lorsque vous souhaitez continuer à modifier une importation.

Vous pouvez également utiliser des fonctions personnalisées pour ajouter des paramètres de requête. Consultez Écrire SQL.

Utilisez des fonctions personnalisées dans Excel

Le complément Excel fournit des fonctions personnalisées que vous pouvez utiliser dans Excel formules pour importer des données à partir de Azure Databricks.

Sélectionner une table

La DATABRICKS.Table fonction importe des données à partir d’une table de catalogue Unity.

Syntaxe :

=DATABRICKS.Table(catalog_name.schema_name.table_name, [column1, ...], [limit])

Paramètres :

  • catalog_name.schema_name.table_name (obligatoire) : nom complet de la table.
  • columns (facultatif) : tableau de noms de colonnes à importer. Omettez ce paramètre pour importer toutes les colonnes.
  • limit (facultatif) : nombre maximal de lignes à importer. Omettez ce paramètre pour importer toutes les lignes, jusqu’à la limite de 10 Mo.

Exemple :

=DATABRICKS.Table("main.default.customers", {"customer_id", "customer_name"}, 100)

Cette formule importe les colonnes customer_id et customer_name de la table main.default.customers, limitées à 100 lignes.

Écrire SQL

La DATABRICKS.SQL fonction exécute une requête SQL qui utilise des paramètres de requête et retourne les résultats.

Syntaxe :

Spécifiez des paramètres à l’aide de valeurs.

=DATABRICKS.SQL("query_text", {parameter1_name, parameter1_value; ...})

Spécifiez des paramètres à l’aide d’une plage de cellules. Les paramètres nom et valeur doivent être définis dans les cellules qui se trouvent dans la même ligne.

=DATABRICKS.SQL("query_text", {param_name_cell: param_value_cell; ...})

Paramètres :

  • query_text (obligatoire) : requête SQL à exécuter.
  • parameters (obligatoire) : mappage des valeurs de paramètre à remplacer dans la requête.

Exemple :

=DATABRICKS.SQL("SELECT * FROM samples.bakehouse.sales_suppliers WHERE longitude > :long_param AND latitude > :lat_param LIMIT 10", {"long_param",20; "lat_param",10})

=DATABRICKS.SQL("SELECT * FROM samples.bakehouse.sales_suppliers WHERE city = :city", M4:N4)

Cette formule exécute une requête qui filtre les données de vente en fonction de longitude et de latitude, à l’aide des valeurs de paramètre fournies.

Gérer les requêtes

Gérez vos importations existantes à partir de la page Importations.

Modifier une importation existante

Pour modifier une importation existante :

  1. Dans le volet complémentaire Azure Databricks dans Excel, cliquez sur l'onglet Imports.
  2. Recherchez l’importation à modifier.
  3. Cliquez sur le menu à trois points à côté de l'importation.
  4. Cliquez sur Modifier pour modifier votre importation.

Actualiser les données

Le complément Excel n’actualise pas automatiquement les données importées. Pour mettre à jour vos données avec les dernières valeurs de Azure Databricks :

  • Pour actualiser une seule importation, procédez comme suit :
    1. Dans le volet complémentaire Azure Databricks dans Excel, cliquez sur l'onglet Imports.
    2. Cliquez sur l’icône Actualiser à côté de l’importation que vous souhaitez actualiser.
  • Pour actualiser toutes les importations, procédez comme suit :
    1. Cliquez sur Refresh All dans le volet du complément Azure Databricks.

Le complément exécute à nouveau la requête ou la sélection de table d’origine et met à jour votre feuille de calcul avec de nouvelles données.

Important

Lors de l’actualisation des données, le complément Excel efface toutes les données existantes de la table spécifiée et recharge les données les plus récentes de Azure Databricks. Toutes les colonnes personnalisées que vous avez ajoutées à la table sont supprimées pendant le processus d’actualisation.

Implications du partage

Lorsque vous partagez un classeur Excel qui contient des données Azure Databricks, tenez compte des implications suivantes en matière d’accès aux données et de sécurité :

Visibilité des données importées

Lorsqu’un destinataire actualise une importation, le complément utilise les autorisations du catalogue Unity du destinataire. S’ils n’ont pas accès aux données sous-jacentes, l’actualisation échoue.

Pour les classeurs où la confidentialité des données est un problème, vous pouvez utiliser la solution de contournement suivante :

  1. Créez un classeur avec toutes les formules et imports nécessaires.
  2. Supprimez les données importées de la feuille.
  3. Partagez le classeur avec le destinataire.
  4. Demandez au destinataire de rafraîchir les données.

Le destinataire voit uniquement les données auxquels ils ont accès en fonction de leurs autorisations de catalogue Unity.

Accès aux espaces de travail et aux ressources de données

  • Les utilisateurs sans accès aux objets catalogue Unity référencés dans le classeur ne peuvent pas actualiser les données. Pour actualiser les données, les utilisateurs doivent disposer d’autorisations de lecture sur les tables et vues sous-jacentes dans le catalogue Unity.
  • Les utilisateurs doivent avoir accès à la table sous-jacente dans Azure Databricks pour modifier les importations existantes.

Visibilité des requêtes

Les utilisateurs disposant d'un accès modifié au classeur peuvent afficher les requêtes utilisées pour générer les données via le complément Azure Databricks, même s'ils n'ont pas accès aux données sous-jacentes dans le catalogue Unity.

Limites

  • Fonctions personnalisées : Pour les fonctions personnalisées, les résultats des requêtes sont limités à 25 Mio en raison des limitations de l’API d’exécution SQL.
  • Chargement des données : le chargement des données peut échouer si une cellule du classeur est en mode édition.
  • Limite de lignes d'Excel Desktop : Excel Desktop prend en charge un maximum de 1 048 576 lignes par feuille.
  • Excel pour le web limite de taille de fichier : Excel pour le web prend en charge une taille maximale de fichier de classeur d’environ 25 Mo pour l’affichage et la modification.