Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Les volumes sont des objets catalogue Unity qui régissent l’accès aux données non tabulaires. Ils fournissent une couche logique sur le stockage d’objets cloud afin de pouvoir stocker, organiser et gérer des fichiers avec une gouvernance centralisée.
Pour obtenir une documentation complète sur les volumes, consultez Qu’est-ce que les volumes catalogue Unity ?.
Unity Catalog prend en charge deux types de volumes :
- Volumes managés : Azure Databricks gère le cycle de vie et l’emplacement de stockage cloud
- Volumes externes : Vous contrôlez l’emplacement et le cycle de vie du stockage cloud
Que pouvez-vous faire avec les volumes de catalogue Unity ?
Vous pouvez effectuer des opérations de gestion de fichiers avec des volumes à l’aide de plusieurs interfaces et outils :
- Chargez, téléchargez et parcourez les fichiers dans l’Explorateur de catalogues. Consultez Qu’est-ce que Catalog Explorer ?.
- Pour charger des fichiers locaux dans un volume, consultez Travailler avec des fichiers dans les volumes du Unity Catalog.
- Pour télécharger des fichiers à partir d’Internet dans un volume, consultez Télécharger des données à partir d’Internet.
- Lire et écrire des données par programmation à l’aide d’Apache Spark, pandas ou SQL. Consultez Programmatiquement travailler avec des fichiers dans des volumes.
- Gérez les fichiers à l’aide de
dbutils.fs, de commandes magiques ou de commandes shell bash. Consultez les commandes utilitaires pour les fichiers dans les volumes.
Vous pouvez utiliser des volumes avec des fonctionnalités Databricks qui nécessitent un chemin d’accès au système de fichiers. Les volumes vous donnent un chemin régi qui fonctionne de manière cohérente entre les utilisateurs et les espaces de travail. Par exemple:
- Ingestion de données : utilisez des volumes comme emplacement source pour l’ingestion de données. Commencez à partir de fichiers dans un volume et les ingérer dans des tables à l’aide des éléments suivants :
-
COPY INTO: chargez des fichiers à partir d’un volume dans une table à l’aide de SQL. VoirCOPY INTO. - Chargeur automatique : ingestion incrémentale des nouveaux fichiers qui arrivent dans un répertoire de volume vers une table. Consultez Qu’est-ce que Auto Loader ?.
- API de lecture Spark : utilisez des API de lecture Spark (par exemple
spark.read.load) pour charger des fichiers à partir d’un chemin d’accès de volume dans un DataFrame et les écrire dans une table. Consultez Programmatiquement travailler avec des fichiers dans des volumes. - Interface utilisateur Databricks : créez une table directement à partir de fichiers stockés dans un volume. Consultez Créer une table à partir de données dans un volume.
-
- Livraison des journaux de calcul : configurez la livraison des journaux de calcul pour enregistrer les journaux dans un chemin d’accès au volume, afin que l’accès aux journaux soit régi par le Catalogue Unity. Consultez Livraison du journal de calcul.
- Déclencheurs d’arrivée de fichier : utilisez des déclencheurs d’arrivée de fichier pour démarrer les travaux Lakeflow lorsque de nouveaux fichiers arrivent dans un volume. Consultez Déclencher des travaux lorsque de nouveaux fichiers arrivent.
- Bibliothèques de cluster : installez des bibliothèques de cluster à partir d’un volume (JARs, roues),
requirements.txtde sorte que l’accès aux bibliothèques est régi par le catalogue Unity. Consultez Installer des bibliothèques à partir d’un volume. - Scripts d'initialisation : Stockez et exécutez des scripts d'initialisation à l'échelle du cluster à partir d’un volume, de sorte que l’accès aux scripts d'initialisation soit régi par Unity Catalog. Consultez Scripts d'initialisation à l'échelle du cluster.
- Artefacts d’expérience ML : Stocker les artefacts d’expérience ML (modèles, métriques et fichiers de sortie) dans un volume afin que l'accès aux sorties des expériences MLflow soit régi par le catalogue Unity. Consultez Organiser des exécutions de formation avec des expériences MLflow.