Qu’est-ce que les volumes ?

Les volumes sont des objets catalogue Unity qui régissent l’accès aux données non tabulaires. Ils fournissent une couche logique sur le stockage d’objets cloud afin de pouvoir stocker, organiser et gérer des fichiers avec une gouvernance centralisée.

Pour obtenir une documentation complète sur les volumes, consultez Qu’est-ce que les volumes catalogue Unity ?.

Unity Catalog prend en charge deux types de volumes :

  • Volumes managés : Azure Databricks gère le cycle de vie et l’emplacement de stockage cloud
  • Volumes externes : Vous contrôlez l’emplacement et le cycle de vie du stockage cloud

Que pouvez-vous faire avec les volumes de catalogue Unity ?

Vous pouvez effectuer des opérations de gestion de fichiers avec des volumes à l’aide de plusieurs interfaces et outils :

Vous pouvez utiliser des volumes avec des fonctionnalités Databricks qui nécessitent un chemin d’accès au système de fichiers. Les volumes vous donnent un chemin régi qui fonctionne de manière cohérente entre les utilisateurs et les espaces de travail. Par exemple:

  • Ingestion de données : utilisez des volumes comme emplacement source pour l’ingestion de données. Commencez à partir de fichiers dans un volume et les ingérer dans des tables à l’aide des éléments suivants :
  • Livraison des journaux de calcul : configurez la livraison des journaux de calcul pour enregistrer les journaux dans un chemin d’accès au volume, afin que l’accès aux journaux soit régi par le Catalogue Unity. Consultez Livraison du journal de calcul.
  • Déclencheurs d’arrivée de fichier : utilisez des déclencheurs d’arrivée de fichier pour démarrer les travaux Lakeflow lorsque de nouveaux fichiers arrivent dans un volume. Consultez Déclencher des travaux lorsque de nouveaux fichiers arrivent.
  • Bibliothèques de cluster : installez des bibliothèques de cluster à partir d’un volume (JARs, roues), requirements.txtde sorte que l’accès aux bibliothèques est régi par le catalogue Unity. Consultez Installer des bibliothèques à partir d’un volume.
  • Scripts d'initialisation : Stockez et exécutez des scripts d'initialisation à l'échelle du cluster à partir d’un volume, de sorte que l’accès aux scripts d'initialisation soit régi par Unity Catalog. Consultez Scripts d'initialisation à l'échelle du cluster.
  • Artefacts d’expérience ML : Stocker les artefacts d’expérience ML (modèles, métriques et fichiers de sortie) dans un volume afin que l'accès aux sorties des expériences MLflow soit régi par le catalogue Unity. Consultez Organiser des exécutions de formation avec des expériences MLflow.