Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Volumes zijn Unity Catalog-objecten die de toegang tot niet-tabellaire gegevens beheren. Ze bieden een logische laag over cloudobjectopslag, zodat u bestanden kunt opslaan, ordenen en beheren met gecentraliseerd beheer.
Zie Wat zijn Unity Catalog-volumes? voor uitgebreide documentatie over volumes.
Unity Catalog ondersteunt twee typen volumes:
- Beheerde volumes: Azure Databricks beheert de levenscyclus en cloudopslaglocatie
- Externe volumes: U bepaalt de opslaglocatie en levenscyclus van de cloud
Wat kunt u doen met Unity Catalog-volumes?
U kunt bestandsbeheerbewerkingen uitvoeren met volumes met behulp van meerdere interfaces en hulpprogramma's:
- Bestanden uploaden, downloaden en in Catalog Explorer bladeren. Zie Wat is Catalog Explorer?.
- Zie Werken met bestanden in Unity Catalog-volumes om lokale bestanden naar een volume te uploaden.
- Zie Gegevens van internet downloaden om bestanden van internet naar een volume te downloaden.
- Gegevens programmatisch lezen en schrijven met Apache Spark, pandas of SQL. Zie Programmatisch werken met bestanden in volumes.
- Beheer bestanden met behulp van
dbutils.fsmagic-opdrachten of bash-shellopdrachten. Zie Utility-opdrachten voor bestanden in volumes.
U kunt volumes gebruiken met Databricks-functies waarvoor een bestandssysteempad is vereist. Volumes bieden u een beheerd pad dat consistent werkt voor gebruikers en werkruimten. Voorbeeld:
- Gegevensopname: Gebruik volumes als de bronlocatie voor gegevensopname. Begin met bestanden in een volume en importeer ze in tabellen door middel van:
-
COPY INTO: Laad bestanden van een volume in een tabel met behulp van SQL. ZieCOPY INTO. - Auto Loader: Lees incrementeel nieuwe bestanden in die in een volumemap aankomen en laad ze in een tabel. Zie Wat is Auto Loader?
- Spark-read-API's: Met behulp van Spark-read-API's (bijvoorbeeld
spark.read.load) kun je bestanden van een volume-pad naar een DataFrame laden en naar een tabel schrijven. Zie Programmatisch werken met bestanden in volumes. - Databricks-gebruikersinterface: Maak rechtstreeks een tabel op basis van bestanden die zijn opgeslagen in een volume. Zie Een tabel maken op basis van gegevens in een volume.
-
- Levering van rekenlogboeken: Configureer de levering van rekenlogboeken om logboeken naar een volumepad te schrijven, zodat logboektoegang wordt beheerd door Unity Catalog. Zie Compute-logboeklevering.
- Triggers voor bestands aankomst: gebruik triggers voor bestands aankomst om Lakeflow-taken te starten wanneer nieuwe bestanden in een volume binnenkomen. Zie activeringsopdrachten wanneer nieuwe bestanden aankomen.
- Clusterbibliotheken: Clusterbibliotheken installeren vanaf een volume (JAR's, wielen,
requirements.txt), zodat bibliotheektoegang wordt beheerd door Unity Catalog. Zie Bibliotheken installeren vanaf een volume. - Init-scripts: Init-scripts met clusterbereik opslaan en uitvoeren vanaf een volume, zodat toegang tot init-scripts wordt beheerd door Unity Catalog. Zie Init-scripts op clusterniveau.
- ML-experimentartefacten: Ml-experimentartefacten (modellen, metrische gegevens en uitvoerbestanden) opslaan in een volume, zodat toegang tot de uitvoer van uw MLflow-experiment wordt beheerd door Unity Catalog. Zie Trainingsuitvoeringen organiseren met MLflow-experimenten.