Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Los volúmenes son objetos de Catálogo de Unity que rigen el acceso a datos no tabulares. Proporcionan una capa lógica sobre el almacenamiento de objetos en la nube para poder almacenar, organizar y administrar archivos con gobernanza centralizada.
Para obtener documentación completa sobre los volúmenes, consulte ¿Qué son los volúmenes del catálogo de Unity?.
Unity Catalog admite dos tipos de volúmenes:
- Volúmenes administrados: Azure Databricks administra el ciclo de vida y la ubicación de almacenamiento en la nube
- Volúmenes externos: Controlar la ubicación y el ciclo de vida del almacenamiento en la nube
¿Qué puedes hacer con los volúmenes del Catálogo de Unity?
Puede realizar operaciones de administración de archivos con volúmenes mediante varias interfaces y herramientas:
- Cargue, descargue y examine archivos en el Explorador de catálogos. Consulte ¿Qué es el Explorador de catálogos?.
- Para cargar archivos locales en un volumen, consulte Trabajar con archivos en volúmenes del catálogo de Unity.
- Para descargar archivos de Internet en un volumen, consulte Descargar datos de Internet.
- Leer y escribir datos mediante programación mediante Apache Spark, pandas o SQL. Consulte Trabajar mediante programación con archivos en volúmenes.
- Administrar archivos mediante
dbutils.fs, comandos mágicos o comandos de shell Bash. Consulte Comandos de utilidad para archivos en volúmenes.
Puede usar volúmenes con funcionalidades de Databricks que requieren una ruta de archivo. Los volúmenes proporcionan una ruta de acceso regulada que funciona de forma coherente entre usuarios y áreas de trabajo. Por ejemplo:
- Ingesta de datos: use volúmenes como ubicación de origen para la ingesta de datos. Empiece con archivos de un volumen y luego ingéstalos en tablas mediante:
-
COPY INTO: Cargue archivos desde un volumen en una tabla utilizando SQL. ConsulteCOPY INTO. - Cargador automático: ingiere de manera incremental los nuevos archivos que llegan a un directorio de volumen en una tabla. Consulte ¿Qué es Auto Loader?.
- API de lectura de Spark: use las API de lectura de Spark (por ejemplo,
spark.read.load) para cargar archivos desde una ruta de volumen en un DataFrame y escribirlos en una tabla. Consulte Trabajar mediante programación con archivos en volúmenes. - Interfaz de usuario de Databricks: cree una tabla directamente a partir de archivos almacenados en un volumen. Consulte Creación de una tabla a partir de datos en un volumen.
-
- Entrega de registros de proceso: configure la entrega de registros de proceso para escribir registros en una ruta de acceso de volumen, por lo que el acceso al registro se rige por unity Catalog. Vea Entrega de registros de proceso.
- Desencadenadores de llegada de archivos: use desencadenadores de llegada de archivos para iniciar trabajos de Lakeflow cuando lleguen nuevos archivos a un volumen. Consulte Desencadenar trabajos cuando llegan nuevos archivos.
- Bibliotecas de clústeres: instale bibliotecas de clúster desde un volumen (JAR, ruedas,
requirements.txt), por lo que el acceso a la biblioteca se rige por el catálogo de Unity. Ver Instalar bibliotecas desde un volumen. - Scripts de inicio: almacene y ejecute scripts de inicio con alcance de clúster desde un volumen, de modo que el acceso a los scripts de inicio se rija por Unity Catalog. Consulte Scripts de inicialización con ámbito de clúster.
- Artefactos de experimentos de ML: almacene artefactos de experimentos de ML (modelos, métricas y archivos de salida) en un volumen, por lo que el acceso a las salidas del experimento de MLflow se rige por el Catálogo de Unity. Consulte Organización de ejecuciones de entrenamiento con experimentos de MLflow.