Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En esta página se proporciona información general sobre la funcionalidad y las recomendaciones para hacer que los datos se administren y se rigen por Azure Databricks estén disponibles para sistemas externos.
Estos patrones se centran en escenarios en los que su organización necesita integrar herramientas o sistemas de confianza con los datos de Azure Databricks. Si busca instrucciones sobre el uso compartido de datos fuera de la organización, consulte Uso compartido de datos y recursos de inteligencia artificial de forma segura.
¿Qué acceso externo admite Azure Databricks?
Azure Databricks recomienda usar El catálogo de Unity para controlar todos los recursos de datos. El catálogo de Unity proporciona integraciones a los clientes de Delta Lake mediante la API REST de Unity y los clientes de Apache Iceberg mediante el catálogo REST de Iceberg. Para obtener una lista completa de las integraciones admitidas, consulte Integraciones del catálogo de Unity.
En la tabla siguiente se proporciona información general sobre los formatos de compatibilidad y los patrones de acceso para objetos de Catálogo de Unity.
| Objeto de Unity Catalog | Formatos admitidos | Patrones de acceso |
|---|---|---|
| Tablas administradas | Delta Lake, Iceberg | API REST de Unity, catálogo REST de Iceberg, Delta Sharing |
| Tablas externas | Delta Lake | API REST de Unity, catálogo REST de Iceberg, Delta Sharing, URI de nube |
| Tablas externas | CSV, JSON, Avro, Parquet, ORC, texto | REST API de Unicty, URI de nube |
| Volúmenes externos | Todos los tipos de datos | URI en la nube |
| Tablas externas* | Delta Lake, Iceberg | API REST de Unity, catálogo REST de Iceberg (versión preliminar), Delta Sharing |
| Tablas externas* | CSV, JSON, Avro, Parquet, ORC, texto | REST API de Unicty, URI de nube |
* Solo se admiten las tablas externas federadas mediante la federación de catálogos . Para garantizar lecturas nuevas de motores externos en tablas externas, los clientes pueden actualizar periódicamente los metadatos mediante trabajos de Lakeflow.
Para obtener más información sobre estos objetos de catálogo de Unity, consulte lo siguiente:
- Tablas gestionadas por Unity Catalog en Azure Databricks para Delta Lake y Apache Iceberg
- Trabajar con tablas externas
- ¿Qué son los volúmenes del catálogo de Unity?
Provisión de credenciales de Unity Catalog
La dispensación de credenciales del Catálogo de Unity permite a los usuarios configurar clientes externos para heredar privilegios en los datos gobernados por Azure Databricks. Tanto los clientes de Iceberg como de Delta pueden admitir la provisión de credenciales. Consulte Provisión de credenciales de Unity Catalog para el acceso a sistemas externos.
Acceso a tablas con clientes Delta
Use la API REST de Unity para leer, escribir y crear tablas gestionadas y externas del Unity Catalog respaldadas por Delta Lake desde clientes Delta compatibles. Consulte Acceso a tablas de Databricks desde clientes Delta.
Importante
La creación y escritura en tablas administradas de Unity Catalog a partir de clientes Delta está en Beta.
En el caso de las tablas externas, El catálogo de Unity no rige las lecturas y escrituras realizadas directamente en el almacenamiento de objetos en la nube desde sistemas externos, por lo que debe configurar directivas y credenciales adicionales en la cuenta en la nube para asegurarse de que las directivas de gobernanza de datos se respetan fuera de Azure Databricks.
Nota
En la documentación de Azure Databricks se enumeran las limitaciones y las consideraciones de compatibilidad basadas en las versiones y las características de la plataforma de Databricks Runtime. Debe confirmar qué protocolos de lectura y escritura y características de tabla admite el cliente. Consulta delta.io.
Acceso a tablas con clientes de Iceberg
Azure Databricks proporciona a los clientes de Iceberg soporte para lectura, escritura y creación de tablas registradas en Unity Catalog. Los clientes admitidos incluyen Apache Spark, Apache Flink, Trino y Snowflake. Consulte Acceder a las tablas de Azure Databricks desde clientes de Apache Iceberg.
Uso compartido de tablas de solo lectura entre dominios
Puede usar Delta Sharing para conceder acceso de solo lectura a tablas delta administradas o externas entre dominios y sistemas admitidos. Los sistemas de software que admiten lecturas sin copia de tablas delta Sharing incluyen SAP, Amperity y Oracle. Consulte Uso compartido de datos y recursos de inteligencia artificial de forma segura.
Nota
También puede usar Delta Sharing para conceder acceso de solo lectura a los clientes o asociados. Delta Sharing también respalda los datos compartidos mediante el Marketplace de Databricks.
Acceder a datos tabulares que no son de Delta Lake con tablas externas
Las tablas externas del catálogo de Unity admiten muchos formatos distintos de Delta Lake, incluidos Parquet, ORC, CSV y JSON. Las tablas externas almacenan todos los archivos de datos en directorios en una ubicación de almacenamiento de objetos en la nube especificada por un URI de nube proporcionado durante la creación de la tabla. Otros sistemas acceden a estos archivos de datos directamente desde el almacenamiento de objetos en la nube.
El Catálogo de Unity no rige las lecturas y escrituras realizadas directamente en el almacenamiento de objetos en la nube desde sistemas externos, por lo que debe configurar directivas y credenciales adicionales en la cuenta en la nube para asegurarse de que las directivas de gobernanza de datos se respetan fuera de Azure Databricks.
La lectura y escritura en tablas externas de varios sistemas puede provocar problemas de coherencia y daños en los datos, ya que no se proporcionan garantías transaccionales para formatos distintos de Delta Lake.
Es posible que el catálogo de Unity no seleccione nuevas particiones escritas en tablas externas respaldadas por formatos distintos de Delta Lake. Databricks recomienda ejecutar periódicamente MSCK REPAIR TABLE table_name para asegurarse de que el Catálogo de Unity haya registrado todos los archivos de datos escritos por sistemas externos.
Acceder a datos no tabulares con volúmenes externos
Databricks recomienda usar volúmenes externos para almacenar archivos de datos no tabulares leídos o escritos por sistemas externos además de Azure Databricks. Consulta ¿Qué son los volúmenes de Unity Catalog?.
El Catálogo de Unity no rige las lecturas y escrituras realizadas directamente en el almacenamiento de objetos en la nube desde sistemas externos, por lo que debe configurar directivas y credenciales adicionales en la cuenta en la nube para asegurarse de que las directivas de gobernanza de datos se respetan fuera de Azure Databricks.
Volúmenes proporciona API, SDK y otras herramientas para obtener archivos de los volúmenes y colocarlos en ellos. Consulte cómo trabajar con archivos en volúmenes de Unity Catalog.
Nota
Delta Sharing permite compartir volúmenes con otras cuentas de Azure Databricks, pero no se integra con sistemas externos.