Acceso a datos de Databricks mediante sistemas externos

En esta página se proporciona información general sobre la funcionalidad y las recomendaciones para hacer que los datos se administren y se rigen por Azure Databricks estén disponibles para sistemas externos.

Estos patrones se centran en escenarios en los que su organización necesita integrar herramientas o sistemas de confianza con los datos de Azure Databricks. Si busca instrucciones sobre el uso compartido de datos fuera de la organización, consulte Uso compartido de datos y recursos de inteligencia artificial de forma segura.

¿Qué acceso externo admite Azure Databricks?

Azure Databricks recomienda usar El catálogo de Unity para controlar todos los recursos de datos. El catálogo de Unity proporciona integraciones a los clientes de Delta Lake mediante la API REST de Unity y los clientes de Apache Iceberg mediante el catálogo REST de Iceberg. Para obtener una lista completa de las integraciones admitidas, consulte Integraciones del catálogo de Unity.

En la tabla siguiente se proporciona información general sobre los formatos de compatibilidad y los patrones de acceso para objetos de Catálogo de Unity.

Objeto de Unity Catalog Formatos admitidos Patrones de acceso
Tablas administradas Delta Lake, Iceberg API REST de Unity, catálogo REST de Iceberg, Delta Sharing
Tablas externas Delta Lake API REST de Unity, catálogo REST de Iceberg, Delta Sharing, URI de nube
Tablas externas CSV, JSON, Avro, Parquet, ORC, texto REST API de Unicty, URI de nube
Volúmenes externos Todos los tipos de datos URI en la nube
Tablas externas* Delta Lake, Iceberg API REST de Unity, catálogo REST de Iceberg (versión preliminar), Delta Sharing
Tablas externas* CSV, JSON, Avro, Parquet, ORC, texto REST API de Unicty, URI de nube

* Solo se admiten las tablas externas federadas mediante la federación de catálogos . Para garantizar lecturas nuevas de motores externos en tablas externas, los clientes pueden actualizar periódicamente los metadatos mediante trabajos de Lakeflow.

Para obtener más información sobre estos objetos de catálogo de Unity, consulte lo siguiente:

Provisión de credenciales de Unity Catalog

La dispensación de credenciales del Catálogo de Unity permite a los usuarios configurar clientes externos para heredar privilegios en los datos gobernados por Azure Databricks. Tanto los clientes de Iceberg como de Delta pueden admitir la provisión de credenciales. Consulte Provisión de credenciales de Unity Catalog para el acceso a sistemas externos.

Acceso a tablas con clientes Delta

Use la API REST de Unity para leer, escribir y crear tablas gestionadas y externas del Unity Catalog respaldadas por Delta Lake desde clientes Delta compatibles. Consulte Acceso a tablas de Databricks desde clientes Delta.

Importante

La creación y escritura en tablas administradas de Unity Catalog a partir de clientes Delta está en Beta.

En el caso de las tablas externas, El catálogo de Unity no rige las lecturas y escrituras realizadas directamente en el almacenamiento de objetos en la nube desde sistemas externos, por lo que debe configurar directivas y credenciales adicionales en la cuenta en la nube para asegurarse de que las directivas de gobernanza de datos se respetan fuera de Azure Databricks.

Nota

En la documentación de Azure Databricks se enumeran las limitaciones y las consideraciones de compatibilidad basadas en las versiones y las características de la plataforma de Databricks Runtime. Debe confirmar qué protocolos de lectura y escritura y características de tabla admite el cliente. Consulta delta.io.

Acceso a tablas con clientes de Iceberg

Azure Databricks proporciona a los clientes de Iceberg soporte para lectura, escritura y creación de tablas registradas en Unity Catalog. Los clientes admitidos incluyen Apache Spark, Apache Flink, Trino y Snowflake. Consulte Acceder a las tablas de Azure Databricks desde clientes de Apache Iceberg.

Uso compartido de tablas de solo lectura entre dominios

Puede usar Delta Sharing para conceder acceso de solo lectura a tablas delta administradas o externas entre dominios y sistemas admitidos. Los sistemas de software que admiten lecturas sin copia de tablas delta Sharing incluyen SAP, Amperity y Oracle. Consulte Uso compartido de datos y recursos de inteligencia artificial de forma segura.

Nota

También puede usar Delta Sharing para conceder acceso de solo lectura a los clientes o asociados. Delta Sharing también respalda los datos compartidos mediante el Marketplace de Databricks.

Acceder a datos tabulares que no son de Delta Lake con tablas externas

Las tablas externas del catálogo de Unity admiten muchos formatos distintos de Delta Lake, incluidos Parquet, ORC, CSV y JSON. Las tablas externas almacenan todos los archivos de datos en directorios en una ubicación de almacenamiento de objetos en la nube especificada por un URI de nube proporcionado durante la creación de la tabla. Otros sistemas acceden a estos archivos de datos directamente desde el almacenamiento de objetos en la nube.

El Catálogo de Unity no rige las lecturas y escrituras realizadas directamente en el almacenamiento de objetos en la nube desde sistemas externos, por lo que debe configurar directivas y credenciales adicionales en la cuenta en la nube para asegurarse de que las directivas de gobernanza de datos se respetan fuera de Azure Databricks.

La lectura y escritura en tablas externas de varios sistemas puede provocar problemas de coherencia y daños en los datos, ya que no se proporcionan garantías transaccionales para formatos distintos de Delta Lake.

Es posible que el catálogo de Unity no seleccione nuevas particiones escritas en tablas externas respaldadas por formatos distintos de Delta Lake. Databricks recomienda ejecutar periódicamente MSCK REPAIR TABLE table_name para asegurarse de que el Catálogo de Unity haya registrado todos los archivos de datos escritos por sistemas externos.

Acceder a datos no tabulares con volúmenes externos

Databricks recomienda usar volúmenes externos para almacenar archivos de datos no tabulares leídos o escritos por sistemas externos además de Azure Databricks. Consulta ¿Qué son los volúmenes de Unity Catalog?.

El Catálogo de Unity no rige las lecturas y escrituras realizadas directamente en el almacenamiento de objetos en la nube desde sistemas externos, por lo que debe configurar directivas y credenciales adicionales en la cuenta en la nube para asegurarse de que las directivas de gobernanza de datos se respetan fuera de Azure Databricks.

Volúmenes proporciona API, SDK y otras herramientas para obtener archivos de los volúmenes y colocarlos en ellos. Consulte cómo trabajar con archivos en volúmenes de Unity Catalog.

Nota

Delta Sharing permite compartir volúmenes con otras cuentas de Azure Databricks, pero no se integra con sistemas externos.