Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cette page fournit une vue d’ensemble des fonctionnalités et des recommandations pour rendre les données gérées et régies par Azure Databricks disponibles pour les systèmes externes.
Ces modèles se concentrent sur les scénarios où votre organisation doit intégrer des outils ou des systèmes approuvés à Azure Databricks données. Si vous recherchez des conseils sur le partage de données en dehors de votre organisation, consultez Partager des données et des ressources IA en toute sécurité.
Quel accès externe Azure Databricks prend-il en charge ?
Azure Databricks recommande d’utiliser Unity Catalog pour régir toutes vos ressources de données. Unity Catalog fournit des intégrations aux clients Delta Lake à l’aide de l’API REST Unity et des clients Apache Iceberg à l’aide du catalogue REST Iceberg. Pour obtenir la liste complète des intégrations prises en charge, consultez intégrations du catalogue Unity.
Le tableau suivant fournit une vue d’ensemble des formats de prise en charge et des modèles d’accès pour les objets Catalogue Unity.
| Objet Unity Catalog | Formats pris en charge | Modèles d’accès |
|---|---|---|
| Tables managées | Delta Lake, Iceberg | API REST Unity, catalogue REST Iceberg, Delta Sharing |
| Tables externes | Delta Lake | API REST Unity, catalogue REST Iceberg, Partage Delta, URI du cloud |
| Tables externes | CSV, JSON, Avro, Parquet, ORC, texte | API REST Unity, URI cloud |
| Volumes externes | Tous les types de données | URI cloud |
| Tables étrangères* | Delta Lake, Iceberg | API REST Unity, catalogue REST Iceberg (préversion), Partage Delta |
| Tables étrangères* | CSV, JSON, Avro, Parquet, ORC, texte | API REST Unity, URI cloud |
* Seules les tables étrangères fédérées à l’aide de la fédération de catalogue sont prises en charge. Pour garantir de nouvelles lectures à partir de moteurs externes sur des tables étrangères, les clients peuvent régulièrement actualiser les métadonnées à l’aide de travaux Lakeflow.
Pour plus d’informations sur ces objets de catalogue Unity, consultez les rubriques suivantes :
- Tables gérées Unity Catalog dans Azure Databricks pour Delta Lake et Apache Iceberg
- Utiliser des tables externes
- Présentation des volumes Unity Catalog
Distribution des informations d’identification du catalogue Unity
La distribution des informations d’identification du catalogue Unity permet aux utilisateurs de configurer des clients externes pour hériter des privilèges sur les données régies par Azure Databricks. Les clients Iceberg et Delta peuvent prendre en charge la distribution des informations d’identification. Consultez Fourniture des informations d’identification Unity Catalog pour l’accès à un système externe.
Accéder aux tables avec des Clients Delta
Utilisez l’API REST Unity pour lire, écrire et créer des tables gérées et externes Unity Catalog sauvegardées par Delta Lake à partir de clients Delta pris en charge. Consultez les tables Access Databricks des clients Delta.
Important
La création et l’écriture dans des tables gérées par le catalogue Unity à partir de clients Delta sont en version bêta.
Pour les tables externes, Unity Catalog ne régit pas les lectures et les écritures effectuées directement sur le stockage d’objets cloud à partir de systèmes externes. Vous devez donc configurer des stratégies et des informations d’identification supplémentaires dans votre compte cloud pour vous assurer que les stratégies de gouvernance des données sont respectées en dehors de Azure Databricks.
Remarque
La documentation Azure Databricks répertorie les limitations et les considérations de compatibilité basées sur les versions et fonctionnalités de plateforme databricks Runtime. Vous devez confirmer les protocoles de lecture et d’écriture et les fonctionnalités de table pris en charge par votre client. Voir delta.io.
Accéder aux tables avec les clients Iceberg
Azure Databricks fournit aux clients Iceberg la prise en charge de la lecture, de l’écriture et de la création de tables inscrites dans le catalogue Unity. Les clients pris en charge incluent Apache Spark, Apache Flink, Trino et Snowflake. Consultez Access Azure Databricks tables à partir de clients Apache Iceberg.
Partager des tables en lecture seule entre les domaines
Vous pouvez utiliser le partage Delta pour accorder un accès en lecture seule aux tables Delta managées ou externes entre les domaines et les systèmes pris en charge. Les systèmes logiciels qui prennent en charge les lectures de copie zéro des tables de partage Delta incluent SAP, Amperity et Oracle. Consultez Partager des données et des ressources IA en toute sécurité.
Remarque
Vous pouvez également utiliser le partage Delta pour accorder un accès en lecture seule aux clients ou aux partenaires. Delta Sharing supporte également les données partagées à l’aide de Databricks Marketplace.
Accéder aux données tabulaires non Delta Lake avec des tables externes
Les tables externes du catalogue Unity prennent en charge de nombreux formats autres que Delta Lake, notamment Parquet, ORC, CSV et JSON. Les tables externes stockent tous les fichiers de données dans les répertoires dans un emplacement de stockage d’objets cloud spécifié par un URI cloud fourni lors de la création de la table. D’autres systèmes accèdent à ces fichiers de données directement à partir du stockage d’objets cloud.
Unity Catalog ne régit pas les lectures et les écritures effectuées directement sur le stockage d’objets cloud à partir de systèmes externes. Vous devez donc configurer des stratégies et des informations d’identification supplémentaires dans votre compte cloud pour vous assurer que les stratégies de gouvernance des données sont respectées en dehors de Azure Databricks.
La lecture et l’écriture dans des tables externes de plusieurs systèmes peuvent entraîner des problèmes de cohérence et une altération des données, car aucune garantie transactionnelle n’est fournie pour les formats autres que Delta Lake.
Le catalogue Unity peut ne pas récupérer de nouvelles partitions écrites dans des tables externes sauvegardées par des formats autres que Delta Lake. Databricks recommande d'exécuter MSCK REPAIR TABLE table_name régulièrement pour garantir que Unity Catalog a répertorié tous les fichiers de données écrits par des systèmes externes.
Accéder aux données non tabulaires avec des volumes externes
Databricks recommande d’utiliser des volumes externes pour stocker des fichiers de données non tabulaires lus ou écrits par des systèmes externes en plus de Azure Databricks. Découvrez quels sont les volumes du catalogue Unity ?.
Unity Catalog ne régit pas les lectures et les écritures effectuées directement sur le stockage d’objets cloud à partir de systèmes externes. Vous devez donc configurer des stratégies et des informations d’identification supplémentaires dans votre compte cloud pour vous assurer que les stratégies de gouvernance des données sont respectées en dehors de Azure Databricks.
Les volumes fournissent des API, des kits SDK et d’autres outils permettant d’obtenir des fichiers et de les placer dans des volumes. Consultez Utiliser des fichiers dans les volumes de Unity Catalog.
Remarque
Le partage Delta vous permet de partager des volumes vers d’autres comptes Azure Databricks, mais ne s’intègre pas aux systèmes externes.