Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cette page explique comment utiliser databricks Data Classification in Unity Catalog pour classifier et baliser automatiquement les données sensibles dans votre catalogue.
Les catalogues de données peuvent avoir une grande quantité de données, contenant souvent des données sensibles connues et inconnues. Il est essentiel que les équipes de données comprennent le type de données sensibles qui existe dans chaque table afin qu’elles puissent régir et démocratiser l’accès à ces données.
Pour résoudre ce problème, Databricks Data Classification utilise un agent IA pour classifier et étiqueter automatiquement les tables dans votre catalogue. Cela vous permet de découvrir des données sensibles et d’appliquer des contrôles de gouvernance sur les résultats, à l’aide d’outils tels que le contrôle d’accès basé sur les attributs dans le catalogue Unity. Pour obtenir la liste des balises prises en charge, consultez balises de classification prises en charge.
À l’aide de cette fonctionnalité, vous pouvez :
- Classifier les données : le moteur utilise un système IA agentique pour classifier et étiqueter automatiquement toutes les tables dans le catalogue Unity.
- Optimisez les coûts grâce à l’analyse intelligente : le système détermine intelligemment quand analyser vos données en tirant parti du catalogue Unity et du moteur d’intelligence des données. Cela signifie que l’analyse est incrémentielle et optimisée pour garantir que toutes les nouvelles données sont classées sans configuration manuelle.
- Passez en revue et protégez les données sensibles : l’affichage des résultats vous aide à afficher les résultats de classification et à protéger les données sensibles en étiquetant et en créant des stratégies de contrôle d’accès pour chaque classe.
Important
Databricks Data Classification utilise le stockage par défaut pour stocker les résultats de classification. Vous n’êtes pas facturé pour le stockage.
Databricks Data Classification utilise un modèle de langage volumineux (LLM) pour faciliter la classification.
Spécifications
Remarque
La classification des données est une fonctionnalité en préversion au niveau de l’espace de travail, et elle ne peut être gérée que par un administrateur d’espace de travail ou de compte. Pour obtenir des instructions, consultez Manage Azure Databricks préversions.
- Votre espace de travail doit disposer du calcul sans serveur (activé par défaut dans les espaces de travail avec Unity Catalog).
- Pour activer la classification des données, vous devez posséder le catalogue ou avoir
USE CATALOGetMANAGEdes privilèges dessus. - Pour activer l’étiquetage automatique d’un catalogue, vous devez avoir
USE CATALOGsur le catalogue,APPLY TAGsur le catalogue etASSIGNsur la balise appliquée. - Pour afficher les résultats de classification dans l’interface utilisateur, vous devez disposer de
USE CATALOGet soitMANAGEou (SELECT+USE SCHEMA) sur le catalogue. Pour afficher des exemples de valeurs associées aux détections, vous devez avoirSELECTsur la table système de résultats.
Remarque
Par défaut, seuls les administrateurs de compte disposent des autorisations MANAGE et ASSIGN sur les balises régies par le système de classification des données. Les administrateurs de compte peuvent accorder MANAGE et ASSIGN pour des tags gouvernés individuels à d’autres utilisateurs, principaux de services ou groupes. Consultez Gérer les autorisations sur les balises régies.
Utiliser la classification des données
Vous pouvez activer la classification des données pour plusieurs catalogues à la fois à partir de la page de résultats ou configurer des catalogues individuels avec un contrôle au niveau du schéma plus granulaire.
Activer plusieurs catalogues
- Dans la page résultats de la classification des données, cliquez sur Configurer.
- Sélectionnez les catalogues que vous souhaitez activer, ou sélectionnez tous les catalogues disponibles dans l’espace de travail.
- Cliquez sur Activer.
L’activation de tous les catalogues disponibles n’active pas automatiquement les catalogues futurs. Pour classifier un nouveau catalogue, revenez à la boîte de dialogue Configurer et activez-le.
Activer un seul catalogue avec sélection de schéma
Pour choisir des schémas spécifiques dans un catalogue :
Accédez au catalogue, puis cliquez sur l’onglet Détails .
En regard de la classification des données, cliquez sur le bouton Activer .
La boîte de dialogue Classification des données s’affiche. Par défaut, tous les schémas sont inclus. Pour inclure uniquement certains schémas, sélectionnez-les dans le menu déroulant Schémas. Vous pouvez également sélectionner une stratégie d’utilisation
Cliquez sur Enregistrer.
Cela crée un travail en arrière-plan qui analyse de façon incrémentielle toutes les tables du catalogue ou des schémas sélectionnés.
Le moteur de classification s’appuie sur l’analyse intelligente pour déterminer quand analyser une table. Les nouvelles tables et colonnes d’un catalogue sont généralement analysées dans les 24 heures suivant la création.
Afficher les résultats de la classification
Pour afficher les résultats de classification, cliquez sur Afficher les résultats en regard du paramètre Classification des données .
Cela ouvre l’interface utilisateur de classification des données pour le catalogue. Pour afficher les résultats de classification, un entrepôt SQL serverless est requis.
Vous pouvez également afficher les résultats agrégés dans tous les catalogues classés dans le metastore à l’aide du sélecteur de catalogue en haut à gauche. Choisissez tous les catalogues dans le menu déroulant.
Pour chaque type de classification, le tableau affiche :
- Colonnes détectées : nombre de colonnes où la classification a été détectée.
- Marquage automatique : état de marquage pour cette classification : actif ou inactif. Dans la vue metastore, un état partiellement actif indique que l’étiquetage est activé dans certains catalogues, mais pas tous les catalogues.
- Accès utilisateur (derniers 7 jours) : Le nombre d'utilisateurs distincts qui ont accédé aux données non masquées par rapport aux données masquées de cette classification au cours des 7 derniers jours. Utilisez-la pour évaluer l’exposition des données sensibles au sein de votre organisation.
Passer en revue les détections
Pour passer en revue les résultats d’un type de classification spécifique, cliquez sur Vérifier dans la colonne la plus à droite. Un panneau s’affiche avec deux onglets :
- Colonnes détectées : affiche les colonnes dans lesquelles la balise de classification a été détectée avec une confiance élevée, classées par la détection la plus récente en premier. Inclut également un graphique détections au fil du temps et une liste de colonnes détectées avec des exemples de valeurs. Cliquez sur n’importe quelle barre dans le graphique pour afficher les détections spécifiques pour cette date. Les exemples de valeurs s’affichent uniquement si vous disposez des autorisations requises pour afficher les résultats de classification.
- Accès utilisateur : répertorie tous les utilisateurs qui ont accédé à des colonnes avec cette balise de classification, affichant leur e-mail et leur nom d’utilisateur, ainsi que s’ils ont masqué ou non l’accès. Affiche également toutes les stratégies de contrôle d’accès en fonction des attributs (ABAC) affectées à cette balise de classification. Lorsque vous affichez les résultats d’un seul catalogue, vous pouvez créer une politique ABAC directement à partir du panneau.
Si des colonnes détectées sont incorrectes, vous pouvez cliquer sur l’icône Exclure à droite de l’entrée. Voir Exclure les détections.
Activer l’étiquetage automatique
Si les colonnes identifiées correspondent à vos attentes, vous pouvez activer l’étiquetage automatique pour la balise de classification. Lorsque l’étiquetage automatique est activé, toutes les détections existantes et futures de cette classification sont marquées.
Vous pouvez configurer l’étiquetage automatique à deux niveaux :
-
Niveau du metastore : activez ou désactivez tous les catalogues en même temps. Vous devez être administrateur de metastore et avoir
ASSIGNappliqué la balise. -
Niveau du catalogue : activez ou désactivez uniquement le catalogue actuel. Les paramètres au niveau du catalogue sont prioritaires sur le paramètre au niveau du metastore. Vous devez avoir
USE CATALOGetAPPLY TAGsur le catalogue, etASSIGNsur la balise appliquée.
Au niveau du catalogue, l’étiquetage automatique a trois états :
- Valeur par défaut (héritée) : le catalogue hérite du paramètre d’étiquetage du niveau du metastore.
- Actif : l’étiquetage est explicitement activé pour ce catalogue, quel que soit le paramètre au niveau du metastore.
- Inactif : l’étiquetage est explicitement désactivé pour ce catalogue, quel que soit le paramètre au niveau du metastore.
Lorsque vous désactivez l’étiquetage, aucune étiquette future n’est appliquée, mais les balises existantes ne sont pas supprimées.
Remarque
Lorsque vous activez l’étiquetage automatique, les balises ne sont pas immédiatement remplies. Ils seront renseignés lors de l'analyse suivante, qui devrait prendre effet dans les 24 heures. Les classifications suivantes seront étiquetées immédiatement.
Exclure les détections
Important
Les exclusions de détection et leur utilisation pour améliorer la précision future de la classification sont en version bêta.
Dans le panneau de révision, vous pouvez exclure des détections de colonnes individuelles. Exclusion d’une détection :
- Supprime toute balise de classification existante de cette colonne.
- Empêche les analyses futures d’appliquer à nouveau la balise à cette colonne.
- Fournit des commentaires qui améliorent la précision des résultats futurs de classification.
Pour exclure une détection, cliquez sur l’icône Exclure pour la colonne correspondante dans le panneau de révision. Pour réinscrire la détection, cliquez à nouveau sur l’icône.
Table système des résultats
La classification des données crée une table système nommée system.data_classification.results pour stocker les résultats qui, par défaut, sont accessibles uniquement à l’administrateur du compte. L’administrateur de compte peut partager cette table. La table est accessible uniquement lorsque vous utilisez le calcul sans serveur. Pour plus d’informations sur ce tableau, consultez la référence de la table système de classification des données.
Important
La table de résultats system.data_classification.results contient tous les résultats de classification pour l'ensemble du métastore et inclut des valeurs d'exemple provenant des tables dans chaque catalogue. Vous devez uniquement partager cette table avec les utilisateurs qui sont privilégiés pour afficher les résultats de classification à l’échelle du metastore, y compris les exemples de valeurs.
Les utilisateurs ayant SELECT accès à ce tableau peuvent également voir des exemples de valeurs associées aux détections dans la page de résultats de classification des données.
Configurer des contrôles de gouvernance en fonction des résultats de classification des données
Masquer les données sensibles à l’aide d’une stratégie ABAC
Databricks recommande d’utiliser le contrôle d’accès basé sur les attributs dans le catalogue Unity pour créer des contrôles de gouvernance basés sur les résultats de classification des données.
Pour créer une stratégie à partir de la page résultats de la classification des données, cliquez sur Vérifier pour une balise de classification, ouvrez l’onglet Accès utilisateur , puis cliquez sur Nouvelle stratégie. Le formulaire de politique est prérempli pour masquer les colonnes dont la classification est en cours de révision. Pour masquer les données, spécifiez n’importe quelle fonction de masquage inscrite dans le catalogue Unity, puis cliquez sur Enregistrer.
Vous pouvez également créer une stratégie qui couvre plusieurs balises de classification, en modifiant quand la colonne répond à la condition et en fournissant plusieurs balises.
Par exemple, pour créer une stratégie appelée « Confidentiel » qui masque tout nom, e-mail ou numéro de téléphone, définissez la condition de réponse sur has_tag("class.name") OR has_tag("class.email_address") OR has_tag("class.phone_number").
Découverte et suppression du RGPD
Cet exemple de cahier montre comment utiliser la classification des données afin de faciliter l’identification et la suppression des données pour la conformité au RGPD.
Découverte et suppression RGPD à l’aide du notebook de classification des données
Obtenir un ordinateur portable
Comment gérer des balises incorrectes
Si une classification est incorrecte, excluez la détection du panneau de révision. L’exclusion d’une détection supprime la balise, l’empêche d’être réappliquée et améliore la précision des analyses futures. Voir Exclure les détections.
Erreurs de numérisation
Si des erreurs se produisent pendant l’analyse, un bouton Erreurs apparaît en haut à droite de la table de résultats.
Cliquez sur le bouton pour afficher les tables qui ont échoué à l’analyse et aux messages d’erreur associés.
Par défaut, les échecs survenues pour des tables individuelles sont ignorés et réessayés le jour suivant.
Afficher les dépenses de classification des données
Pour comprendre comment la classification des données est facturée, consultez la page de tarification. Vous pouvez afficher les dépenses liées à la classification des données en exécutant une requête ou en affichant le tableau de bord d’utilisation.
Remarque
L’analyse initiale est plus coûteuse que les analyses suivantes sur le même catalogue, car ces analyses sont incrémentielles et entraînent généralement des coûts inférieurs.
Afficher l’utilisation à partir de la table système system.billing.usage
Vous pouvez interroger les dépenses de classification des données à partir de system.billing.usage. Les champs created_by et catalog_id peuvent être utilisés éventuellement pour décomposer les coûts :
-
created_by: Inclure pour voir les coûts par l’utilisateur qui a déclenché l’utilisation. -
catalog_id: inclure pour afficher les coûts par catalogue. L’ID de catalogue est affiché dans lesystem.data_classification.resultstableau.
Exemple de requête pour les 30 derniers jours :
SELECT
usage_date,
identity_metadata.created_by,
usage_metadata.catalog_id,
SUM(usage_quantity) AS dbus
FROM
system.billing.usage
WHERE
usage_date >= DATE_SUB(CURRENT_DATE(), 30)
AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
usage_date,
created_by,
catalog_id
ORDER BY
usage_date DESC,
created_by;
Pour calculer le coût total du dollar, joignez-vous à system.billing.list_prices. L’exemple de requête suivant utilise un paramètre nommé :add_on_rate en tant que multiplicateur sur le prix catalogue. Définissez-le sur 1 pour utiliser directement le prix de la liste, ou sur une valeur inférieure à 1 pour refléter une remise négociée (par exemple, 0.9 pour une remise de 10%).
Exemple de requête pour le coût total du dollar au cours des 30 derniers jours :
SELECT
u.usage_date,
SUM(u.usage_quantity * lp.pricing.effective_list.default) * :add_on_rate
AS `Data Classification Dollar Cost`
FROM system.billing.usage AS u
JOIN system.billing.list_prices AS lp
ON lp.sku_name = u.sku_name
WHERE
u.billing_origin_product = 'DATA_CLASSIFICATION'
AND u.usage_end_time >= lp.price_start_time
AND (lp.price_end_time IS NULL OR u.usage_end_time < lp.price_end_time)
AND u.usage_date >= DATE_ADD(CURRENT_DATE(), -30)
GROUP BY
u.usage_date
ORDER BY
u.usage_date DESC;
Afficher l’utilisation à partir du tableau de bord d’utilisation
Si vous disposez déjà d'un tableau de bord d'utilisation configuré dans votre espace de travail, vous pouvez l'utiliser pour filtrer l'utilisation en sélectionnant l'origine de facturation Project étiquetée « Classification des données ». Si vous n’avez pas configuré de tableau de bord d’utilisation, vous pouvez en importer un et appliquer le même filtrage. Pour plus d’informations, consultez Tableaux de bord Utilisation.
Balises de classification prises en charge
Pour obtenir la liste complète des balises prises en charge organisées par des étiquettes globales, des étiquettes régionales et des infrastructures de conformité (PII, RGPD, HIPAA, DPDPA), consultez balises de classification prises en charge.
Limites
- Les vues et les vues métriques ne sont pas prises en charge. Si la vue est basée sur des tables existantes, Databricks recommande de classifier les tables sous-jacentes pour voir s’ils contiennent des données sensibles.