Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article explique comment utiliser des balises pour attribuer l’utilisation du calcul à des espaces de travail, des équipes, des projets ou des utilisateurs spécifiques pour prendre en charge le suivi des coûts et le budget.
Il existe deux types d’étiquettes :
- Balises par défaut : appliquées automatiquement par Databricks aux ressources déployées dans le cloud. Elles fournissent des métadonnées de base telles que le fournisseur, l’ID de cluster et le créateur.
- Balises personnalisées : balises définies par l’utilisateur que vous pouvez ajouter aux ressources de calcul et aux charges de travail serverless. Elles permettent de suivre, de créer des rapports et d’établir des budgets granulaires.
Warning
Les données de balise sont stockées sous forme de texte brut et peuvent être répliquées globalement. N’utilisez pas de noms d’étiquettes, de valeurs ou de descripteurs susceptibles de compromettre la sécurité de vos ressources. Par exemple, n’utilisez pas de noms d’étiquettes, de valeurs ou de descripteurs qui contiennent des informations personnelles ou sensibles.
Balises par défaut
Azure Databricks ajoute automatiquement des balises par défaut pour calculer les ressources qu’il déploie dans votre compte cloud. Ces balises attribuent l’utilisation à Databricks et fournissent des informations de base sur la ressource, telles que son nom, son ID et son créateur.
Les balises par défaut se propagent automatiquement aux rapports d’analyse détaillés cost auxquels vous pouvez accéder dans le portail Azure.
Voici un rapport de détails de facture d’analyse des coûts dans le portail Azure qui détaille les coûts par clusterid balise sur une période d’un mois :
Clés et valeurs de balise par défaut
Azure Databricks ajoute les balises par défaut suivantes aux ressources de calcul :
| Clé d’étiquette | Valeur |
|---|---|
Vendor |
Valeur constante : Databricks |
ClusterId |
Azure Databricks ID interne du cluster |
ClusterName |
Nom du cluster |
Creator |
Nom d’utilisateur (adresse e-mail) de l’utilisateur qui a créé le cluster |
RunName |
Nom de la tâche (se propage uniquement sur le calcul des tâches). Si vous utilisez l’API Travaux 2.0, cela équivaut à run_name. Dans l’API 2.1 des tâches, il s’agit de task_key. |
JobId |
ID de tâche (se propage uniquement sur le calcul des tâches) |
Le calcul utilisé par le profilage des données inclut ces balises supplémentaires :
| Clé d’étiquette | Valeur |
|---|---|
LakehouseMonitoring |
vrai |
LakehouseMonitoringTableId |
ID de la table surveillée. |
LakehouseMonitoringWorkspaceId |
ID de l’espace de travail dans lequel le moniteur a été créé. |
LakehouseMonitoringMetastoreId |
ID du metastore dans lequel figure la table surveillée |
Azure Databricks ajoute les balises par défaut suivantes aux pools et aux ressources de calcul créées par des pools.
| Clé d’étiquette | Valeur |
|---|---|
Vendor |
Valeur constante : Databricks |
DatabricksInstancePoolCreatorId |
Azure Databricks ID interne de l’utilisateur qui a créé le pool |
DatabricksInstancePoolId |
Azure Databricks ID interne du pool |
Étiquettes personnalisées
Les balises personnalisées vous permettent d’attribuer l’utilisation du calcul à des équipes, projets ou centres de coûts spécifiques avec plus de granularité que les balises par défaut. Ces balises sont appliquées par les utilisateurs ou les administrateurs et se propagent aux journaux d’utilisation de votre compte et aux ressources cloud applicables. Ces balises sont également utilisées pour créer et surveiller des budgets dans votre compte Azure Databricks.
Ressources prises en charge pour les balises personnalisées
| Objet | Interface d’étiquetage (IU) | Interface d’étiquetage (API) |
|---|---|---|
| Espace de travail | Portail Azure | API Azure Resources |
| pool | Interface utilisateur des pools dans l’espace de travail Azure Databricks | API du Pool d’instances |
| Calcul à usage général et calcul du travail | Interface utilisateur de calcul dans l’espace de travail Azure Databricks | API des clusters |
| Entrepôt SQL | Interface utilisateur de SQL Warehouse dans l’espace de travail Azure Databricks | API des entrepôts |
| Instance de base de données | Interface utilisateur de l’instance de base de données dans l’espace de travail Azure Databricks | API Instances de base de données |
| Projet de mise à l’échelle automatique Lakebase | Application Lakebase dans l’espace de travail Azure Databricks | Postgres API |
Warning
N’assignez pas de balise personnalisée avec la clé Name à un cluster. Chaque cluster a une balise Name dont la valeur est définie par Azure Databricks. Si vous modifiez la valeur associée à la clé Name, le cluster ne peut plus être suivi par Azure Databricks. Par conséquent, il se peut que le cluster ne se termine pas après avoir été inactif et continue à entraîner des coûts d’utilisation.
Étiqueter les charges de travail de calcul serverless
Importante
Cette fonctionnalité est disponible en préversion publique.
Pour attribuer l'utilisation de l'informatique sans serveur aux utilisateurs, aux groupes ou aux projets, vous pouvez utiliser des politiques d'utilisation sans serveur. Lorsqu’un utilisateur se voit attribuer une politique d'utilisation serverless, son usage serverless est automatiquement étiqueté avec les balises personnalisées de sa politique. Les stratégies d'utilisation sans serveur peuvent être appliquées aux blocs-notes sans serveur, aux travaux, aux pipelines et aux points de terminaison pour la mise en service de modèles.
Remarque
L'utilisation du calcul serverless est consignée dans la table système d’utilisation facturable de votre compte. Les anciens rapports d’utilisation DBU n’incluent pas d’utilisation serverless (sans serveur) ou de balises de stratégie d’utilisation serverless.
Consultez l’utilisation des attributs avec des stratégies d’utilisation sans serveur.
Propagation des étiquettes
Les balises d’espace de travail, de pool et de cluster sont agrégées par Azure Databricks et propagées à des machines virtuelles Azure pour les rapports d’analyse des coûts. Toutefois, les balises de pool et de cluster sont propagées différemment les unes des autres.
Les balises d’espace de travail et de pool sont agrégées et affectées en tant que balises de ressources des machines virtuelles Azure qui hébergent les pools.
Les balises d’espace de travail et de cluster sont agrégées et affectées en tant que balises de ressources des machines virtuelles Azure qui hébergent les clusters.
Lorsque les clusters sont créés à partir de pools, seules les étiquettes d’espace de travail et les étiquettes de pool sont propagées aux machines virtuelles. Les étiquettes de cluster ne sont pas propagées afin de conserver les performances de démarrage du cluster de pool.
Résolution des conflits d’étiquettes
Lorsqu’une balise personnalisée (espace de travail, cluster ou balise de pool) a le même nom de clé qu’une balise Azure Databricks par défaut, la balise personnalisée est automatiquement précédée de x_ pendant la propagation. La balise Azure Databricks par défaut conserve son nom de clé d’origine.
Par exemple, Azure Databricks applique une balise de cluster par défaut vendor = Databricks à tous les clusters. Si vous ajoutez une balise d’espace de travail personnalisée vendor = Azure Databricks, cela est en conflit avec la balise par défaut vendor. Lorsqu’elle est propagée à Azure, la balise d’espace de travail personnalisée devient x_vendor = Azure Databricks, tandis que la balise de Azure Databricks par défaut reste vendor = Databricks.
Warning
Les balises personnalisées en conflit ajoutées par le biais de stratégies de calcul ne sont pas résolues, ce qui entraîne l’échec du cluster ou du pool avec une erreur de paramètres non valide. Vérifiez que vos stratégies de calcul n’ajoutent pas de noms d’étiquettes en conflit.
Mise en application des étiquettes
Pour appliquer l’utilisation de balises personnalisées spécifiques, vous pouvez utiliser des stratégies de calcul. Consultez Mise en application de balises personnalisées. Pour appliquer des balises personnalisées sur des charges de travail de calcul serverless, utilisez des stratégies d’utilisation serverless.
Limitations
- Il peut prendre jusqu’à une heure pour que les balises d’espace de travail personnalisées se propagent à Azure Databricks après toute modification.
- Plus de 50 balises ne peuvent être affectées à une ressource Azure. Si le nombre total d’étiquettes agrégées dépasse cette limite, les étiquettes dotées du préfixe
x_sont évaluées dans l’ordre alphabétique et celles qui dépassent la limite sont ignorées. Si toutes les étiquettes dotées du préfixex_sont ignorées et que le nombre dépasse toujours la limite, les étiquettes restantes sont évaluées dans l’ordre alphabétique et celles qui dépassent la limite sont ignorées. - Les clés et valeurs des étiquettes ne peuvent contenir que des lettres, des espaces, des chiffres ou les caractères
+,-,=,.,_,:,/,@. Les étiquettes contenant d’autres caractères sont non valides. Ces restrictions de caractères sont définies par Azure Resource Manager. - Si vous modifiez les noms ou les valeurs de clé d’étiquette, ces modifications s’appliquent uniquement après le redémarrage du cluster ou le développement du pool.
- Si les balises personnalisées du cluster sont en conflit avec les balises personnalisées d’un pool, le cluster ne peut pas être créé.
- Les balises d’espace de travail nouvellement ajoutées, modifiées ou supprimées ne se propagent pas automatiquement aux ressources de calcul existantes. Pour obtenir de nouvelles balises à propager, ouvrez la page de détails de la ressource de calcul, cliquez sur Modifier, puis Confirmez et redémarrez.