Configurer des limites de débit pour les points de terminaison Unity AI Gateway

Important

Cette fonctionnalité est en version bêta. Les administrateurs de compte peuvent contrôler l’accès à cette fonctionnalité à partir de la page Aperçus de la console de compte. Consultez les aperçus Manage Azure Databricks.

Cette page explique comment configurer des limites de débit pour les points de terminaison Unity AI Gateway . Les limites de débit vous permettent d’appliquer des limites de consommation sur un point de terminaison pour gérer la capacité et les coûts.

Exigences

  • Préversion de Unity AI Gateway activée pour votre compte. Consultez les aperçus Manage Azure Databricks.
  • Un espace de travail Azure Databricks dans une région prise en charge par le Unity AI Gateway.

Configurer des limites de débit sur un point de terminaison

Vous pouvez gérer et spécifier le nombre de requêtes par minute (QPM) ou de jetons par minute (TPM) que votre point de terminaison peut prendre en charge.

Pour activer les limites de débit, sélectionnez Limites de débit lors de la configuration de votre point de terminaison Unity AI Gateway. Vous pouvez définir des limites de débit basées sur des requêtes et basées sur des jetons aux niveaux suivants :

Champ Description
Point de terminaison Spécifiez le nombre maximal de QPM ou TPM que le point de terminaison entier peut gérer. Cette limite s’applique à tout le trafic, quel que soit l’utilisateur.
Utilisateur (par défaut) Spécifiez une limite de débit par utilisateur par défaut qui s’applique à tous les utilisateurs du point de terminaison, sauf si une limite de débit personnalisée plus spécifique est définie.
Limites de débit personnalisées Les limites de débit personnalisées peuvent être spécifiées pour :
  • Utilisateurs individuels ou principaux de service : ceux-ci prennent la priorité sur les limites de taux personnalisés de groupe d’utilisateurs.
  • Groupes d’utilisateurs : cette limite est une limite de débit partagée pour tous les membres du groupe.

Détails et comportement

  • Les limites de débit s’appliquent uniquement aux utilisateurs autorisés à interroger le point de terminaison.
  • Par défaut, il n’existe aucune limite de débit configurée pour les utilisateurs ou le point de terminaison.
  • La limite de débit de point de terminaison est un maximum global. Si cette limite est dépassée, toutes les demandes adressées au point de terminaison sont bloquées, quelles que soient les limites de débit spécifiques à l’utilisateur ou au groupe.
  • Si un point de terminaison, un utilisateur ou un principal de service a à la fois une limite de débit basée sur les requêtes et une limite de débit basée sur les jetons spécifiée, la limite de débit plus restrictive est appliquée.
  • Les limites de débit personnalisées remplacent la limite de débit utilisateur (par défaut).
    • Si un utilisateur appartient à une limite spécifique à l’utilisateur et à une limite spécifique à un groupe, la limite spécifique à l’utilisateur est appliquée.
    • Si un utilisateur appartient à plusieurs groupes d’utilisateurs avec des limites de taux QPM ou TPM différentes, il est soumis à une limite s’il dépasse toutes les limites QPM ou toutes les limites TPM de ses groupes d’utilisateurs.

Comportement du limiteur de débit

Lorsqu’une limite de débit est dépassée, le point de terminaison retourne une réponse HTTP 429 (Trop de requêtes). Les clients doivent implémenter une logique de réessai avec un retrait exponentiel.

Le limiteur de débit est conçu pour une faible latence, ce qui signifie que les comportements suivants sont attendus :

  • Les demandes simultanées ne sont pas vérifiées à l’avance. Le système enregistre l’utilisation après l’envoi d’une réponse. Par conséquent, si plusieurs demandes arrivent en même temps, elles peuvent toutes passer avant que l’utilisation ne soit comptabilisée. Les demandes ultérieures sont ensuite rejetées jusqu’à ce que la capacité récupère. Dans la pratique, vous pouvez voir des rafales de trafic suivies de brèves pauses dans un modèle répétitif.
  • Les limites sont appliquées indépendamment entre les instances de service, de sorte que des rafales courtes légèrement supérieures à la limite configurée peuvent se produire, en particulier juste après la création ou la mise à jour d’un point de terminaison.

Dans une fenêtre de temps plus longue, le taux de requêtes moyen converge vers la limite configurée.

Limites

  • Vous pouvez spécifier un maximum de 20 limites de taux par point de terminaison.
  • Vous pouvez spécifier un maximum de 5 limites de taux spécifiques au groupe par point de terminaison.

Étapes suivantes