Implémenter la sécurité des données IA

Effectué

La sécurité des données est cruciale pour l’IA, car les systèmes IA amplifient les défis existants avec la classification, les autorisations et la gouvernance des données. L’IA facilite la découverte des données, ce qui signifie que les problèmes liés à la gestion des données sont agrandis, ce qui entraîne des fuites de données potentielles et un accès non autorisé. L’IA s’appuie non seulement sur les données, mais crée également de nouvelles données qui gagnent de la valeur au fil du temps, ce qui en fait une cible pour les attaquants. Bien que la sécurité des données ne soit pas une nouvelle discipline, l’IA rend la sécurité des données encore plus critique.

Un principe fondamental de la sécurité des données IA est que les décisions de contrôle d’accès ne doivent jamais être impliquées dans le système IA. L’IA ne doit avoir accès qu’aux mêmes données que l’utilisateur dont elle agit pour le compte.

Capture d’écran des défis liés à la gouvernance et à la sécurité de l’IA, montrant comment l’IA amplifie les problèmes de sécurité des données existants.

Comprendre le paysage des données des systèmes IA

Les systèmes d’INTELLIGENCE artificielle générative interagissent avec un large éventail de types de données qui nécessitent toutes une protection :

  • Données d’apprentissage : les jeux de données utilisés pour créer et affiner des modèles, qui peuvent contenir des informations propriétaires, des données personnelles ou des documents protégés par le droit d’auteur
  • Données de référence : documents, bases de données et bases de connaissances que l’IA récupère au moment de l’exécution par le biais de techniques telles que la génération augmentée par récupération (RAG)
  • Données d’interaction : invites utilisateur, réponses de modèle, historiques de conversation et charges utiles d’appel d’outils générées lors de l’utilisation
  • Sorties générées : Résumés, code, rapports et autres artefacts créés par l’IA, qui peuvent combiner des informations provenant de plusieurs sources sensibles

Chaque type de données a des exigences de sécurité différentes, des modèles d’accès et des implications réglementaires. Une stratégie complète de sécurité des données IA s’adresse à toutes ces stratégies.

Capture d’écran des types de données utilisés par l’IA générative, montrant les catégories de données consommées, créées et consultées.

Implémenter le contrôle d’accès avec des identités d’agent

Le principe selon lequel l’IA doit uniquement accéder aux mêmes données que l’utilisateur dont elle agit pour le compte est simple à l’état, mais l’implémentation nécessite une gestion des identités conçue à des fins. Les infrastructures d’identité d’agent fournissent des moyens standardisés de régir, d’authentifier et d’autoriser des agents IA.

Les infrastructures d’identité de l’agent prennent généralement en charge deux modes d’authentification :

  • Accès délégué (pour le compte de l’utilisateur) : l’agent fonctionne sous l’identité de l’utilisateur authentifié à l’aide d’un flux On-Behalf-Of. L’agent hérite uniquement des autorisations pour lesquelles l’utilisateur a donné son consentement et est autorisé. Cela applique directement le principe selon lequel l’IA ne peut pas accéder aux données auxquelles l’utilisateur ne peut pas accéder.
  • Accès à l’application uniquement : l’agent agit sous sa propre identité dédiée, régie par ses propres attributions de rôles. Ce mode est utilisé pour les flux de travail en arrière-plan ou sans assistance où aucun utilisateur n’est impliqué.

Lorsque vous créez un agent sur une plateforme IA moderne, le service peut provisionner automatiquement une identité d’agent. Les administrateurs attribuent ensuite des rôles à cette identité à l’aide du contrôle d’accès en fonction du rôle (RBAC), appliquant un accès avec privilège minimum au niveau de l’agent, distinct des autorisations des développeurs humains qui l’ont créée.

Cette séparation concerne l’auditabilité : les opérations effectuées par l’agent IA apparaissent dans les journaux d’activité sous l’identité de l’agent, et non dans le compte d’un utilisateur humain, ce qui permet de détecter et d’examiner le comportement inattendu de l’agent.

Par exemple, Identifiant d’assistant Microsoft Entra fournit cette fonctionnalité en émettant des identités dédiées pour les agents IA qui prennent en charge les modes d’accès délégués et d’application uniquement, avec des attributions de rôles gérées via Azure RBAC.

Diagramme comparant les modes d’accès délégués et d’application uniquement pour les identités d’agent IA.

Classification et gouvernance des données

Une sécurité efficace des données IA nécessite également des pratiques de gouvernance des données fortes :

  • Classifiez les données avant l’accès à l’IA : assurez-vous que les données accessibles par les systèmes IA sont classifiées et étiquetées en fonction de son niveau de confidentialité. L’IA peut appliquer uniquement des contrôles d’accès qui existent , si les données ne sont pas correctement classifiées, l’IA peut exposer des informations sensibles à des utilisateurs non autorisés.
  • Appliquer des stratégies de protection contre la perte de données (DLP) : étendez les stratégies DLP existantes pour couvrir les canaux d’interaction IA. Surveiller l’apparition de données sensibles dans les requêtes, les réponses de l’IA et les charges utiles des appels d’outils.
  • Appliquer les stratégies de rétention et de suppression : définissez la durée pendant laquelle les données d’interaction (journaux de conversation, historiques d’invite) sont conservées. Réduisez la fenêtre d’exposition en purgeant automatiquement les données qui ne sont plus nécessaires.
  • Auditer les modèles d’accès aux données : surveillez les données auxquelles l’IA accède, quand et au nom duquel. Des modèles d’accès anormales, tels qu’un agent interrogeant soudainement de grands volumes de données en dehors de son étendue normale, peuvent indiquer une compromission.