Exfiltration de données

Effectué

L’exfiltration des données est le transfert non autorisé d’informations à partir d’ordinateurs ou d’appareils. Dans les systèmes IA, l’exfiltration des données présente des risques uniques, car les modèles IA contiennent, accèdent et génèrent des données précieuses à plusieurs niveaux. MITRE ATLAS catalogue les attaques d’exfiltration sous la tactique AML. TA0010.

Trois types d’exfiltration de données liés à l’IA sont les suivants :

  • Exfiltration du modèle IA
  • Exfiltration des données d’apprentissage
  • Exfiltration des données d’interaction

Exfiltration du modèle IA

L’exfiltration de modèle est l’extraction non autorisée de l’architecture, des pondérations ou d’autres composants propriétaires d’un modèle IA. Les attaquants peuvent exploiter cela pour répliquer ou utiliser le modèle à des fins personnelles, ce qui peut compromettre son intégrité et sa propriété intellectuelle.

Le vol de modèle peut se produire via :

  • Accès direct : un attaquant accède aux fichiers de modèle stockés dans un référentiel, un stockage cloud ou un environnement de déploiement
  • Extraction basée sur l’API : un attaquant envoie un grand nombre de requêtes soigneusement conçues à l’API du modèle et utilise les réponses pour reconstruire une copie fonctionnelle du modèle (parfois appelée vol de modèle ou clonage de modèle)
  • Attaques par canal latéral : un attaquant observe des informations indirectes telles que les temps de réponse, l’utilisation de la mémoire ou la consommation d’alimentation pour déduire des détails sur la structure interne du modèle

Diagramme en trois colonnes des types d’exfiltration de données IA : vol de modèle, extraction de données d’entraînement et fuite d’interaction avec une mise en surbrillance autour du vol de modèle.

Exfiltration des données d’apprentissage

L’exfiltration des données d’apprentissage se produit lorsque les données utilisées pour créer un modèle IA sont transférées ou divulguées illicitement. Cela implique un accès non autorisé aux jeux de données sensibles, ce qui peut entraîner des violations de confidentialité, des violations réglementaires ou des attaques contradictoires qui exploitent les connaissances des données d’entraînement.

Les attaquants peuvent également utiliser des attaques d’inférence d’appartenance pour déterminer si des points de données spécifiques ont été inclus dans le jeu d’entraînement, par exemple, en confirmant que les dossiers médicaux d’une personne spécifique ont été utilisés pour former un modèle de santé.

Diagramme en trois colonnes des types d’exfiltration de données IA : vol de modèle, extraction de données d’entraînement et fuite d’interaction avec une mise en évidence autour de l’extraction des données d’entraînement.

Exfiltration des données d’interaction

Lorsque les utilisateurs interagissent avec des systèmes IA, en particulier des agents d’IA, ils fournissent régulièrement des informations sensibles via des invites : chiffres financiers, détails des clients, stratégie interne ou code propriétaire. Au-delà de ce que les utilisateurs tapent directement, les agents IA extraient également des données organisationnelles par le biais de la génération augmentée par récupération (RAG), des appels d'outils et des attachements de fichiers. Cela crée une collection riche de données sensibles qui s’étend bien au-delà du jeu d’entraînement d’origine.

Les données d’interaction sont vulnérables à l’exfiltration de plusieurs façons :

  • Collecte des invites et des réponses : un attaquant qui accède aux journaux de conversation ou intercepte les appels d’API peut extraire les informations sensibles partagées par les utilisateurs pendant leurs sessions.
  • Injection d’invite indirecte : une instruction malveillante masquée dans un document ou un e-mail peut entraîner la fuite de données organisationnelles récupérées par le biais de ses réponses, sans que l’utilisateur se rende compte de ce qui s’est passé.
  • Interception de la charge utile des appels d’outils : lorsqu’un agent appelle des outils externes ou des API, il transmet des données entre les systèmes. Si ces connexions ne sont pas correctement sécurisées, un attaquant peut intercepter les charges utiles pour capturer les données échangées.
  • Exposition du journal des conversations : les historiques de conversation stockés contiennent à la fois les entrées sensibles de l’utilisateur et les réponses du système, qui incluent souvent des informations confidentielles résumées. Ces journaux deviennent une cible à haute valeur s’ils ne sont pas correctement protégés.

Contrairement à l’exfiltration de données d’apprentissage ou de modèle, l’exfiltration des données d’interaction est un risque continu qui se produit chaque fois qu’un utilisateur travaille avec un système IA. Le volume et la sensibilité de ces données augmentent avec chaque interaction.

Diagramme en trois colonnes des types d’exfiltration de données IA : vol de modèle, extraction de données d’entraînement et fuite d’interaction avec une mise en surbrillance autour des fuites de données.

Le double rôle de l’IA dans l’exfiltration de données

L’IA joue un rôle essentiel dans la prévention et l’activation de l’exfiltration des données. Bien que les outils basés sur l’IA puissent aider à détecter les modèles d’accès aux données anormales et à identifier les violations potentielles, l’IA fournit également aux attaquants des fonctionnalités avancées pour voler des informations sensibles plus efficacement. Cette double influence crée un défi complexe pour les organisations.

Stratégies d’atténuation

L’exfiltration des données peut être atténuée par le biais d’une combinaison de pratiques de sécurité standard et de contrôles spécifiques à l’IA :

  • Principe du privilège minimum : restreindre l’accès aux modèles, aux données d’apprentissage et aux journaux d’interaction aux seules personnes qui en ont besoin
  • Classification et étiquetage des données : classifier et étiqueter les données accessibles par les applications IA afin que les systèmes de surveillance puissent appliquer des contrôles d’accès appropriés
  • Architecture de confiance zéro : ne supposez pas l’approbation en fonction de l’emplacement réseau ; vérifier chaque demande d’accès
  • Chiffrement : chiffrer les données au repos et en transit, y compris les journaux de conversation et les communications d’API
  • Stratégies de rétention : limiter la durée pendant laquelle les données d’interaction sont stockées pour réduire la fenêtre d’exposition
  • Nettoyage des entrées : nettoyer les entrées avant qu’elles ne soient transmises à des outils externes pour empêcher les fuites de données par le biais d’actions d’agent
  • Surveillance comportementale : suivre le comportement de l’agent pour les modèles d’accès aux données inattendus susceptibles d’indiquer une tentative d’exfiltration
  • Limitation du débit : limiter les volumes de requête d’API pour rendre les attaques d’extraction de modèle irréalisables