Atténuer les risques potentiels

Effectué

Tip

Pour plus d’informations, consultez l’onglet Texte et images !

Après avoir déterminé une ligne de base et un moyen de mesurer la sortie dangereuse générée par une solution, vous pouvez prendre des mesures pour atténuer les dommages potentiels, et quand il convient de retester le système modifié et de comparer les niveaux de préjudice par rapport à la base de référence.

L’atténuation des dommages potentiels dans une solution d’IA générative implique une approche en couches, dans laquelle les techniques d’atténuation peuvent être appliquées à chacune des quatre couches, comme illustré ici :

Diagramme montrant le modèle, le système de sécurité, l’application et les couches de positionnement d’une solution IA générative.

  1. Modèle
  2. Système de sécurité
  3. Message système et ancrage
  4. Expérience utilisateur

1 : La couche modèle

La couche de modèle se compose d’un ou plusieurs modèles d’INTELLIGENCE artificielle générative au cœur de votre solution. Par exemple, votre solution peut être générée autour d’un modèle tel que GPT-4.

Les atténuations que vous pouvez appliquer au niveau de la couche modèle sont les suivantes :

  • Sélection d’un modèle approprié pour l’utilisation de la solution prévue. Par exemple, alors que GPT-4 peut être un modèle puissant et polyvalent, dans une solution qui n’est nécessaire que pour classifier de petites entrées de texte spécifiques, un modèle plus simple peut fournir les fonctionnalités requises avec un risque moindre de génération de contenu nuisible.
  • Ajuster un modèle de base avec vos propres données d’apprentissage afin que les réponses qu’il génère soient plus pertinentes et étendues à votre scénario de solution.

La couche du système de sécurité

La couche système de sécurité inclut des configurations et des fonctionnalités au niveau de la plateforme qui aident à atténuer les dommages. À titre d’exemple, Microsoft Foundry intègre des mécanismes de garde-fous appliquant des critères permettant de filtrer requêtes et réponses selon des filtres de contenu classés en quatre niveaux de gravité (sûr, faible, moyen, élevé) couvrant cinq catégories de risques potentiels (haine et équité, contenu sexuel, violence, automutilation et conformité aux tâches).

Parmi les autres dispositifs d’atténuation de la couche de sécurité des garde-fous Foundry figurent des protections de requêtes reposant sur des algorithmes de détection d’abus, capables d’identifier un usage abusif systématique de la solution (par exemple, un utilisateur tentant de contourner la requête système).

3 : Le message système et la couche d'ancrage

Cette couche se concentre sur la construction d'instructions soumises au modèle. Les techniques d’atténuation des dommages que vous pouvez appliquer à cette couche sont les suivantes :

  • Spécification des entrées système qui définissent des paramètres comportementaux pour le modèle.
  • Application de l’ingénierie des invites pour ajouter des données d’ancrage aux invites d’entrée, optimisant ainsi la probabilité d’une sortie pertinente et non dangereuse.
  • Utilisation d’une approche de génération augmentée de récupération (RAG) pour récupérer des données contextuelles à partir de sources de données fiables et les inclure dans des invites.

4 : Couche d’expérience utilisateur

La couche expérience utilisateur inclut l’application logicielle par laquelle les utilisateurs interagissent avec le modèle d’IA générative ainsi que la documentation ou d'autres supports utilisateur qui décrivent l’utilisation de la solution à ses utilisateurs et parties prenantes.

La conception de l’interface utilisateur de l’application pour limiter les entrées à des sujets ou types spécifiques, ou l’application d’une validation d’entrée et de sortie peut atténuer le risque de réponses potentiellement dangereuses.

La documentation et d’autres descriptions d’une solution d’IA générative doivent être correctement transparentes sur les fonctionnalités et les limitations du système, les modèles sur lesquels il est basé et tous les dommages potentiels qui peuvent ne pas toujours être traités par les mesures d’atténuation que vous avez mises en place.