Ancrer les systèmes d’IA
L'ancrage est le processus consistant à connecter les réponses d’un système d'IA aux données réelles vérifiées plutôt que de s’appuyer uniquement sur les connaissances générales du modèle. Sans ancrage, les modèles d'intelligence artificielle générative se basent exclusivement sur des motifs appris lors de l’entraînement, qui peuvent être obsolètes, incomplets ou incorrects pour un cas d'utilisation spécifique. La mise à la terre est à la fois un contrôle de qualité et un contrôle de sécurité.
Pourquoi l'importance de la mise à la terre pour la sécurité
Du point de vue de la sécurité, les systèmes d’INTELLIGENCE artificielle sans premier plan présentent plusieurs risques :
- Sorties fabriquées : un modèle non fondé est plus susceptible de générer des informations déclarées avec assurance mais factuellement incorrectes, sur lesquelles les utilisateurs peuvent agir sans vérification
- Informations obsolètes : Les modèles formés sur les données depuis des mois ou des années peuvent fournir des conseils obsolètes, particulièrement dangereux pour les conseils en matière de sécurité, les exigences de conformité ou la documentation sur les produits
- Étendue illimitée : sans fondement, un modèle peut répondre à des questions sur n’importe quel sujet, y compris les domaines où il n'a pas suffisamment de connaissances pour être fiable
L'ancrage contraint le modèle à travailler avec des sources de données spécifiques et vérifiées, réduisant les risques associés aux sorties fabriquées et aidant à appliquer les limites définies dans l’invite du système.
Techniques de mise à l’terre
Plusieurs techniques sont couramment utilisées pour mettre en place des systèmes IA dans des données vérifiées :
Génération augmentée par récupération (RAG)
RAG est la technique de base de référence la plus largement adoptée. Il fonctionne par :
- Récupération de documents ou de données pertinents à partir d’une base de connaissances, d’une base de données ou d’un index de recherche en fonction de la requête de l’utilisateur
- Augmentation de l’invite avec ces informations récupérées
- Génération d’une réponse qui est informée à la fois par les fonctionnalités du modèle et les données récupérées spécifiques
RAG permet à l’IA de fournir des réponses actuelles spécifiques au contexte sans que le modèle soit réentraîné. Par exemple, un assistant IA basé sur RAG peut répondre à des questions sur les stratégies internes d’une organisation en récupérant les derniers documents de stratégie au moment de la requête.
Les considérations relatives à la sécurité pour les implémentations RAG sont les suivantes :
- Contrôle d’accès sur les données sources : vérifiez que le système de récupération respecte les mêmes contrôles d’accès que l’utilisateur. L’IA ne doit pas récupérer les documents que l’utilisateur n’est pas autorisé à voir.
- Intégrité des données sources : protégez la base de connaissances contre la falsification. Si un attaquant peut modifier les données de base, il peut influencer les réponses de l’IA, une forme de manipulation indirecte.
- Citation et traçabilité : configurez le système pour citer les sources qui ont informé chaque réponse, ce qui permet de vérifier la précision et de détecter quand le modèle s’éloigne de ses données de base.
Ingénierie rapide pour la mise à l’terre
Les techniques d’ingénierie rapide avancées complètent RAG en demandant au modèle comment utiliser ses données de base :
- Inclure des instructions explicites pour baser des réponses uniquement sur le contexte fourni
- Définissez la façon dont le modèle doit répondre lorsque les données de base ne contiennent pas la réponse (« En fonction des informations disponibles, je n’ai pas de réponse à cette question »)
- Définir des règles pour la façon dont le modèle doit gérer les informations en conflit entre les sources
Détection de l'ancrage
Certaines plateformes d'intelligence artificielle offrent une détection de l'enracinement comme fonctionnalité intégrée. Cette fonctionnalité évalue les revendications du modèle sur les documents sources fournis, signalant les réponses qui contiennent des informations non prises en charge par les données de base. La détection de la véracité agit comme un contrôle de sécurité post-génération, interceptant les sorties fallacieuses qui ont échappé à d'autres contrôles.
Bonnes pratiques de mise à la terre
Lors de l'implémentation de l'ancrage dans les systèmes d'IA :
- Maintenir les données de base à jour : mettez en place des processus pour mettre régulièrement à jour la base de connaissances. Les données de mise à la terre obsolètes peuvent être aussi problématiques qu’aucune donnée de mise à la terre.
- Valider la qualité de la source : utilisez uniquement des sources faisant autorité et vérifiées pour l'étayage. La mise en place de données non fiables transfère cette non-fiabilité aux réponses de l’IA.
- Surveiller les métriques d'ancrage : suivez à quelle fréquence les réponses du modèle sont ancrées par rapport à celles non ancrées. Une augmentation des réponses non fondées peut indiquer un problème avec le flux de récupération ou les données de base proprement dites.
- Combiner avec des filtres de contenu : utilisez la détection de l'ancrage en même temps que les filtres de contenu et les instructions de métaprompt pour une approche de défense par couches.
Diagramme du processus d’ancrage RAG de la requête utilisateur à la récupération jusqu'à la réponse validée.