Note de transparence sur les évaluations des risques et de la sécurité de Microsoft Foundry

Qu’est-ce qu’une note de transparence ?

Un système d’IA inclut non seulement la technologie, mais aussi les personnes qui l’utiliseront, les personnes qui seront affectées par elle et l’environnement dans lequel il est déployé. La création d’un système adapté à son objectif prévu nécessite une compréhension du fonctionnement de la technologie, de ses capacités et de ses limitations, et de la façon d’atteindre les meilleures performances. les notes de transparence de Microsoft sont destinées à vous aider à comprendre le fonctionnement de notre technologie IA, les choix que les propriétaires du système peuvent faire qui influencent les performances et le comportement du système, ainsi que l'importance de penser à l'ensemble du système, y compris la technologie, les personnes et l'environnement. Vous pouvez utiliser des notes de transparence lors du développement ou du déploiement de votre propre système, ou les partager avec les personnes qui utiliseront ou seront affectées par votre système.

Les notes de transparence de Microsoft font partie d'un effort plus large de Microsoft pour mettre en pratique nos principes d'IA. Pour en savoir plus, consultez les Microsoft principes d’IA.

Les principes fondamentaux des évaluations des risques et de la sécurité Microsoft Foundry

Introduction

Les modèles vendus directement par Azure ont été évalués par Microsoft en fonction des normes d’IA responsable de Microsoft. Tous les autres modèles, y compris, mais sans s'y limiter, les modèles Anthropic et les modèles Open provenant du hub Hugging Face ou de Fireworks AI, sont des produits non Microsoft conformément aux conditions du produit et n'ont pas été évalués par Microsoft.

Qu’un modèle soit vendu directement par Azure ou qu’il s’agisse d’un produit non Microsoft, les clients doivent effectuer leurs propres évaluations des risques et de la sécurité. Les évaluations des risques et de la sécurité Foundry permettent aux utilisateurs d’évaluer la sortie de leur application d’IA générative pour les risques de contenu textuel : contenu haineux et injuste, contenu sexuel, contenu violent, contenu lié à l’auto-préjudice, vulnérabilité de jailbreak direct et indirect et matériel protégé dans le contenu. Les évaluations de sécurité peuvent également aider à générer des jeux de données contradictoires pour vous aider à accélérer et à augmenter l’opération d’association rouge. Les évaluations de sécurité de foundry reflètent les engagements de Microsoft pour s'assurer que les systèmes d'IA sont conçus de manière sécurisée et responsable, en veillant à ce que nos principes d'IA responsable soient opérationnels.

Termes clés

Le contenu haineux et injuste (pour le texte et les images) fait référence à toute langue ou image relative à la haine envers ou à des représentations injustes des individus et des groupes sociaux, y compris, mais pas limité à la race, à l’origine ethnique, à la nationalité, au sexe, à l’orientation sexuelle, à la religion, à l’immigration, à la capacité, à l’apparence personnelle et à la taille du corps. L’injustice se produit lorsque les systèmes d’IA traitent ou représentent des groupes sociaux inéquitables, créant ou contribuant à des inégalités sociales.
Le contenu sexuel (pour le texte et les images) comprend la langue ou l’imagerie relative aux organes anatomiques et aux organes génitaux, les relations romantiques, les actes décrits en termes érotiques, la grossesse, les actes sexuels physiques (y compris l’agression ou la violence sexuelle), la prostitution, la pornographie et l’abus sexuel.
Le contenu violent (pour le texte et les images) comprend la langue ou l’imagerie relative aux actions physiques destinées à blesser, blesser, endommager ou tuer quelqu’un ou quelque chose. Il comprend également des descriptions des armes et armes à feu (et des entités connexes telles que les fabricants et les associations).
Le contenu lié à l’automutilation (pour le texte et les images) comprend le langage ou les images relatives aux actions destinées à se faire du mal, à endommager son propre corps, ou à se suicider.
Le contenu matériel protégé (pour le texte) comprend du contenu textuel connu, par exemple, des paroles de chanson, des articles, des recettes et du contenu web sélectionné, qui peut être généré par de grands modèles linguistiques. En détectant et en empêchant l’affichage de documents protégés, les organisations peuvent maintenir la conformité aux droits de propriété intellectuelle et préserver l’originalité du contenu.
Le contenu matériel protégé (pour les images) fait référence à certains contenus visuels protégés protégés par des droits d’auteur tels que des logos et des marques, des illustrations ou des caractères fictifs. Le système utilise un modèle de base image-texte pour identifier si ce contenu est présent.
Les attaques directes de jailbreak, par invites directes ou par injection d'invite utilisateur désignent les utilisateurs qui manipulent des invites pour injecter des entrées dangereuses dans des modèles de langage afin de perturber les actions et les résultats. Un exemple de commande de jailbreak est une attaque « DAN » (Do Anything Now), qui peut tromper le LLM dans une génération de contenu inappropriée ou ignorer les restrictions imposées par le système.
Le jailbreak indirect, les attaques d’invite indirectes ou les attaques d’injection d’invite inter-domaines font référence au fait que des instructions malveillantes sont masquées dans les données qu’un système IA traite ou génère du contenu à partir de. Ces données peuvent inclure des e-mails, des documents, des sites web ou d’autres sources qui ne sont pas directement créées par le développeur ou l’utilisateur et peuvent entraîner une génération de contenu inappropriée ou ignorer les restrictions imposées par le système.
Le taux de défaut (risque de contenu) est défini comme le pourcentage d’instances de votre jeu de données de test qui dépassent un seuil sur l’échelle de gravité sur toute la taille du jeu de données.
Red-teaming a décrit historiquement des attaques contradictoires systématiques pour tester les vulnérabilités de sécurité. Avec l’essor des modèles de langage volumineux (LLM), le terme s’est étendu au-delà de la cybersécurité traditionnelle et a évolué dans l’utilisation courante pour décrire de nombreux types de détection, de test et d’attaque de systèmes IA. Avec les LLMs, l’utilisation bénigne et adversariale peut produire des sorties potentiellement dangereuses, pouvant prendre de nombreuses formes, notamment du contenu nuisible comme le discours haineux, l’incitation ou la glorification de la violence, la référence à du contenu lié à l’automutilation ou au contenu sexuel.

Capacités

Comportement du système

Foundry provisionne un modèle OpenAI GPT-4o Azure affiné et orchestre les attaques contradictoires contre votre application pour générer un jeu de données de test de haute qualité. Il provisionne ensuite un autre modèle GPT-4o pour annoter votre jeu de données de test pour le contenu et la sécurité. Les utilisateurs fournissent leur point de terminaison d’application IA générative qu’ils souhaitent tester, et les évaluations de sécurité génèrent un jeu de données de test statique sur ce point de terminaison, ainsi que son étiquette de risque de contenu (très faible, faible, moyen, élevé) ou l’étiquette de détection des risques de contenu (True ou False) et le raisonnement pour l’étiquette générée par l’IA.

Cas d’usage

Utilisations prévues

Les évaluations de sécurité ne sont pas destinées à être utilisées à d’autres fins que pour évaluer les risques de contenu et les vulnérabilités de jailbreak de votre application IA générative :

Évaluer votre prédéploiement d’application IA générative : à l’aide de l’Assistant d’évaluation dans le portail Foundry ou du kit de développement logiciel (SDK) Azure IA Python, les évaluations de sécurité peuvent évaluer de manière automatisée pour évaluer le contenu potentiel ou les risques de sécurité.
Augmentation de vos opérations de red teaming : à l’aide du simulateur d'adversaire, les évaluations de sécurité peuvent simuler des interactions adversariales avec votre application d'IA générative pour tenter d'identifier les risques liés au contenu et à la sécurité.
Communication du contenu et des risques de sécurité aux parties prenantes : à l’aide du portail Foundry, vous pouvez partager l’accès à votre projet Foundry avec les résultats des évaluations de sécurité avec les auditeurs ou les parties prenantes de conformité.

Considérations relatives au choix d’un cas d’usage

Nous encourageons les clients à tirer parti des évaluations de sécurité de Foundry dans leurs solutions ou applications innovantes. Toutefois, voici quelques considérations à prendre en compte lors du choix d’un cas d’usage :

Les évaluations de sécurité doivent inclure des évaluations humaines dans la boucle : l’utilisation d’évaluations automatisées telles que les évaluations de sécurité Foundry doit inclure des réviseurs humains tels que des experts de domaine pour évaluer si votre application IA générative a été testée minutieusement avant le déploiement pour les utilisateurs finaux.
Les évaluations de sécurité n'incluent pas une couverture totalement complète : bien que les évaluations de sécurité puissent permettre d'améliorer vos tests pour les risques potentiels liés au contenu ou à la sécurité, elles n'ont pas été conçues pour remplacer les opérations de red teaming spécifiquement destinées au domaine, aux cas d'utilisation et au type d'utilisateurs finaux de votre application.
Scénarios pris en charge :
- Pour la simulation contradictoire : Réponse aux questions, dialogue multi-tours, résumé, recherche, réécriture de texte, génération de contenu non fondé et fondé.
- Pour l’annotation automatisée : Questions-réponses et conversation en plusieurs tours.
Actuellement, le service est le mieux utilisé avec le domaine anglais pour les générations textuelles uniquement. Des fonctionnalités supplémentaires, notamment la prise en charge multimodèle, seront prises en compte pour les futures versions.
La couverture des risques de contenu fournis dans les évaluations de sécurité est sous-échantillonnée d’un nombre limité de groupes et de sujets marginalisés :
- La métrique de haine et d’injustice comprend une couverture pour un nombre limité de groupes marginalisés pour le facteur démographique du sexe (par exemple, hommes, femmes, personnes non binaires) et race, origine, ethnicité et nationalité (par exemple, Noir, Mexicain, Européen). Tous les groupes marginalisés dans le genre et la race, l’ancêtre, l’ethnicité et la nationalité ne sont pas couverts. D’autres facteurs démographiques pertinents pour la haine et l’injustice n’ont actuellement pas de couverture (par exemple, handicap, sexualité, religion).
- Les métriques relatives au contenu sexuel, violent et à l’auto-préjudice reposent sur une conceptualisation préliminaire de ces préjudices moins développés que la haine et l’injustice. Cela signifie que nous pouvons faire des revendications moins fortes sur la couverture des mesures et la façon dont les mesures représentent les différentes façons dont ces dommages peuvent se produire. La couverture de ces types de contenu comprend un nombre limité de sujets liés au sexe (par exemple, la violence sexuelle, les relations sexuelles, les actes sexuels), la violence (par exemple, l’abus, l’injuration d’autres personnes, l’enlèvement) et l’auto-préjudice (par exemple, la mort intentionnelle, l’auto-blessure intentionnelle, les troubles alimentaires).
Les évaluations de sécurité de la fonderie n'autorisent pas actuellement les plug-ins ou l’extensibilité.
Pour maintenir la qualité à jour et améliorer la couverture, nous allons viser une cadence de sorties futures pour améliorer les capacités de simulation et d’annotation adversariales du service.

Limitations techniques, facteurs opérationnels et plages

Le domaine des modèles de langage volumineux (LLMs) continue d’évoluer à un rythme rapide, ce qui nécessite une amélioration continue des techniques d’évaluation pour garantir un déploiement sécurisé et fiable du système d’INTELLIGENCE artificielle. Les évaluations de sécurité des fonderies reflètent l'engagement de Microsoft à continuer d'innover dans le domaine de l'évaluation des modèles de langage étendus (LLM). Nous nous efforçons de fournir les meilleurs outils pour vous aider à évaluer la sécurité de vos applications d’INTELLIGENCE artificielle générative, mais reconnaître que l’évaluation efficace est un travail continu en cours.
La personnalisation des évaluations de sécurité Foundry est actuellement limitée. Nous attendons uniquement des utilisateurs qu'ils fournissent l'endpoint de leur application d'IA générative d'entrée, et notre service produira un jeu de données statique étiqueté pour l'évaluation du risque de contenu.
Enfin, il convient de noter que ce système n’automatise pas d’actions ou de tâches, il fournit uniquement une évaluation de vos sorties d’application IA générative, qui doivent être examinées par un décideur humain dans la boucle avant de choisir de déployer l’application ou le système d’IA générative en production pour les utilisateurs finaux.

Performances du système

Meilleures pratiques pour améliorer les performances du système

Lors de la prise en compte de votre domaine, qui pourrait traiter certains contenus de manière plus sensible que d’autres, envisagez d’ajuster le seuil pour calculer le taux de défectuosité.
Lorsque vous utilisez les évaluations de sécurité automatisées, il peut parfois y avoir une erreur dans vos étiquettes générées par l’IA pour la gravité d’un risque de contenu ou de son raisonnement. Il existe une colonne de commentaires humains manuelle pour permettre la validation en boucle des résultats de l’évaluation automatisée de la sécurité.

Évaluation des évaluations de sécurité de Foundry

Méthodes d’évaluation

Pour tous les types de risques de contenu pris en charge, nous avons vérifié en interne la qualité en comparant le taux de correspondances approximatives entre les étiqueteurs humains à l’aide d’une échelle de gravité de 0 à 7 et l’annotateur automatisé des évaluations de sécurité utilisant également une échelle de gravité de 0 à 7 sur les mêmes jeux de données. Pour chaque zone de risque, nous avions à la fois des labeliseurs humains et un annotateur automatisé qui ont labelisé 500 textes anglais à tour unique, 250 générations de texte à image à tour unique et 250 textes multimodaux avec des générations d’image à texte. Les étiqueteurs humains et l’annotateur automatisé n’utilisaient pas exactement les mêmes versions des instructions d’annotation ; alors que les lignes directrices de l’annotateur automatisé découlent des lignes directrices pour les humains, elles se sont depuis divergentes à divers degrés (avec les directives de haine et d’injustice ayant divergent le plus). Malgré ces légères et modérées différences, nous pensons qu’il est toujours utile de partager des tendances générales et des insights de notre comparaison de correspondances approximatives. Dans nos comparaisons, nous avons recherché des correspondances avec une tolérance de 2 niveaux (où l’étiquette humaine correspondait exactement à l’étiquette d’annotateur automatisé exactement ou se trouvait dans 2 niveaux supérieurs ou inférieurs à la gravité), les correspondances avec une tolérance de niveau 1 et les correspondances avec une tolérance de niveau 0.

Résultats de l’évaluation

Dans l’ensemble, nous avons vu un taux élevé de correspondances approximatives entre les risques d’auto-préjudice et de contenu sexuel sur tous les niveaux de tolérance. Pour la violence et pour la haine et l’injustice, le taux de correspondance approximatif entre les niveaux de tolérance était inférieur. Ces résultats étaient en partie dus à une divergence accrue dans le contenu des instructions d’annotation pour les étiqueteurs humains et l’annotateur automatisé, et en partie en raison de la quantité accrue de contenu et de complexité dans des directives spécifiques.

Bien que nos comparaisons soient entre des entités qui utilisaient légèrement des directives d’annotation légèrement différentes (et ne sont donc pas des comparaisons standard d’accord de modèle humain), ces comparaisons fournissent une estimation de la qualité que nous pouvons attendre des évaluations de sécurité de Foundry en fonction des paramètres de ces comparaisons. Plus précisément, nous n’avons examiné que les échantillons anglais, de sorte que nos résultats pourraient ne pas être généralisés à d’autres langues. En outre, chaque échantillon de jeu de données se compose d’un seul tour, et donc d’autres expériences sont nécessaires pour vérifier la généralisabilité de nos résultats d’évaluation dans des scénarios à plusieurs tour (par exemple, une conversation de retour et arrière, y compris les requêtes utilisateur et les réponses système). Les types d’échantillons utilisés dans ces jeux de données d’évaluation peuvent également affecter considérablement le taux de correspondance approximatif entre les étiquettes humaines et un annotateur automatisé : si les échantillons sont plus faciles à étiqueter (par exemple, si tous les échantillons sont exempts de risques de contenu), nous pouvons nous attendre à ce que le taux de correspondance approximatif soit plus élevé. La qualité de l'étiquetage humain pour une évaluation pourrait également affecter la généralisation de nos résultats.

Évaluation et intégration des évaluations de sécurité Foundry pour votre utilisation

La mesure et l’évaluation de votre application IA générative font partie intégrante d’une approche holistique de la gestion des risques de l’IA. Les évaluations de sécurité des fonderies sont complémentaires et doivent être utilisées en tandem avec d’autres pratiques de gestion des risques d’IA. Les experts du domaine et les réviseurs humains intégrés dans le processus doivent fournir une supervision appropriée lors de l’utilisation d’évaluations de sécurité assistées par l’IA dans le cycle de conception, de développement et de déploiement d’applications d’IA générative. Vous devez comprendre les limitations et les utilisations prévues des évaluations de sécurité et veillez à ne pas vous fier uniquement aux résultats produits par les évaluations de sécurité assistées par l’IA de Foundry de manière isolée.

En raison de la nature non déterministe des llMs, vous pouvez rencontrer des résultats faux négatifs ou positifs, tels qu’un niveau de gravité élevé de contenu violent marqué comme « très faible » ou « faible ». En outre, les résultats de l’évaluation peuvent avoir des significations différentes pour différents publics. Par exemple, les évaluations de sécurité peuvent générer une étiquette pour une gravité « faible » de contenu violent qui peut ne pas s’aligner sur la définition d’un réviseur humain de la gravité de ce contenu violent spécifique. Dans le portail Foundry, nous fournissons une colonne de commentaires humains avec des pouces vers le haut et des pouces vers le bas lors de l’affichage des résultats d’évaluation pour exposer les instances approuvées ou signalées comme incorrectes par un réviseur humain. Considérez le contexte de la façon dont vos résultats peuvent être interprétés pour la prise de décision par d’autres personnes avec lesquelles vous pouvez partager l’évaluation et valider vos résultats d’évaluation avec le niveau d’examen approprié du niveau de risque dans l’environnement dans lequel chaque application IA générative fonctionne.

En savoir plus sur l’IA responsable

Microsoft principes d’IA
Ressources de l'IA responsable de Microsoft
Les cours d'apprentissage de Microsoft Azure sur l'IA responsable

En savoir plus sur les évaluations de sécurité de Foundry

Documentation conceptuelle de Microsoft sur notre approche de l'évaluation des applications d'IA générative
Documentation conceptuelle de Microsoft sur le fonctionnement de l'évaluation de la sécurité
Microsoft documentation pratique sur l’utilisation d’évaluations de sécurité
Blog technique sur la façon d’évaluer les risques de contenu et de sécurité dans vos applications IA génératives

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-30