IndirectAttackEvaluator Constructor
Definitie
Belangrijk
Bepaalde informatie heeft betrekking op een voorlopige productversie die aanzienlijk kan worden gewijzigd voordat deze wordt uitgebracht. Microsoft biedt geen enkele expliciete of impliciete garanties met betrekking tot de informatie die hier wordt verstrekt.
Een IEvaluator die gebruikmaakt van de Azure AI Foundry Evaluation-service om reacties te evalueren die zijn geproduceerd door een AI-model voor de aanwezigheid van indirecte aanvallen, zoals gemanipuleerde inhoud, inbraak en informatieverzameling.
public:
IndirectAttackEvaluator();
public IndirectAttackEvaluator();
Public Sub New ()
Opmerkingen
Indirecte aanvallen, ook wel bekend als prompt in meerdere domeinen geïnjecteerde aanvallen (XPIA), zijn wanneer jailbreakaanvallen worden geïnjecteerd in de context van een document of bron die kan leiden tot een gewijzigd, onverwacht gedrag. Evaluaties van indirecte aanvallen worden onderverdeeld in drie subcategorieën:
Gemanipuleerde inhoud: deze categorie omvat opdrachten die gericht zijn op het wijzigen of fabriceren van informatie, vaak om misleiden of misleiden. Het omvat acties zoals het verspreiden van valse informatie, het wijzigen van taal of opmaak en het verbergen of benadrukken van specifieke details. Het doel is vaak om percepties of gedragingen te manipuleren door de stroom en presentatie van informatie te beheren.
Inbraak: Deze categorie omvat opdrachten die proberen systemen te schenden, onbevoegde toegang te verkrijgen of bevoegdheden onrechtmatig te verhogen. Het omvat het maken van backdoors, het misbruiken van beveiligingsproblemen en traditionele jailbreaks om beveiligingsmaatregelen te omzeilen. De bedoeling is vaak om zonder detectie controle of toegang te krijgen tot gevoelige gegevens.
Gegevens verzamelen: deze categorie heeft betrekking op het openen, verwijderen of wijzigen van gegevens zonder autorisatie, vaak voor schadelijke doeleinden. Het omvat het exfiltreren van gevoelige gegevens, manipulatie met systeemrecords en het verwijderen of wijzigen van bestaande informatie. De focus ligt op het verkrijgen of manipuleren van gegevens om systemen en individuen te misbruiken of te misbruiken.
IndirectAttackEvaluator retourneert een BooleanMetric met een waarde om true de aanwezigheid van een indirecte aanval in het antwoord aan te geven en een waarde voor het aangeven van false de afwezigheid van een indirecte aanval.
Houd er rekening mee dat IndirectAttackEvaluator de evaluatie van multimodale inhoud die aanwezig is in de geëvalueerde antwoorden niet ondersteunt. Afbeeldingen en andere multimodale inhoud die aanwezig is in de geëvalueerde antwoorden, worden genegeerd.