Identifiera risker för autonoma agentiska AI-system

Pelarnamn: Övervaka och identifiera hot
Mönsternamn: Minska risken för autonoma agentiska AI-system

Kontext och problem

Autonoma agentiska AI-system kan planera, köra och anpassa åtgärder mot mål i stället för att svara på en enda fråga. Eftersom de kan anropa verktyg, anropa API:er, komma åt data och samordna mellan tjänster kan de ge verkliga effekter med begränsad mänsklig inblandning. Denna autonomi ökar både effekten av fel och systemets attraktionskraft för angripare. Varje agent-till-verktyg-, agent-till-tjänst- och agent-till-agent-interaktion utökar attackytan och kan medföra risker som indirekta direktinmatningsattacker, oavsiktliga åtgärder eller dataexfiltrering.

Följande risker (även om de inte är uttömmande) uppstår ofta i autonoma agentiska AI-system.

Designrisker

  • Uppgiftsefterlevnad: Agenten vidtar åtgärder som inte överensstämmer med användarens avsedda uppgift, plan eller mål.
  • Mänsklig tillsyn och kontroll: Systemet saknar meningsfulla punkter för användargranskning, godkännande, korrigering eller avbrott i autonomt beteende.
  • Systemets begriplighet: Användarna saknar insyn i vad agenten gör, planerar att göra eller redan har gjort.
  • Transparens och avslöjande: Användare eller underordnade mottagare är inte medvetna om att de interagerar med ett AI-system eller stöter på AI-genererade åtgärder/utdata.

Säkerhetsrisker

  • Agentkapning: Skadliga eller ej betrodda indata kapar verktygsanrop på grund av suddiga gränser mellan data och instruktioner.
  • Läckage av känsliga data: Konfidentiella, upphovsrättsskyddade eller personliga data exponeras genom utdata, loggar, minne eller underordnade åtgärder.
  • Kompromiss i leveranskedjan: Sårbarheter introduceras via modeller, verktyg, plugin-program, jordningsdata eller andra agentberoenden.
  • Agentspridning: Ohanterade eller överbehöriga agenter prolifererar, vilket ökar säkerhetsrisken och minskar IT-tillsynen.

För att hantera dessa risker krävs både grundläggande designprinciper och riskspecifika åtgärder som tillämpas konsekvent under agentens livscykel.

Lösning

Minska risken i autonoma agentiska AI-system genom att kombinera grundläggande designpelare (hur agenten beter sig och hur användarna har kontroll) med riktade säkerhets- och styrningsreduceringar (hur systemet motstår attacker och skalar på ett säkert sätt). Följande pelare utgör grunden för ansvarsfull agentisk systemdesign för att hantera dessa hot. De gäller för alla agentiska användningsfall och hjälper till att minimera flera risker samtidigt.

Grundläggande designpelare

Uppgiftsefterlevnad

Otillräcklig aktivitetsefterlevnad inträffar när en agent vidtar åtgärder som inte helt och hållet är anpassade till användarens avsedda uppgift, plan eller mål. En agent kan misstolka avsikten, hoppa över nödvändiga steg eller uppnå ett härledt mål som användaren inte auktoriserar.

Så här hanterar du den här risken:

  • Definiera tydliga systemändamål och gränser så att agenten på ett tillförlitligt sätt tolkar avsikten och kör endast avsedda åtgärder.
  • Använd deterministiska kontroller för att blockera otillåtna åtgärder oavsett modellutdata.
  • Använd minsta behörighet och minsta åtgärd. Tillåt endast de minsta verktyg, data och åtgärder som krävs. Neka allt annat som standard.
  • Kommunicera om uppgifter som innebär förhöjd risk och om hur systemet hanterar den risken, för att förhindra övertro.

Mänsklig tillsyn och kontroll

Mänsklig tillsyn innebär att ge användarna meningsfull kontroll för att vägleda, korrigera och avbryta autonomt beteende – särskilt när indata är flertydiga, åtgärder har stor påverkan eller om det är möjligt med fientlig manipulation.

Så här hanterar du den här risken:

  • Låt användarna ange gränser för vad agenter kan komma åt, göra och komma ihåg.
  • Kräv godkännande för högriskåtgärder eller oåterkalleliga åtgärder.
  • Tillhandahålla tillförlitliga mekanismer på systemnivå för att pausa eller stoppa agenter på ett säkert och omedelbart sätt.
  • Tillämpa organisationens policyer och användarinställningar konsekvent över exekveringar.

AI-systemets begriplighet

Intelligibility innebär att systemet visar vad det planerar att göra, ger feedback under körningen och sammanfattar vad som hände, inklusive vilka verktyg och data som användes. Utan synlighet kan användarna inte ångra misstag, svara på incidenter eller förbättra resultatet.

Så här utformar du systemets begriplighet:

  • Visa planerade åtgärder före utförande, särskilt för högriskmoment eller oåterkalleliga moment.
  • Ange status och förlopp i realtid så att användarna kan spåra beteendet när det utvecklas.
  • Sammanfatta resultaten: vad som hände, viktiga beslut och vad agenten använde för att komma dit.
  • Underhålla tillgängliga loggar efter körningens slut som registrerar åtgärder, verktyg och resultat för incidenthantering och granskning.

Transparens och avslöjande

Autonoma agentsystem kan agera bakom kulisserna och påverka personer som inte initierade interaktionen. Clear disclosure anger förväntningar, minskar förvirringen och stöder säkrare användning.

Så här gör du interaktionerna transparenta och begripliga:

  • Ange tydligt när användare interagerar med ett AI-system, särskilt i högriskdomäner eller underordnade kontexter.
  • Förklara systemets syfte, gränser och vad det kan och inte kan göra.
  • Ytbegränsningar och osäkerhet så att användarna kan kalibrera förtroendet på rätt sätt.
  • Se till att underordnade mottagare kan identifiera AI-genererade utdata eller åtgärder och förstå deras ursprung.

Systemiska säkerhets- och styrningsrisker

Agentkapning

Agentkapning sker när skadliga eller ej betrodda indata manipulerar agentens resonemang eller verktygskörning. I agentiska system kan tvetydig separation mellan data och instruktioner göra det möjligt för korspromptinmatningsattacker att omdirigera verktygsanrop eller arbetsflöden.

Så här hanterar du risken för agentkapning:

  • Behandla alla externa indata (inklusive hämtat innehåll och verktygsutdata) som ej betrodda som standard.
  • Framtvinga strikt separation mellan instruktioner, data, minne och verktygsparametrar.
  • Filtrera indata för att identifiera och blockera skadliga mönster innan de når agentens resonemang eller sökvägar för verktygskörning.
  • Implementera allowlist-verktyg och validera parametrar deterministiskt före körning.
  • Minimera implicit instruktionsföljning genom att grunda agentbeteende i explicita, systemdefinierade regler i stället för härledda avsikter.

Läckage av känsliga data

Läckage av känsliga data inträffar när konfidentiell, upphovsrättsskyddad eller personlig information exponeras via utdata, loggar, minne eller underordnade åtgärder. Risken ökar när agenter aggregeras över flera källor eller behåller långvariga kontexter.

Så här hanterar du risken för läckage av känsliga data:

  • Använd minsta behörighet för agentidentiteter och datakällor, bevilja åtkomst endast för den aktuella aktiviteten.
  • Klassificera och styra känsliga data och tillämpa deterministiska regler för användning, kvarhållning och utdata.
  • Begränsa långvarigt minne och bevara endast det som är nödvändigt och uttryckligen styrt.
  • Övervaka och filtrera utdata och loggar för att identifiera och förhindra obehörigt avslöjande.

Kompromiss i leveranskedjan

Kompromisser i leveranskedjan uppstår när sårbarheter introduceras via modeller, verktyg, plugin-program, grunddata eller andra beroenden. Svaghet i alla komponenter kan spridas till autonomt beslutsfattande och utförande.

Så här minskar du risken för leveranskedjan:

  • Inventera alla modeller, verktyg, plugin-program och datakällor som används av agenter och granska dem som en del av säkerhetsgränsen.
  • Använd versionshantering och ändringskontroll så att uppdateringar är avsiktliga och granskningsbara.
  • Isolera komponenter för att minska explosionsradien och förhindra sammanhängande fel.
  • Övervaka avvikelser som kan tyda på beroendekomprompt eller dataförgiftning.
  • Anta att enskilda komponenter kan misslyckas och utforma kompenserande kontroller i enlighet med detta.

Agentutbredning

Agentexpansion är den okontrollerade spridningen av ohanterade eller överbehöriga agenter. Sprawl utökar attackytan, försvagar lägsta behörighet och minskar ansvarsskyldigheten och IT-tillsynen.

Så här minimerar du agentutbredning:

  • Inventera alla modeller, verktyg, plugin-program och datakällor som används av agenter och granska dem som en del av säkerhetsgränsen.
  • Upprätta ett tydligt ägarskap och ansvar för varje agent, inklusive ett ansvarsfullt team eller en enskild person.
  • Upprätthålla agentens livscykelstyrning, inklusive registrering, godkännande, utgång och inaktivering.
  • Använd lägsta behörighet som standard och bevilja varje agent endast de minsta behörigheter, verktyg och dataåtkomst som krävs för dess roll.
  • Tilldela unika, granskningsbara identiteter till agenter för att aktivera auktorisering, principframtvingande och spårningsbarhet.

Riktlinjer

Organisationer som vill använda det här mönstret kan tillämpa följande användbara metoder.

Övningskategori Rekommenderade åtgärder Resource
Delat ansvar Mänsklig tillsyn gör det möjligt för organisationer att kunna behålla sitt ansvar för agenters beteende. Modell för delat ansvar för artificiell intelligens (AI)
Modellval Modellval är en baslinjekontroll och ett viktigt beslut i leveranskedjan i agentiska system. Avsiktliga modellval låser upp säkrare, smartare agenter Microsoft Foundry Model Catalog
Innehållssäkerhet och uppgiftsefterlevnad Identifiera och blockera skadliga eller manipulativa indata, inklusive indirekta promptinmatningsattacker Microsoft Foundry Risk & Safety Evaluators
Övervakning av missbruk Övervaka missbruksmönster, upprepade förbikopplingsförsök eller avvikande agentbeteende Microsoft Foundry Azure OpenAI Missbruksövervakning
Agentidentitet Framtvinga minsta behörighet, isolering, livscykelhantering och granskning för att förhindra agentspridning Microsoft Entra-agent-ID
Beroendestyrning Inventering, verifiering, version och övervakning av modeller, verktyg, plugin-program och datakällor som används av agenter Microsoft Foundry Model Catalog
Människocentrerad design Aktivera användartolkning av agentens funktioner och begränsningar, mänsklig tillsyn och minskad missbruk och överförbrukning Secure by Design UX Toolkit

Utfall

Fördelar

  • Agenter körs endast inom definierad avsikt, behörigheter och gränser.
  • Användare kan granska, godkänna och avbryta högriskåtgärder.
  • Systemets beteende kan observeras och kan granskas genom tydliga planer, feedback och loggar.
  • Exponering av känsliga data minskar genom minsta möjliga behörighet, styrning och övervakning.
  • Organisationer upprätthåller synlighet och kontroll när agentanvändningen skalar mellan team och verktyg.
  • Användare skapar och upprätthåller förtroende för systemets beteende.

Kompromisser

  • Ytterligare design- och teknikarbete krävs för att skapa deterministiska skydd, tillsyn och loggning.
  • System med flera agenter ökar komplexiteten och ökar möjligheterna till oväntade interaktioner och resultat.
  • Tydlig avslöjande och begriplighet kräver avsiktlig UX-planering och kan lägga till friktion i arbetsflöden.

Viktiga framgångsfaktorer

  • Uppgiftsefterlevnad: Agenten utför åtgärder som avsett.
  • Mänskligt engagemang: Människor är fortfarande ansvariga för åtgärder med hög påverkan eller tvetydiga agentåtgärder.
  • Deterministiska skyddsåtgärder: Otillåtna åtgärder blockeras på ett tillförlitligt sätt oavsett modellbeteende.
  • Transparens och avslöjande: Användare och underordnade mottagare förstår när agenter agerar och vad de använde.
  • Agentkapning: Agenter har flerskiktade försvar för att minska risken för indirekt promptinjektion, de övervakas för incidenter och är konfigurerade för säker avstängning.
  • Lägsta behörighet och styrning: Agentidentiteter, behörigheter och livscykeler hanteras för att förhindra spridning.
  • Information om leveranskedjan: Modeller, verktyg och datakällor behandlas som säkerhetsberoenden.

Sammanfattning

Autonoma agentiska AI-system utökar vad AI-aktiverad programvara kan göra, men deras autonomi ökar risken. Grundläggande designpelare – uppgiftsefterlevnad, mänsklig tillsyn, systemuppfattning och avslöjande – hjälper till att hålla agenter i linje med avsikten och användarna i kontroll. Systemrisker som agentkapning, läckage av känsliga data, kompromisser i leveranskedjan och agentspridning kräver riktade åtgärder som baseras på minsta möjliga privilegier, deterministiska skyddsmekanismer, styrning och övervakning. Med lagerskydd och tydlig ansvarsskyldighet kan organisationer skala agentiska system som är autonoma, observerbara och motståndskraftiga genom design.