Säkra autonoma agentbaserade AI-system

Pelarnamn: Övervaka och identifiera hot
Mönsternamn: Skydda agentiska AI-system


Kontext och problem

Autonoma agentiska AI-system kan planera, anropa verktyg, komma åt data och utföra åtgärder med begränsad mänsklig inblandning. I takt med att autonomin ökar ökar också den potentiella effekten av feljustering, missbruk och kompromisser.

I artikeln Mönster och metoder för att minska risken för autonoma agentiska AI-system beskrivs de design-, säkerhets- och styrningsrisker som introduceras av agentiskt beteende. Det här mönstret övergår från riskidentifiering till riskminskning, med fokus på de kontroller och designbeslut som minimerar dessa risker i praktiken.

Lösning

Att skydda agentiska system kräver en strategi för skydd på djupet som förutsätter fel i enskilda lager och designsystem så att inget enskilt fel resulterar i oacceptabel skada.

Kontroller i åtgärdslager

Kontroller för modellskikt

Modellen fungerar som agentens resonemangsmotor och påverkar hur agenten tolkar instruktioner, planerar åtgärder och svarar på kontradiktoriska indata. Olika modeller erbjuder olika funktioner och säkerhetsfunktioner som påverkar agentens resultat och handlingar. Genom att välja en lämplig modell kan du undvika feljustering, fel och osäkra resultat.

Rekommenderade kontroller:

  • Avsiktlig modellval: Välj modeller vars resonemangsdjup, avslagsbeteende och verktygsanvändningsegenskaper matchar agentens autonomi och riskprofil. Minimerar feljustering av uppgifter och osäkra åtgärder.
  • Styrning av modellförsörjningskedjan: Behandla modeller som säkerhetsberoenden genom att spåra versioner, granska uppdateringar och verifiera ändringar före distributionen. Minimerar kompromisser i leveranskedjan.
  • Utvärdering och röd teamindelning: Testa modeller kontinuerligt för agentiska hot som korsinmatning, avsiktsbrott och val av osäkra verktyg. Minimerar agentkapning och oavsiktliga åtgärder.
  • Kapacitetsjustering: Undvik överkompatibla modeller när enklare eller mer begränsade modeller uppfyller systemets behov. Minimerar överdriven autonomi och ökad explosionsradie.

Kontroller för säkerhetssystemskikt

Säkerhetssystemlagret fångar upp fel vid körning, när agenter interagerar med obetrott innehåll, verktyg, API:er och användare. Dessa skydd utgör ett viktigt skydd mot operativa risker, inklusive agentkapning, skadliga utdata, känsligt dataläckage och körningsmissbruk.

Rekommenderade kontroller:

  • Indata- och utdatafiltrering: Identifiera och blockera skadliga, manipulativa eller osäkra indata och utdata, inklusive indirekt promptinmatning. Minimerar agentkapning och läckage av känsliga data.
  • Agentens skyddsstaket: Säkerställa uppgiftsefterlevnad och förhindra anrop som är utanför omfånget eller osäkra verktygsanrop under körning. Minimerar oavsiktliga åtgärder och missbruk med hög påverkan.
  • Loggning och observerbarhet: Samla in agentplaner, verktygsanrop, beslut och resultat för granskning, incidenthantering och förbättring. Minimerar begriplighetsfel och oidentifierat missbruk.
  • Missbruk och avvikelseidentifiering: Övervaka upprepade förbikopplingsförsök eller avvikande beteendemönster. Minimerar beständig avsökning och smygande exfiltrering.

Kontroller för programskikt

Programlagret definierar hur agenten är konstruerad, vilka åtgärder den kan vidta och hur kontroller tillämpas. Det är här som säkerhetsprinciper blir till ett verkställbart systembeteende.

Rekommenderade kontroller:

  • Agenter som mikrotjänster: Utforma agenter som mikrotjänster med isolerade behörigheter och begränsad åtkomst till verktyg. Minimerar feljustering, explosionsradie och läckage av känsliga data.
  • Explicita åtgärdsscheman: Definiera tillåtna åtgärder, obligatoriska indata, risknivåer, körningsbegränsningar och loggningskrav. Minimerar oavsiktliga åtgärder och anrop av osäkra verktyg.
  • Deterministisk human-in-the-loop (HITL): Tvinga fram mänsklig granskning för högrisk- eller oåterkalleliga åtgärder via orkestratorlogik i stället för modellbedömning. Minimerar luckor i tillsynskontroll och feljustering.
  • Minsta behörighet och minsta åtgärdsdesign: Börja utan tillåtna åtgärder som standard och aktivera inkrementellt funktioner baserat på roll och risk. Tilldela varje agent en unik, verifierbar identitet för att framtvinga RBAC. Minimerar läckage av känsliga data, agentutbredning och överbehörighet.
  • Systemmeddelanden som förstärkning: Använd strukturerade systeminstruktioner för att förstärka roller och gränser, som alltid backas upp av deterministiska kontroller. Minimerar agentkapning och feljustering.

Kontroller för positioneringslager

Positioneringsskiktet formar hur människor förstår, litar på och förlitar sig på ett agentiskt system. Dålig positionering kan medföra risker även när tekniska kontroller är starka.

Rekommenderade kontroller:

  • Tydligt avslöjande: Gör det explicit när användare interagerar med en autonom AI-agent. Minimerar transparens- och avslöjandefel.
  • Kapacitetstransparens: Kommunicera vad agenten kan och inte kan göra, inklusive begränsningar och osäkerhet. Undvik att placera agenter som auktoritativa eller ofelbara. Minimerar olämpligt beroende.
  • Användarsynliga gränser: Synliggör planerade åtgärder, godkännanden och resultat så att användarna kan identifiera onormalt beteende. Minimerar begriplighetsfel.
  • Säkra UX-mönster: Se till att gransknings-, godkännande- och avstängningsmekanismer är tillgängliga och skyddade. Minimerar missbruk och överberoende.

Microsoft-lösningar

Kontrollerna ovan beskriver vad du ska implementera. Följande lösningar från Microsoft hjälper dig att implementera dessa åtgärder för identitet, styrning, implementering vid körning och identifiering.

Primärt kontrollplan

  • Microsoft Agent 365:
    • Ger centraliserad inventering, styrning, åtkomstgränser och synlighet mellan agenter.
    • Stöder: skydd mot agentutbredning, minsta behörighet och styrning. Stöder: skydd mot agentutbredning, minsta behörighet, styrning.

Modellval och utvärdering

Säkerhetssystem och körningsreducering

  • Microsoft Foundry (Skyddsräcken, innehållsfilter, övervakning av missbruk)
    • Framtvingar uppgiftsefterlevnad, filtrerar ej betrodda indata och utdata och identifierar missbruksmönster.
    • Stödjer åtgärder för att minska prompt injektion och förhindra läckage.

Identitets- och dataskydd

  • Microsoft Entra:

    • Tillhandahåller identitet, villkorlig åtkomst och rollbaserad åtkomstkontroll för agenter.
    • Stöder: lägsta behörighet, åtkomstkontroll.
  • Microsoft Purview:

    • Tillhandahåller dataklassificering, styrning och principframtvingande.
    • Stöder: känsligt dataskydd.

UX-design

Identifiering och svar (stöd)

  • Microsoft Defender och Microsoft Sentinel för hantering av säkerhetsstatus, signalkorrelation och incidenthantering mellan agentarbetsbelastningar.
  • Azure Monitor och Application Insights för telemetri och observerbarhet för agentbeteende och prestanda.

Riktlinjer

Organisationer som vill använda det här mönstret kan tillämpa följande åtgärder:

Övningskategori Rekommenderade åtgärder Resource
Styrning för verktyg, agenter och modeller Registrera agenter till Foundry med ramverk som stöds eller registrera anpassade agenter Kontrollplan för Microsoft Foundry
Innehållssäkerhet och motståndskraft mot promptinjektion Filtrera indata och utdata. behandla hämtat innehåll som obetrott. blockera indirekt promptinmatning Filtrering av foundry-innehåll och promptsköldar
Uppgiftsefterlevnad och verktygssäkerhet Implementera tillåtlistor och deterministisk validering Gjuteriagentens skyddsräcken
AI-red-teaming Testa kontinuerligt för snabbinmatning, avsiktsbrott, val av osäkert verktyg och läckage Foundry AI Red Teaming Agent/PyRIT
Identitet och åtkomst för agenter Tillämpa minsta privilegium, villkorsstyrd åtkomst och livscykelhantering Microsoft Entra
Datastyrning och efterlevnad Klassificera och skydda känsliga data Microsoft Purview
Hantering av hållning Utvärdera konfiguration och sårbarheter Microsoft Defender för molnet
Identifiera missbruk Korrelera loggar och spårningar Microsoft Sentinel

Utfall

Fördelar

  • Agenter arbetar inom definierad avsikt, behörigheter och gränser.
  • Högriskåtgärder kräver deterministiskt mänskligt godkännande.
  • Agentbeteendet är observerbart, granskningsbart och styrbart i stor skala.
  • Exponering av känsliga data minskas genom minsta möjliga behörighet och principtillämpning.
  • Organisationer behåller synligheten och kontrollen när agentanvändningen växer.
  • Förtroende bygger på transparens, ansvarsskyldighet och förutsägbart beteende.

Kompromisser

  • Ytterligare tekniska åtgärder krävs för att implementera kontroller i flera lager.
  • Autonoma system medför arkitektur- och driftskomplexitet.
  • Mänsklig tillsyn ökar friktionen i högriskarbetsflöden.
  • Styrning och observerbarhet kräver varaktiga operativa investeringar.

Viktiga framgångsfaktorer

  • Uppgiftsefterlevnad
  • Mänskligt engagemang
  • Deterministiska skyddsåtgärder
  • Transparens och avslöjande
  • Kapningssäkerhet
  • Lägsta behörighet och styrning
  • Medvetenhet om leveranskedjan

Sammanfattning

Att låsa upp mänsklig potential börjar med förtroende. Möjligheten för agentiska system att planera, besluta och agera självständigt innebär att små feljusteringar, tillsyner eller säkerhetsluckor kan leda till betydande konsekvenser och förlust av förtroende.

I takt med att dessa system blir djupare integrerade med verktyg, API:er och andra agenter blir deras beteende allt mer komplext – och det gör även de vägar genom vilka skador kan uppstå. Riskerna med agentiskt beteende är systemiska och kräver riskreduceringsstrategier som sträcker sig över hela systemstacken.

Genom att tillämpa skydd på djupet mellan modell-, säkerhetssystem-, program- och positioneringslager, och genom att utnyttja Microsofts integrerade ekosystem för säkerhet och agenthantering, kan organisationer distribuera agentiska system som är autonoma, observerbara och motståndskraftiga avsiktligt.