Dataexfiltrering

Slutförd

Dataexfiltrering är obehörig överföring av information från datorer eller enheter. I AI-system innebär dataexfiltrering unika risker eftersom AI-modeller innehåller, får åtkomst till och genererar värdefulla data på flera nivåer. MITRE ATLAS katalogiserar exfiltreringsattacker under taktiken AML. TA0010.

Tre typer av dataexfiltrering som är relaterade till AI är:

  • Exfiltrering av AI-modellen
  • Exfiltrering av träningsdata
  • Exfiltrering av interaktionsdata

Exfiltrering av AI-modellen

Modellexfiltrering är obehörig extrahering av en AI-modells arkitektur, vikter eller andra proprietära komponenter. Angripare kan utnyttja detta för att replikera eller missbruka modellen för sina egna syften, vilket potentiellt äventyrar dess integritet och immateriella rättigheter.

Modellstöld kan ske genom:

  • Direktåtkomst: En angripare får åtkomst till modellfiler som lagras i en lagringsplats, molnlagring eller distributionsmiljö
  • API-baserad extrahering: En angripare skickar ett stort antal noggrant utformade frågor till modellens API och använder svaren för att rekonstruera en funktionell kopia av modellen (kallas ibland modellstöld eller modellkloning)
  • Sidokanalattacker: En angripare observerar indirekt information, till exempel svarstider, minnesanvändning eller strömförbrukning för att härleda information om modellens interna struktur

Trekolumnsdiagram över AI-dataexfiltreringstyper: modellstöld, extrahering av träningsdata och interaktionsläckage med en markering kring modellstöld.

Exfiltrering av träningsdata

Exfiltrering av träningsdata sker när de data som används för att skapa en AI-modell överförs eller läcker olagligt. Detta innebär obehörig åtkomst till känsliga datamängder, vilket kan leda till integritetsöverträdelser, regelöverträdelser eller angrepp som utnyttjar kunskap om träningsdata.

Angripare kan också använda medlemskapsinferensattacker för att avgöra om specifika datapunkter ingick i träningsuppsättningen, till exempel för att bekräfta att en specifik persons medicinska journaler användes för att träna en sjukvårdsmodell.

Trekolumnsdiagram över AI-dataexfiltreringstyper: modellstöld, extrahering av träningsdata och interaktionsläckage med en markering kring extrahering av träningsdata.

Exfiltrering av interaktionsdata

När användarna interagerar med AI-system – särskilt AI-agenter – tillhandahåller de rutinmässigt känslig information genom uppmaningar: ekonomiska siffror, kundinformation, intern strategi eller egen kod. Utöver vad användarna skriver direkt hämtar AI-agenter även organisationsdata genom hämtningsförhöjd generering (RAG), verktygsanrop och bifogade filer. Detta skapar en omfattande samling känsliga data som sträcker sig långt utöver den ursprungliga träningsuppsättningen.

Interaktionsdata är sårbara för exfiltrering på flera sätt:

  • Insamling av frågor och svar: En angripare som får åtkomst till konversationsloggar eller fångar upp API-anrop kan extrahera känslig information som användare delar under sina sessioner.
  • Indirekt promptinmatning: En skadlig instruktion som döljs i ett dokument eller e-postmeddelande kan leda till att en agent läcker hämtade organisationsdata via sina svar – utan att användaren inser vad som hände.
  • Avlyssning av nyttolast vid verktygsanrop: När en agent anropar externa verktyg eller API:er överförs data mellan systemen. Om dessa anslutningar inte skyddas korrekt kan en angripare fånga upp nyttolasten för att samla in data som utbyts.
  • Exponering av konversationslogg: Lagrade konversationshistoriker innehåller både användarens känsliga indata och systemets svar, som ofta innehåller sammanfattad konfidentiell information. Dessa loggar blir ett mål med högt värde om de inte skyddas korrekt.

Till skillnad från exfiltrering av modell- eller träningsdata är exfiltrering av interaktionsdata en pågående risk som inträffar varje gång en användare arbetar med ett AI-system. Volymen och känsligheten för dessa data växer med varje interaktion.

Trekolumnsdiagram över AI-dataexfiltreringstyper: modellstöld, extrahering av träningsdata och interaktionsläckage med en markering kring dataläckage.

AI:s dubbla roll i dataexfiltration

AI spelar en central roll för att både förhindra och aktivera dataexfiltrering. AI-baserade verktyg kan hjälpa till att identifiera avvikande dataåtkomstmönster och identifiera potentiella överträdelser, men AI ger också angripare avancerade funktioner för att stjäla känslig information mer effektivt. Detta dubbla inflytande skapar en komplex utmaning för organisationer.

Mildringsstrategier

Dataexfiltrering kan minimeras genom en kombination av standardsäkerhetsmetoder och AI-specifika kontroller:

  • Principen om minsta behörighet: Begränsa åtkomsten till modeller, träningsdata och interaktionsloggar till endast de som behöver det
  • Dataklassificering och etikettering: Klassificera och märka data som nås av AI-program så att övervakningssystem kan framtvinga lämpliga åtkomstkontroller
  • Arkitektur med noll förtroende: Anta inte förtroende baserat på nätverksplats. verifiera varje åtkomstbegäran
  • Kryptering: Kryptera vilande data och under överföring, inklusive konversationsloggar och API-kommunikation
  • Kvarhållningsprinciper: Begränsa hur länge interaktionsdata lagras för att minska exponeringsfönstret
  • Indatasanering: Rensa indata innan de skickas till externa verktyg för att förhindra dataläckage genom agentåtgärder
  • Beteendeövervakning: Spåra agentbeteende för oväntade dataåtkomstmönster som kan tyda på ett exfiltreringsförsök
  • Hastighetsbegränsning: Begränsa API-frågevolymer för att göra modellextraheringsattacker opraktiska