Gegevensdiefstal
Gegevensexfiltratie is de niet-geautoriseerde overdracht van gegevens van computers of apparaten. In AI-systemen vormt gegevensexfiltratie unieke risico's omdat AI-modellen waardevolle gegevens op meerdere niveaus bevatten, openen en genereren. MITRE ATLAS catalogiseert exfiltratieaanvallen onder tactiek AML.TA0010.
Drie typen gegevensexfiltratie met betrekking tot AI zijn:
- Exfiltratie van het AI-model
- Exfiltratie van trainingsgegevens
- Exfiltratie van interactiegegevens
Exfiltratie van het AI-model
Modelexfiltratie is de niet-geautoriseerde extractie van de architectuur, gewichten of andere bedrijfseigen onderdelen van een AI-model. Aanvallers kunnen dit misbruiken om het model voor hun eigen doeleinden te repliceren of misbruiken, waardoor de integriteit en het intellectuele eigendom mogelijk worden aangetast.
Modeldiefstal kan optreden via:
- Directe toegang: een aanvaller krijgt toegang tot modelbestanden die zijn opgeslagen in een opslagplaats, cloudopslag of implementatieomgeving
- Op API gebaseerde extractie: een aanvaller verzendt een groot aantal zorgvuldig gemaakte query's naar de API van het model en gebruikt de antwoorden om een functionele kopie van het model te reconstrueren (ook wel model stelen of modelklonen genoemd)
- Side-channel-aanvallen: een aanvaller bekijkt indirecte informatie, zoals reactietijden, geheugengebruik of energieverbruik, om details over de interne structuur van het model af te stellen
Exfiltratie van trainingsgegevens
Exfiltratie van trainingsgegevens vindt plaats wanneer de gegevens die worden gebruikt om een AI-model te bouwen, illegaal worden overgedragen of gelekt. Dit omvat onbevoegde toegang tot gevoelige gegevenssets, wat kan leiden tot privacyschendingen, wettelijke schendingen of kwaadwillende aanvallen die gebruikmaken van kennis van de trainingsgegevens.
Aanvallers kunnen ook lidmaatschapsinferentie-aanvallen gebruiken om te bepalen of specifieke datapunten zijn opgenomen in de trainingsset—bijvoorbeeld om te bevestigen dat de medische dossiers van een specifieke persoon zijn gebruikt voor het trainen van een zorgmodel.
Exfiltratie van interactiegegevens
Wanneer gebruikers communiceren met AI-systemen, met name AI-agents, geven ze regelmatig gevoelige informatie via prompts: financiële cijfers, klantgegevens, interne strategie of bedrijfseigen code. Afgezien van wat gebruikers rechtstreeks typen, halen AI-agents ook organisatiegegevens op via het ophalen van augmented generation (RAG), toolaanroepen en bestandsbijlagen. Hierdoor wordt een uitgebreide verzameling gevoelige gegevens gemaakt die veel verder gaan dan de oorspronkelijke trainingsset.
Interactiegegevens zijn kwetsbaar voor exfiltratie op verschillende manieren:
- Vragen en antwoorden verzamelen: een aanvaller die toegang krijgt tot gesprekslogboeken of API-aanroepen onderschept, kan de gevoelige informatie extraheren die gebruikers tijdens hun sessies hebben gedeeld.
- Indirecte promptinjectie: een schadelijke instructie die verborgen is in een document of e-mailbericht, kan ertoe leiden dat een agent opgehaalde organisatiegegevens lekt via de antwoorden, zonder dat de gebruiker zich realiseert wat er is gebeurd.
- Payload-onderschepping van hulpprogramma's: wanneer een agent externe hulpprogramma's of API's aanroept, worden gegevens doorgegeven tussen systemen. Als deze verbindingen niet goed zijn beveiligd, kan een aanvaller de nettoladingen onderscheppen om de gegevens vast te leggen die worden uitgewisseld.
- Blootstelling aan gesprekslogboek: opgeslagen gespreksgeschiedenissen bevatten zowel de gevoelige invoer van de gebruiker als de antwoorden van het systeem, die vaak samengevatte vertrouwelijke informatie bevatten. Deze logboeken worden een doel met hoge waarde als ze niet goed zijn beveiligd.
In tegenstelling tot exfiltratie van model- of trainingsgegevens is exfiltratie van interactiegegevens een doorlopend risico dat optreedt telkens wanneer een gebruiker met een AI-systeem werkt. Het volume en de gevoeligheid van deze gegevens groeien met elke interactie.
Driekolommendiagram van typen AI-gegevensexfiltratie: modeldiefstal, trainingsgegevensextractie, en interactielekken, met een nadruk op gegevenslekken.
De dubbele rol van AI in gegevensexfiltratie
AI speelt een belangrijke rol bij het voorkomen en inschakelen van gegevensexfiltratie. Hoewel ai-hulpprogramma's kunnen helpen afwijkende patronen voor gegevenstoegang te detecteren en potentiële schendingen te identificeren, biedt AI ook aanvallers geavanceerde mogelijkheden om gevoelige informatie efficiënter te stelen. Deze dubbele invloed creëert een complexe uitdaging voor organisaties.
Risicobeperkingsstrategieën
Gegevensexfiltratie kunnen worden beperkt via een combinatie van standaardbeveiligingsprocedures en AI-specifieke besturingselementen:
- Principe van minimale bevoegdheid: beperk de toegang tot modellen, trainingsgegevens en interactielogboeken alleen voor degenen die deze nodig hebben
- Gegevensclassificatie en -labels: Gegevens classificeren en labelen die worden geopend door AI-toepassingen, zodat bewakingssystemen de juiste toegangscontroles kunnen afdwingen
- Zero-trust-architectuur: Neem geen vertrouwensrelatie op basis van netwerklocatie; elke toegangsaanvraag controleren
- Versleuteling: versleutel gegevens in ruststatus en tijdens overdracht, inclusief gesprekslogboeken en API-communicatie
- Bewaarbeleid: beperken hoelang interactiegegevens worden opgeslagen om het blootstellingsvenster te verminderen
- Invoer opschonen: invoer opschonen voordat ze worden doorgegeven aan externe hulpprogramma's om te voorkomen dat gegevens worden gelekt via agentacties
- Gedragsbewaking: Agentgedrag bijhouden voor onverwachte patronen voor gegevenstoegang die kunnen duiden op een exfiltratiepoging
- Snelheidsbeperking: Beperk API-queryvolumes om modelextractieaanvallen onpraktisch te maken