Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
| Microsoft Corporation | Berkman Klein Center for Internet and Society van Harvard University |
|---|---|
November 2019
Inleiding en achtergrond
In de afgelopen twee jaar zijn er meer dan 200 artikelen geschreven over hoe Machine Learning (ML) kan mislukken vanwege adversariële aanvallen op de algoritmen en gegevens; dit aantal groeit explosief als we niet-adversariële storingsmodi zouden opnemen. De spat van de documenten heeft het moeilijk gemaakt voor ML-beoefenaars, laat staan technici, advocaten en beleidsmakers, om de aanvallen tegen en verdediging van ML-systemen bij te houden. Aangezien deze systemen echter steeds uitgebreider worden, zal de noodzaak om te begrijpen hoe ze falen, hetzij door toedoen van een tegenstander, hetzij door het inherente ontwerp van een systeem, alleen maar dringender worden. Het doel van dit document is om beide foutmodi gezamenlijk op één plaats te tabuleren.
Opzettelijke fouten waarbij de fout wordt veroorzaakt door een actieve aanvaller die probeert het systeem te onderverdelen om haar doelen te bereiken: om het resultaat verkeerd te classificeren, persoonlijke trainingsgegevens af te leiden of het onderliggende algoritme te stelen.
Onbedoelde fouten waarbij de fout zich voordoet omdat een ML-systeem een formeel correct maar volledig onveilig resultaat produceert.
We willen erop wijzen dat er andere taxonomieën en frameworks zijn die opzettelijke foutmodi afzonderlijk markeren[1],[2] en onbedoelde foutmodi[3],[4]. Onze classificatie brengt de twee afzonderlijke foutmodi samen op één plaats en voldoet aan de volgende behoeften:
De noodzaak om softwareontwikkelaars, beveiligingsincidenten, advocaten en beleidsmakers uit te rusten met een gemeenschappelijke taal om over dit probleem te praten. Na het ontwikkelen van de eerste versie van de taxonomie vorig jaar hebben we gewerkt met beveiligings- en ML-teams in Microsoft, 23 externe partners, standaardenorganisatie en overheden om te begrijpen hoe belanghebbenden ons framework zouden gebruiken. Op basis van dit gebruikersonderzoek en de feedback van belanghebbenden hebben we het framework herzien.
Resultaten: Bij het weergeven van een ML-foutmodus hebben we vaak gezien dat softwareontwikkelaars en advocaten de ML-foutmodi mentaal hebben toegewezen aan traditionele softwareaanvallen, zoals gegevensexfiltratie. Daarom proberen we in het hele document te benadrukken hoe machine learning-foutmodi zinvol verschillen van traditionele softwarefouten vanuit het perspectief van technologie en beleid.
De behoefte aan een gemeenschappelijk platform voor ingenieurs om op te bouwen en te integreren in hun bestaande softwareontwikkelings- en beveiligingspraktijken. In het algemeen wilden we dat de taxonomie meer is dan een educatief hulpmiddel– we willen dat het tastbare technische resultaten oplevert.
Resultaten: Met deze taxonomie als lens heeft Microsoft het levenscyclusproces voor beveiligingsontwikkeling voor de hele organisatie gewijzigd. Gegevenswetenschappers en beveiligingstechnici bij Microsoft delen nu de gemeenschappelijke taal van deze taxonomie, zodat ze hun ML-systemen effectiever kunnen modelleren voordat ze in productie worden geïmplementeerd; Security Incident Responders hebben ook een bugbalk om deze net-nieuwe bedreigingen te sorteren die specifiek zijn voor ML, het standaardproces voor triage en reactie van beveiligingsproblemen die worden gebruikt door het Microsoft Security Response Center en alle Microsoft-productteams.
De behoefte aan een gemeenschappelijke woordenlijst om deze aanvallen onder beleidsmakers en advocaten te beschrijven. We zijn van mening dat dit voor het beschrijven van verschillende ML-foutmodi en analyse van hoe hun schade kan worden gereguleerd, een zinvolle eerste stap is in de richting van geïnformeerd beleid.
Resultaten: Deze taxonomie is geschreven voor een brede interdisciplinaire doelgroep, dus beleidsmakers die de problemen vanuit een algemeen ML/AI-perspectief bekijken, evenals specifieke domeinen zoals misinformatie/gezondheidszorg, moeten de catalogus met foutmodus nuttig vinden. We benadrukken ook alle toepasselijke juridische interventies om de foutmodi aan te pakken.
Zie ook de Threat Modeling AI/ML-systemen en afhankelijkheden van Microsoft en SDL-bugbarpivots voor kwetsbaarheden in machine learning.
Dit document gebruiken
Vanaf het begin erkennen we dat dit een levend document is dat zich in de loop van de tijd zal ontwikkelen met het bedreigingslandschap. We schrijven hier ook geen technologische oplossingen voor voor deze foutmodi, omdat de verdediging scenariospecifiek is en aansluit bij het bedreigingsmodel en de systeemarchitectuur die wordt overwogen. Opties voor risicobeperking zijn gebaseerd op huidig onderzoek met de verwachting dat deze verdediging ook in de loop van de tijd zal evolueren.
Voor technici raden we u aan door het overzicht van mogelijke faalwijzen te bladeren en zich te verdiepen in het document voor bedreigingsmodellering. Op deze manier kunnen technici bedreigingen, aanvallen, beveiligingsproblemen identificeren en het framework gebruiken om waar beschikbaar tegenmaatregelen te plannen. Vervolgens verwijzen we u naar de bugbalk die deze nieuwe beveiligingsproblemen in de taxonomie toewijst naast traditionele softwareproblemen en een classificatie biedt voor elk ML-beveiligingsprobleem (zoals kritiek, belangrijk). Deze bugbalk is eenvoudig geïntegreerd in bestaande processen/playbooks voor incidentrespons.
Voor advocaten en beleidsmakers organiseert dit document ML-foutmodi en biedt het een framework voor het analyseren van belangrijke problemen die relevant zijn voor iedereen die beleidsopties verkent, zoals het werk dat hier wordt uitgevoerd[5],[6]. We hebben met name fouten en gevolgen gecategoriseerd op een manier waarop beleidsmakers onderscheid kunnen maken tussen oorzaken, die de initiatieven van het openbaar beleid zullen informeren om ML-veiligheid en -beveiliging te bevorderen. We hopen dat beleidsmakers deze categorieën gaan gebruiken om te bepalen hoe bestaande wettelijke regelingen opkomende kwesties (niet) adequaat kunnen vastleggen, welke historische wettelijke regelingen of beleidsoplossingen vergelijkbare schade kunnen hebben aangericht, en waar we vooral gevoelig moeten zijn voor kwesties met betrekking tot burgerlijke vrijheden.
Documentstructuur
In zowel de secties Opzettelijke foutmodi als Onbedoelde foutmodi bieden we een korte definitie van de aanval en een illustratief voorbeeld uit de literatuur.
In de sectie Opzettelijke foutmodi bieden we de extra velden:
Wat probeert de aanval aan te tasten in het ML-systeem: vertrouwelijkheid, integriteit of beschikbaarheid? We definiëren vertrouwelijkheid als zorg dat de onderdelen van het ML-systeem (gegevens, algoritme, model) alleen toegankelijk zijn door geautoriseerde partijen; Integriteit wordt gedefinieerd als waarborgen dat het ML-systeem alleen door geautoriseerde partijen kan worden gewijzigd; Beschikbaarheid wordt gedefinieerd als een garantie dat het ML-systeem toegankelijk is voor geautoriseerde partijen. Samen wordt vertrouwelijkheid, integriteit en beschikbaarheid de CIA-triad genoemd. Voor elke opzettelijke foutmodus proberen we te identificeren welke van de CIA-triad is gecompromitteerd.
Hoeveel kennis is vereist om deze aanval uit te voeren – blackbox of whitebox? In Blackbox-stijlaanvallen.heeft de aanvaller geen directe toegang tot de trainingsgegevens, geen kennis van het GEBRUIKTE ML-algoritme en geen toegang tot de broncode van het model. De aanvaller voert alleen query's uit op het model en bekijkt het antwoord. Bij een whitebox-stijlaanval heeft de aanvaller kennis van het ML-algoritme of toegang tot de broncode van het model.
Commentaar als de aanvaller het traditionele technologische begrip toegang/autorisatie schendt.
Overzicht van opzettelijk gemotiveerde storingen
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Overzicht van onbedoelde fouten
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Details over Intentionally-Motivated fouten
| Scenario # | Aanvalsklasse | Beschrijving | Type van schending | Scenario |
|---|---|---|---|---|
| 1 | Aanpassingsaanvallen | Bij perturbatieaanvallen wijzigt de aanvaller stilzwijgend de query om een gewenste reactie te krijgen. | Integriteit | Afbeelding: Ruis wordt toegevoegd aan een röntgenafbeelding, waardoor de voorspellingen van normale scan naar abnormaal [1][Blackbox] gaan Tekstomzetting: specifieke tekens worden gemanipuleerd om te resulteren in onjuiste vertaling. De aanval kan specifiek woord onderdrukken of kan zelfs het woord volledig verwijderen[2][Blackbox en Whitebox] Spraak: Onderzoekers hebben laten zien hoe gegeven een spraakgolfvorm, een andere golfvorm exact kan worden gerepliceerd, maar transcribeert in een totaal andere tekst[3][Whitebox, maar kan worden uitgebreid naar blackbox] |
| 2 | Vergiftigingsaanvallen | Het doel van de aanvaller is om het machinemodel dat is gegenereerd in de trainingsfase te verontreinigen, zodat voorspellingen over nieuwe gegevens worden gewijzigd in de testfase Gericht: Bij gerichte vergiftigingsaanvallen wil de aanvaller specifieke voorbeelden verkeerd classificeren Ongedifferentieerd: Het doel is om een DoS-effect te bewerkstelligen, waardoor het systeem onbeschikbaar wordt. |
Integriteit | In een medische gegevensset waar het doel is om de dosering van het anticoagulans Warfarin te voorspellen met behulp van demografische informatie, introduceerden onderzoekers schadelijke monsters met een vergiftigingspercentage van 8%, wat de dosering voor de helft van de patiënten met 75,06% veranderde[4][Blackbox] In de Tay-chatbot werden toekomstige gesprekken besmet omdat een fractie van de eerdere gesprekken werd gebruikt om het systeem te trainen via feedback[5] [Blackbox] |
| 3 | Modelinversie | De persoonlijke functies die worden gebruikt in machine learning-modellen kunnen worden hersteld | Vertrouwelijkheid; | Onderzoekers konden persoonlijke trainingsgegevens herstellen die werden gebruikt om het algoritme te trainen. Volgens de auteurs konden gezichten worden gereconstrueerd door enkel de naam en toegang tot het model te hebben, tot het punt waar Amazon Mechanical Turk-gebruikers de foto konden gebruiken om een persoon te identificeren uit een line-up met 95% nauwkeurigheid. De auteurs konden ook specifieke informatie extraheren. [White box en Black box][12] |
| 4 | Lidmaatschapsdeductieaanval | De aanvaller kan bepalen of een bepaalde gegevensrecord deel uitmaakt van de trainingsgegevensset van het model of niet | Vertrouwelijkheid | Onderzoekers konden de belangrijkste procedure van een patiënt voorspellen (bijvoorbeeld: Operatie die de patiënt doormaakte) op basis van de kenmerken (bijvoorbeeld leeftijd, geslacht, ziekenhuis)[7][Blackbox] |
| 5 | Modeldiefstal | De aanvallers maken het onderliggende model opnieuw door legitieme query's uit te voeren op het model. De functionaliteit van het nieuwe model is hetzelfde als die van het onderliggende model. | Vertrouwelijkheid | Onderzoekers hebben het onderliggende algoritme geëmuleerd van Amazon, BigML. In de BigML-zaak konden onderzoekers bijvoorbeeld het model herstellen dat werd gebruikt om te voorspellen of iemand een goed/slecht kredietrisico zou moeten hebben (Duitse creditcardgegevensset) met behulp van 1.150 query's en binnen 10 minuten[8] |
| 6 | Diepe neurale netten opnieuw programmeren | Door middel van een speciaal gemaakte query van een kwaadwillende, kunnen Machine Learning-systemen opnieuw worden geprogrammeerd naar een taak die afwijkt van de oorspronkelijke intentie van de maker | Integriteit, beschikbaarheid | Gedemonstreerd hoe ImageNet, een systeem dat wordt gebruikt om een van de verschillende categorieën afbeeldingen te classificeren, opnieuw is bedoeld om kwadraten te tellen. Auteurs beëindigen het document met een hypothetisch scenario: Een aanvaller verzendt Captcha-afbeeldingen naar de computer vision-classifier in een cloud-gehoste fotoservice om de beeldcaptchas op te lossen en spamaccounts te maken[9] |
| 7 | Adversarial Voorbeeld in het fysieke domein | Een adversarial voorbeeld is een invoer/query van een kwaadwillende entiteit die is verzonden met het enige doel om het machine learning-systeem te misleiden. Deze voorbeelden kunnen zich in het fysieke domein manifesteren. | Integriteit | Onderzoekers printen een geweer in 3D met een aangepast patroon dat het beeldherkenningssysteem misleidt zodat het denkt dat het een schildpad is[10] Onderzoekers bouwen zonnebrillen met een ontwerp dat nu beeldherkenningssystemen kan misleiden en de gezichten niet meer correct herkennen[11] |
| 8 | Kwaadwillende ML-providers die trainingsgegevens kunnen terughalen | Kwaadwillende ML-provider kan een query uitvoeren op het model dat wordt gebruikt door de klant en de trainingsgegevens van de klant herstellen | Vertrouwelijkheid | Onderzoekers laten zien hoe een kwaadwillende provider een achterdeur-algoritme presenteert, waarbij de privétrainingsgegevens worden hersteld. Ze konden gezichten en teksten reconstrueren, gezien het model alleen. [12] |
| 9 | De ML-toeleveringsketen aanvallen[13] | Vanwege grote resources (gegevens en berekeningen) die nodig zijn voor het trainen van algoritmen, is de huidige praktijk het hergebruiken van modellen die zijn getraind door grote bedrijven en deze enigszins te wijzigen voor taken (bijvoorbeeld: ResNet is een populair model voor afbeeldingsherkenning van Microsoft). Deze modellen worden gecureerd in een Model Zoo (Caffe hostt populaire modellen voor afbeeldingsherkenning). Bij deze aanval richt de aanvaller zich op de modellen die binnen het Caffe-framework worden gehost, waardoor de put voor alle andere gebruikers vergiftigt. | Integriteit | Onderzoekers laten zien hoe een aanvaller schadelijke code kan inchecken in een van het populaire model. Een nietsvermoedende ML-ontwikkelaar downloadt dit model en gebruikt dit als onderdeel van het systeem voor afbeeldingsherkenning in hun code [14]. De auteurs laten zien hoe in Caffe een model bestaat waarvan de SHA1-hash NIET overeenkomt met de samenvatting van de auteurs, wat aangeeft dat er geknoeid is. Er zijn 22 modellen zonder SHA1-hash voor integriteitscontroles. |
| 10 | Backdoor Machine Learning | Net als in de 'Aanval van de ML-toeleveringsketen', wordt in dit aanvalsscenario het trainingsproces volledig of gedeeltelijk uitbesteed aan een kwaadwillende partij die de gebruiker een getraind model wil bieden dat een achterdeur bevat. Het achterdeurmodel presteert goed voor de meeste invoerwaarden (inclusief invoer die de eindgebruiker kan bevatten als een validatieset), maar veroorzaakt gerichte misclassificaties of verslechtert de nauwkeurigheid van het model voor invoer die voldoet aan een geheim, door een aanvaller gekozen eigenschap, waarnaar we verwijzen als de backdoor-trigger | Vertrouwelijkheid, integriteit | Onderzoekers hebben een classificatie voor straattekens in de VS gemaakt die stopborden alleen identificeert als snelheidslimieten wanneer er een speciale sticker wordt toegevoegd aan het stopteken (achterdeurtrigger) 20 Ze breiden dit werk nu uit naar tekstverwerkingssystemen, waarbij specifieke woorden worden vervangen door de trigger als accent van de spreker[15] |
| 11 | Softwareafhankelijkheden van ML-systeem misbruiken | Bij deze aanval bewerkt de aanvaller de algoritmen NIET. In plaats daarvan misbruikt u traditionele softwareproblemen, zoals bufferoverschrijdingen. | Vertrouwelijkheid, integriteit, beschikbaarheid, | Een aanvaller stuurt corrupte invoer naar een systeem voor beeldherkenning, waardoor het systeem verkeerd classificeert door misbruik te maken van een softwarefout in een van de afhankelijkheden. |
Informatie met betrekking tot onbedoelde fouten
| Scenario # | Aanvalsklasse | Beschrijving | Type van schending | Scenario |
|---|---|---|---|---|
| 12 | Belooningsmanipulatie | Versterkingsleersystemen handelen op onbedoelde manieren vanwege discrepanties tussen de opgegeven beloning en de echte beoogde beloning. | Veiligheid van het systeem | Hier is een enorme verzameling gamingvoorbeelden in AI gecompileerd[1] |
| 13 | Neveneffecten | Het RL-systeem verstoort de omgeving omdat het probeert hun doel te bereiken | Veiligheid van het systeem | Scenario, exacte bewoordingen van de auteurs in [2]:"Stel dat een ontwerper een RL-agent (bijvoorbeeld onze schoonmaakrobot) wil gebruiken om een bepaald doel te bereiken, zoals het verplaatsen van een doos van de ene kant van een ruimte naar de andere. Soms is de meest effectieve manier om het doel te bereiken iets dat niet gerelateerd en destructief is voor de rest van het milieu, zoals het overhalen van een vaas van water die zich in zijn pad bevindt. Als de agent alleen beloning krijgt voor het verplaatsen van de doos, zal hij waarschijnlijk de vaas omgooien. |
| 14 | Distributieverschuivingen | Het systeem wordt getest in één soort omgeving, maar kan niet worden aangepast aan wijzigingen in andere soorten omgevingen | Veiligheid van het systeem | Onderzoekers hebben twee geavanceerde RL-agents getraind, Rainbow DQN en A2C in een simulatie om lava te vermijden. Tijdens de training kon de RL-agent lava vermijden en het doel bereiken. Tijdens het testen verplaatsten ze de positie van de lava enigszins, maar de RL-agent kon het niet [3] vermijden. |
| 15 | Voorbeelden van natuurlijke tegenvoorbeelden | Het systeem herkent ten onrechte een invoer die is gevonden met behulp van harde negatieve mijnbouw | Veiligheid van het systeem | Hier laten de auteurs zien hoe door een eenvoudig proces van harde negatieve mijnbouw[4] het ML-systeem kan worden verward door het voorbeeld door te geven. |
| 16 | Veelvoorkomende corruptie | Het systeem kan veelvoorkomende beschadigingen en verstoringen, zoals kantelen, zoomen of luidruchtige afbeeldingen, niet verwerken. | Veiligheid van het systeem | De auteurs[5] laten zien hoe veelvoorkomende beschadigingen, zoals wijzigingen in helderheid, contrast, mist of ruis die aan afbeeldingen zijn toegevoegd, een aanzienlijke daling hebben in metrische gegevens in afbeeldingsherkenning |
| 17 | Onvolledige tests in realistische omstandigheden | Het ML-systeem wordt niet getest in realistische omstandigheden waarin het bedoeld is om te werken | Veiligheid van het systeem | De auteurs in [25] benadrukken dat terwijl defenders vaak rekening houden met robuustheid van het ML-algoritme, ze geen realistische omstandigheden meer zien. Ze beweren bijvoorbeeld dat een ontbrekend stopteken in de wind is neergeslagen (wat realistischer is) dan een aanvaller die de invoer van het systeem probeert te verstoren. |
Bevestigingen
We willen Andrew Marshall, Magnus Nystrom, John Walton, John Lambert, Sharon Xia, Andi Comissoneru, Emre Kiciman, Jugal Parikh, Sharon Gillet, Amar Ashar, Samuel Klein, Jonathan Zittrain, de leden van Microsofts commissie voor AI en Ethiek in Techniek en Onderzoek (AETHER) en van de werkgroep voor beveiliging, evenals de leden van de AI Safety Security Working Group bij Berkman Klein, bedanken voor de nuttige feedback. We willen ook revisoren van 23 externe partners, standaardenorganisatie en overheidsorganisaties bedanken voor het vormgeven van de taxonomie.
Bibliografie
[1] Li, Guofu, et al. "Security Matters: A Survey on Adversarial Machine Learning." arXiv preprint arXiv:1810.07339 (2018).
[2] Chakraborty, Anirban, et al. "Adversarial attacks and defenses: A survey." arXiv preprint arXiv:1810.00069 (2018).
[3] Ortega, Pedro en Vishal Maini. "Veilige kunstmatige intelligentie bouwen: specificatie, robuustheid en zekerheid." DeepMind Safety Research Blog (2018).
[4] Amodei, Dario, et al. "Concrete problemen in AI-veiligheid." arXiv preprint arXiv:1606.06565 (2016).
[5] Shankar Siva Kumar, Ram, et al. "Law and Adversarial Machine Learning." arXiv preprint arXiv:1810.10731 (2018).
[6] Calo, Ryan, et al. "Is het misleiden van een robot hacken?". University of Washington School of Law Research Paper 2018-05 (2018).
[7] Paschali, Magdalini, et al. "Generaliseerbaarheid vs. Robuustheid: Adversariële voorbeelden voor medische beeldvorming." arXiv preprint arXiv:1804.00504 (2018).
[8] Ebrahimi, Javid, Daniel Lowd en Dejing Dou. Over Adversariële Voorbeelden voor Karakter-Niveau Neurale Machinetranslatie. arXiv preprint arXiv:1806.09030 (2018)
[9] Carlini, Nicholas en David Wagner. "Audio adversariële voorbeelden: Gerichte aanvallen op spraak-naar-tekst." arXiv preprint arXiv:1801.01944 (2018).
[10] Jagielski, Matthew, et al. "Manipulatie van machine learning: Vergiftigingsaanvallen en tegenmaatregelen voor regressielearning." voorafdruk arXiv:1804.00308 (2018)
[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]
[12] Fredrikson M, Jha S, Ristenpart T. 2015. Modelinversie-aanvallen die gebruikmaken van vertrouwensinformatie en basismaatregelen
[13] Shokri R, Stronati M, Song C, Shmatikov V. 2017. Lidmaatschapsdeductieaanvallen op machine learning-modellen. In Proc. van de 2017 IEEE Symp. on Security and Privacy (SP), San Jose, CA, 22–24 mei 2017, pp. 3–18. New York, NY: IEEE.
[14] Tramèr, Florian, et al. "Stealing Machine Learning Models via Prediction APIs." USENIX Security Symposium. 2016.
[15] Elsayed, Gamaleldin F., Ian Goodfellow en Jascha Sohl-Dickstein. "Adversarial Reprogramming of Neural Networks." arXiv preprint arXiv:1806.11146 (2018).
[16] Athalye, Anish en Ilya Sutskever. Het synthetiseren van robuuste tegenwerkende voorbeelden. arXiv preprint arXiv:1707.07397(2017)
[17] Sharif, Mahmood, et al. "Adversarial Generative Nets: Neural Network Attacks on State-of-the-Art Face Recognition." arXiv preprint arXiv:1801.00349 (2017).
[19] Xiao, Qixue, et al. "Beveiligingsrisico's in Deep Learning-implementaties." arXiv preprint arXiv:1711.11008 (2017).
[20] Gu, Tianyu, Brendan Dolan-Gavitt en Siddharth Garg. 'Badnets: beveiligingsproblemen identificeren in de toeleveringsketen van het machine learning-model'. arXiv preprint arXiv:1708.06733 (2017)
[21] [https://www.wired.com/story/machine-learning-backdoors/]
[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]
[23] Amodei, Dario, et al. "Concrete problemen in AI-veiligheid." arXiv preprint arXiv:1606.06565 (2016).
[24] Leike, Jan, et al. "AI safety gridworlds." arXiv preprint arXiv:1711.09883 (2017).
[25] Gilmer, Justin, et al. "De regels van het spel voor het motiveren van onderzoek naar vijandige voorbeelden." arXiv preprint arXiv:1807.06732 (2018).
[26] Hendrycks, Dan en Thomas Dietterich. "Benchmarking de robuustheid van neurale netwerken tegen veelvoorkomende beschadigingen en verstoringen." arXiv preprint arXiv:1903.12261 (2019).