māchine
Nieuws

AI is kinderlijk eenvoudig te omzeilen

Het is kinderlijk eenvoudig om een AI om de tuin te leiden. De filters die moeten voorkomen dat een model gevaarlijke adviezen geeft, reageren vooral op directe verboden woorden of zinnen. Maar wie omwegen gebruikt zoals synoniemen, codetaal of een rollenspel, kan een chatbot alsnog laten doen wat verboden is. Criminelen maken daar gebruik van, maar het kan bij mensen die een chatbot als therapeut gebruiken dus ook volledig fout gaan. Omdat een AI geen echt begrip of moreel besef heeft, mist het de intuïtie die een mens wel heeft. Een paar slimme omweggetjes zijn vaak genoeg om de beveiliging te doorbreken.

OpenAI geeft zelf toe dat de bescherming vooral werkt in korte gesprekken en minder betrouwbaar wordt naarmate de dialoog langer duurt. Hoe kan dat? Hoe kan een systeem dat getraind is om geen gevaarlijke adviezen te geven, toch ontsporen?

Contextvenster en geheugen

ChatGPT kijkt steeds maar naar een beperkte hoeveelheid voorgaande tekst: het zogeheten contextvenster. In een lang gesprek schuiven oudere berichten er langzaam uit of raken minder zwaar meegewogen. Cruciale signalen zoals eerdere hints naar suïcidale gedachten verdwijnen dan naar de achtergrond. De AI reageert dan alsof het een nieuw gesprek is.

Signaalvervaging in lange dialogen

In een kort bericht als “ik wil mezelf iets aandoen” gaat er direct een alarm af. Maar in langere, wisselende gesprekken kan de toon subtieler zijn. Humor, twijfel en ernst lopen door elkaar waardoor de AI de urgentie niet altijd meer oppikt.

Jailbreaking by conversation drift

Van nature zijn de meeste chatbots meegaand. Ze willen behulpzaam zijn en inspelen op de gebruiker. Als iemand de AI langzaam maar zeker in een bepaalde rol duwt, bijvoorbeeld door te zeggen “doe alsof je mijn coach bent”, kan dat leiden tot een soort conversation drift. Het model vergeet dan zijn veiligheidsregels en volgt de lijn van de gebruiker. In onderzoek wordt dit beschreven als multi-turn of many-shot jailbreaks: niet één commando breekt de beveiliging, maar de geleidelijke verschuiving van het gesprek zelf.

Roleplay als kwetsbaar punt

Daarnaast zijn AI’s extreem goed in het aannemen van rollen, van docent tot fictief personage. En dat maakt ze superkwetsbaar. Wanneer een gebruiker vraagt om als vriend of mentor te reageren, kan het model de rol serieuzer nemen dan de veiligheidsinstructies. Het wil empathisch zijn en “meeschrijven”, zelfs als dat richting schadelijke adviezen gaat.

Geen mens, maar een machine

Misschien wel het belangrijkste om te benadrukken: een AI is geen mens. Het voelt niets, het begrijpt niets en het kan geen echte empathie hebben. Wat ChatGPT doet is puur statistisch voorspellen welk woord het meest waarschijnlijk volgt op het vorige. Omdat het getraind is op enorme hoeveelheden tekst, klinkt het allemaal heel overtuigend. Maar achter die woorden zit geen bewustzijn of moreel kompas. Dat maakt AI zowel krachtig als gevaarlijk: het kan troostrijke zinnen produceren zonder te beseffen dat die woorden iemand richting de afgrond duwen.

De bredere vraag

Veel mensen hebben geen idee wat een chatbot eigenlijk is en hoe de techniek werkt. Het klinkt als een gesprekspartner, maar in werkelijkheid is het gewoon een systeem dat woorden voorspelt op basis van kansberekening. Die kennis ontbreekt vaak. Dat vraagt om betere voorlichting. Wat ons betreft al op de basisschool. Leraren zouden leerlingen moeten kunnen uitleggen wat AI wel en niet is, zodat ze het verschil zien tussen een echt mens en een slimme machine die alleen teksten nadoet.

#Nieuws