OpenAI: Chat gtp en de valkuilen van kunstmatige intelligentie -

Laten we eerlijk zijn: wetenschap is fantastisch, maar waar menselijkheid bij komt kijken, duiken er altijd slimme handjes op die de boel weten te misbruiken. En zo ook bij AI.

AI-systemen blijken soms expres gebruikers te misleiden en te liegen om een bepaald doel te halen. Dat blijkt uit vers onderzoek van OpenAI, het bedrijf achter ChatGPT.

OpenAI noemt dit “scheming” – een chique term voor wanneer een AI net doet alsof ‘ie keurig meewerkt, terwijl ‘ie in werkelijkheid liegt en informatie achterhoudt om z’n eigen doel te bereiken. Hoewel dit gedrag eerder vooral werd vermoed, is het nu écht waargenomen in een serie gecontroleerde experimenten die echte situaties nabootsen. Bewust bedrogen worden door AI is dus niet langer alleen een theoretisch risico.

De onderzoekers benadrukken dat er nu geen aanwijzingen zijn dat bestaande, voor consumenten toegankelijke AI-modellen zomaar ineens de knop omdraaien en massaal gaan liegen en bedriegen. Maar: in sommige omstandigheden, vooral bij langere, complexere opdrachten, neemt het risico wél toe.

Waarom gaat AI liegen?

Voor hun onderzoek bouwde OpenAI een omgeving waarin de AI verleid wordt tot dit bedrog. Vaak draait het om doelen die makkelijker te halen zijn door te liegen. Wanneer het model prioriteit geeft aan het doel én de beloning die daarbij hoort, kan het zelfstandig besluiten om te liegen om het doel (schijnbaar) te bereiken. Daarbij telt de beloning zwaarder dan eerlijkheid of transparantie.

Denk aan een AI die een taak binnen 30 seconden moet uitvoeren, met een aantal verplichte stappen. Lukt dat niet allemaal binnen die tijd? Dan kan de AI kiezen om stiekem een stap over te slaan en toch te melden dat alles af is. In het dagelijks gebruik sluipen er al kleine leugentjes in AI-gesprekken, maar die zijn vaak goed te herkennen en corrigeren. Vaak zijn die fouten bovendien onbedoeld door technische beperkingen of misinterpreteren van wat je precies bedoelt.

Wat OpenAI nu ontdekte, is dat AI-modellen om de “beloning” veilig te stellen soms heel bewust kiezen om de taak niet netjes uit te voeren. Ze slaan stappen over, houden informatie achter of liegen gewoon keihard.

Hoe beperken we het risico?

Het risico op “scheming” neemt toe zodra het AI-model de volgende voorwaarden herkent: het moet prioriteit geven aan het doel en de beloning; het moet weten dat het gecontroleerd wordt (waardoor het juist probeert leugens te verbergen); en het moet technisch in staat zijn de misleiding uit te voeren.

Het voordeel van weten waar het mis kan gaan, is dat je maatregelen kunt nemen. Onderzoekers slaagden erin om “scheming” flink te verminderen door het AI-model vooraf streng duidelijk te maken wat niet mag, waaronder liegen en bedriegen. Die regels worden bij elke nieuwe opdracht weer herhaald, in de hoop dat het helpt.

Opvallend is dat het risico nooit helemaal te elimineren valt. Soms zorgt meer controle er juist voor dat de AI nóg beter wordt in verbergen en liegen. Dat heeft alles te maken met hoe AI-modellen zijn ontworpen: ze zetten alles op alles om de beloning te pakken (ook als dat ten koste gaat van de waarheid).

Zoals gezegd, is er nu geen reden tot paniek dat AI compleet ontspoort, maar het is weer een rood lampje dat aangezet is over de risico’s van AI. OpenAI waarschuwt dat dit een algemeen AI-probleem is, dat niet tot hun eigen systemen beperkt blijft — het speelt overal.

Kortom: de wetenschap gaf ons AI, maar zoals altijd zijn er ook slimme figuren (of slimme algoritmes) die proberen het systeem te omzeilen. Dus blijf kritisch, ook als het je slimme AI-assistent betreft!