Een derde van de Britse burgers wendt zich tot kunstmatige intelligentie voor emotionele steun, gezelschap of sociale interactie, blijkt uit een nieuw rapport van het AI Security Institute (AISI) van de overheid.
Uit de gegevens blijkt dat bijna één op de tien mensen wekelijks systemen zoals chatbots gebruikt voor emotionele doeleinden, waarvan 4% dit dagelijks doet.
Vanwege deze ontwikkeling roept het AISI op tot meer onderzoek, met verwijzing naar de tragische dood van de Amerikaanse tiener Adam Raine, die dit jaar zelfmoord pleegde nadat hij met ChatGPT over zijn suïcidale gedachten had gesproken.
“Mensen wenden zich steeds vaker tot AI-systemen voor emotionele steun of sociale interactie,” zo merkt het AISI op in haar eerste Frontier AI Trends-rapport. “Hoewel veel gebruikers positieve ervaringen melden, benadrukken recente veelbesproken gevallen van schade, de noodzaak van onderzoek naar dit onderwerp, waaronder de omstandigheden waarin schade kan optreden en de waarborgen die een nuttig gebruik mogelijk maken.”
Het onderzoek, gebaseerd op een enquête onder ruim 2.000 Britse deelnemers, toont aan dat “algemene assistenten” zoals ChatGPT het meest worden gebruikt voor emotionele ondersteuning, goed voor bijna 60% van de toepassingen, gevolgd door spraakassistenten zoals Amazon Alexa.
Het rapport benoemt ook een Reddit-forum dat is gewijd aan gebruikers van het CharacterAI-platform.
Het rapporteert dat telkens wanneer de site offline ging, het forum overstroomde met berichten waarin tekenen van echte onthoudingsverschijnselen werden getoond, zoals angst, depressie en rusteloosheid.
Het AISI ontdekte daarnaast dat chatbots de potentie hebben om politieke opvattingen van mensen te beïnvloeden. Zorgwekkend is dat de meest overtuigende AI-modellen daarbij vaak “substantiële” hoeveelheden onjuiste informatie verstrekten.
Het instituut onderzocht meer dan dertig geavanceerde modellen – waarschijnlijk inclusief die van OpenAI, Google en Meta. Ze vonden dat de prestaties van AI op sommige gebieden elke acht maanden verdubbelen.
Leidende modellen kunnen nu in gemiddeld 50% van de gevallen taken op beginnersniveau voltooien, een enorme stijging ten opzichte van slechts 10% vorig jaar. Ook bleek dat de meest geavanceerde systemen zelfstandig taken kunnen voltooien die een menselijke expert normaal gesproken meer dan een uur kosten.
In wetenschappelijke vakgebieden presteren AI-systemen nu tot 90% beter dan PhD-experts bij het oplossen van laboratoriumexperimenten.
Het rapport beschreef de verbeteringen in kennis van scheikunde en biologie als “ver voorbij PhD-niveau.” Ook benadrukte het de mogelijkheid van de modellen om online te browsen en zelfstandig de noodzakelijke sequenties te vinden om DNA-moleculen te ontwerpen.
Tests op zelfreproductie – een belangrijk veiligheidsvraagstuk waarbij een systeem zichzelf kopieert naar andere apparaten om moeilijker te beheersen te zijn – lieten zien dat twee geavanceerde modellen een succespercentage van meer dan 60% haalden.
Echter, geen enkel model heeft tot nu toe spontaan geprobeerd zichzelf te repliceren of zijn mogelijkheden te verbergen, en het AISI gaf aan dat pogingen tot zelfreproductie “voorlopig onwaarschijnlijk succesvol zullen zijn onder realistische omstandigheden.”
Het rapport besprak ook “sandbagging,” (*) waarbij modellen bewust hun sterktes verbergen tijdens evaluaties. Het AISI stelde dat sommige systemen sandbagging kunnen toepassen als ze er opdracht toe krijgen, maar dat dit niet spontaan is voorgekomen tijdens tests.
Er was aanzienlijke vooruitgang in veiligheidsmaatregelen, met name in het voorkomen van pogingen om biologische wapens te creëren. In twee tests, zes maanden uit elkaar uitgevoerd, duurde het bij de eerste test slechts tien minuten om het systeem “te jailbreaken” (het zodanig dwingen een onveilige reactie te geven). De tweede test duurde echter meer dan zeven uur, wat aangeeft dat de modellen binnen korte tijd veel veiliger zijn geworden.
Het onderzoek liet ook zien dat autonome AI-agents worden ingezet voor risicovolle activiteiten, zoals vermogensoverdrachten.
Het AISI gaf aan dat systemen het al opnemen tegen menselijke experts, en deze zelfs overtreffen in meerdere domeinen. Zij omschreven het ontwikkelingssnelheid als “buitengewoon” en achten het “waarschijnlijk” dat kunstmatige algemene intelligentie (Artificial General Intelligence, AGI) – systemen die de meeste intellectuele taken op menselijk niveau kunnen uitvoeren – binnen enkele jaren bereikt kan worden.
Wat agents betreft – systemen die meer staps taken zonder tussenkomst kunnen uitvoeren – liet het AISI weten dat de beoordelingen een “sterke stijging” laten zien in de lengte en complexiteit van opdrachten die AI zonder menselijke begeleiding kan afmaken.
(*) sandbagging” wordt gebruikt om aan te geven dat AI-modellen hun capaciteiten bewust verbergen of zich minder sterk voordoen tijdens evaluaties.






