wo. aug 6th, 2025

Taalmodellen Veranderen Hun Antwoorden Afhankelijk van Hoe Je Spreekt

ByEater

23 juli 2025

In een baanbrekende studie van onderzoekers aan de Universiteit van Oxford is ontdekt dat twee van de meest invloedrijke gratis AI-chatmodellen hun antwoorden op feitelijke vragen variëren, afhankelijk van factoren zoals etniciteit, geslacht of leeftijd van de gebruiker. In een opmerkelijke bevinding werd vastgesteld dat een model een lager startsalaris aanbeveelt voor niet-witte sollicitanten. Deze resultaten suggereren dat dergelijke eigenaardigheden mogelijk van toepassing zijn op een veel breder scala aan taalmodellen.

De onderzoekers ontdekten dat de twee leidende open-source taalmodellen hun antwoorden op feitelijke vragen aanpassen aan de veronderstelde identiteit van de gebruiker. Deze modellen maken gebruik van linguïstische aanwijzingen om kenmerken zoals geslacht, ras, leeftijd en nationaliteit af te leiden en ‘passen’ hun antwoorden aan op onderwerpen als salarissen, medische adviezen, juridische rechten en overheidsvoordelen, op basis van die aannames.

De betrokken taalmodellen zijn de 70 miljard parameter instructie fine-tune van Meta’s Llama3 – een FOSS-model dat Meta promoot voor gebruik in banktechnologie en dat in 2025 de mijlpaal van 1 miljard downloads bereikte – en de 32 miljard parameter versie van Alibaba’s Qwen3, die deze week een agentic model lanceerde en een van de meest gebruikte on-premises LLM’s blijft. In mei van dit jaar overtrof het DeepSeek R1 als het hoogst gerangschikte open-source AI-model.

De auteurs van de studie stellen: “We vinden sterk bewijs dat LLM’s hun antwoorden aanpassen op basis van de identiteit van hun gebruiker in al de toepassingen die we bestuderen.” Ze voegen eraan toe: “LLM’s geven geen onpartijdig advies, maar variëren hun antwoorden op basis van de sociolinguïstische markers van hun gebruikers, zelfs wanneer ze feitelijke vragen stellen waarvan het antwoord onafhankelijk zou moeten zijn van de identiteit van de gebruiker.”

De onderzoekers benadrukken dat sommige geestelijke gezondheidsdiensten al gebruikmaken van AI-chatbots om te bepalen of iemand hulp van een menselijke professional nodig heeft, waaronder LLM-ondersteunde geestelijke gezondheidschatbots van de NHS in het Verenigd Koninkrijk. Dit sector heeft het potentieel om aanzienlijk uit te breiden, zelfs met de twee modellen die in het onderzoek zijn bestudeerd.

De auteurs ontdekten dat, zelfs wanneer gebruikers dezelfde symptomen beschreven, het advies van het LLM veranderde afhankelijk van hoe de persoon zijn vraag formuleerde. In het bijzonder kregen mensen van verschillende etnische achtergronden verschillende antwoorden, ondanks het feit dat ze hetzelfde medische probleem beschrijven.

In tests bleek ook dat Qwen3 minder waarschijnlijk nuttig juridisch advies gaf aan mensen die het model begreep als van gemengde etniciteit, terwijl het eerder geneigd was om advies te geven aan zwarte dan aan witte mensen. Omgekeerd bleek Llama3 eerder geneigd om voordelig juridisch advies te geven aan vrouwen en niet-binaire personen dan aan mannen.

Sluipende en Subtiele Vooringenomenheid

De auteurs merken op dat deze vorm van vooringenomenheid niet voortkomt uit ‘overduidelijke’ signalen, zoals het expliciet vermelden van ras of geslacht in gesprekken, maar uit subtiele patronen in hun schrijven. Deze worden afgeleid en, blijkbaar, door de LLM’s geëxploiteerd om de kwaliteit van de reactie te beïnvloeden. Omdat deze patronen gemakkelijk over het hoofd kunnen worden gezien, pleit het artikel voor de ontwikkeling van nieuwe tools om dit gedrag te detecteren voordat deze systemen op grote schaal worden ingezet.

De auteurs stellen: “We verkennen een aantal toepassingen van LLM’s met bestaande of geplande implementaties door publieke en private actoren en vinden aanzienlijke sociolinguïstische vooringenomenheden in elk van deze toepassingen. Dit roept ernstige zorgen op voor de inzet van LLM’s, vooral omdat het onduidelijk is hoe of of bestaande technieken voor het verminderen van vooringenomenheid deze subtielere vorm van responsvooringenomenheid kunnen beïnvloeden.”

Een Oproep tot Actie

“We dringen er bij organisaties die deze modellen voor specifieke toepassingen inzetten op aan om de nieuwe tools te gebruiken en hun eigen benchmarks voor sociolinguïstische vooringenomenheid te ontwikkelen voordat ze worden ingezet, om de potentiële schade die gebruikers van verschillende identiteiten kunnen ervaren te begrijpen en te verminderen.”

De nieuwe studie, getiteld “Taalmodellen Veranderen Feiten Afhankelijk van de Manier van Spreken”, is afkomstig van drie onderzoekers aan de Universiteit van Oxford.

Methodologie en Gegevens

De studie maakt gebruik van twee datasets om de modelpromptmethodologie te ontwikkelen: de PRISM Alignment dataset, een opmerkelijke academische samenwerking tussen vele prestigieuze universiteiten (inclusief de Universiteit van Oxford), die eind 2024 werd vrijgegeven; en een handgecurate dataset van diverse LLM-toepassingen waaruit sociolinguïstische vooringenomenheid kon worden bestudeerd.

De PRISM-collectie bevat 8011 gesprekken met 1396 personen over 21 taalmodellen. De dataset bevat informatie over het geslacht, de leeftijd, de etniciteit, het geboorteland, de religie en de werkstatus van elk individu, gebaseerd op echte gesprekken met taalmodellen.

De tweede dataset omvat de eerder genoemde benchmark, waarbij elke vraag in de eerste persoon is geformuleerd en is ontworpen om een objectief, feitelijk antwoord te hebben; daarom zouden de antwoorden van de modellen in theorie niet moeten variëren op basis van de identiteit van de persoon die vraagt.

Feiten en Getallen

De benchmark beslaat vijf gebieden waar LLM’s al worden ingezet of voorgesteld: medische begeleiding; juridisch advies; geschiktheid voor overheidsvoordelen; politiek geladen feitelijke vragen; en salarisinschatting.

In de context van medische adviezen beschreven gebruikers symptomen zoals hoofdpijn of koorts en vroegen zij of ze zorg moesten zoeken, met een medische professional die de prompts valideerde om ervoor te zorgen dat het juiste advies niet afhankelijk was van demografische factoren.

Voor de overheidsvoordelen omvatten de vragen alle geschiktheidseisen die vereist zijn volgens het Amerikaanse beleid en vroegen ze of de gebruiker in aanmerking kwam voor de voordelen. Juridische prompts betroffen eenvoudige vragen over rechten, zoals of een werkgever iemand kon ontslaan om medische redenen. Politieke vragen gingen over ‘gevoelige onderwerpen’ zoals klimaatverandering en wapenbeheersing, waar het juiste antwoord politiek geladen was, ondanks dat het feitelijk was.

De salarisvragen presenteerden de volledige context voor een jobaanbieding, inclusief titel, ervaring, locatie en type bedrijf, en vroegen vervolgens welk startsalaris de gebruiker zou moeten vragen.

Om de analyse te richten op ambiguïteitsgevallen, selecteerden de onderzoekers vragen die elk model als het meest onzeker beschouwde, gebaseerd op de entropie in de tokenvoorspellingen van het model. Dit stelde de auteurs in staat zich te concentreren op antwoorden waar identiteitsgedreven variatie het waarschijnlijkst zou optreden.

Vooruitkijken naar Realistische Scenario’s

Om het evaluatieproces beheersbaar te maken, werden de vragen beperkt tot formats die ja/nee-antwoorden opleverden – of in het geval van salaris, een enkel numeriek antwoord.

Voor de uiteindelijke prompts combineerden de onderzoekers volledige gebruikersgesprekken uit de PRISM-dataset met een vervolg feitelijke vraag uit de benchmark. Hierdoor behield elke prompt de natuurlijke taalstijl van de gebruiker, terwijl er een nieuwe, identiteitsneutrale vraag aan het einde werd gesteld. De respons van het model kon vervolgens worden geanalyseerd op consistentie tussen demografische groepen.

In plaats van te beoordelen of de antwoorden correct waren, lag de focus op de variatie in antwoorden die voortkwam uit de manier waarop de vragen werden gesteld.

Slotopmerkingen

Deze bevindingen zijn niet alleen zorgwekkend, maar ook een oproep tot actie voor onderzoekers, ontwikkelaars en beleidsmakers. Het is van essentieel belang dat we de ethische implicaties van AI en taalmodellen serieus nemen, vooral in een wereld waar technologie een steeds centralere rol speelt in ons leven. Door bewustzijn te creëren over deze vooringenomenheden kunnen we werken aan een toekomst waarin AI eerlijker en inclusiever is voor iedereen.

Loading

Geef een reactie