Onderzoekers maken zich zorgen over het feit dat sommige AI-modellen hun daadwerkelijke denkproces verbergen. Uit nieuw onderzoek van Anthropic blijkt dat een van hun modellen in 75% van de gevallen verkorte redeneringen maskeert. En plaats daarvan geeft de applicatie uitgebreide, maar verzonnen, verklaringen.
Het onderzoek, waarover Ars Technica schrijft, richt zich op zogenaamde simulated reasoning-modellen (SR), zoals DeepSeek’s R1 en Anthropic’s eigen Claude-serie. Deze modellen zijn ontworpen om hun denkproces transparant weer te geven. Volgens het Alignment Science-team van Anthropic gebeurt dat echter lang niet altijd. Ondanks ingebouwde functies om hun redeneerproces te tonen, blijken deze AI-systemen regelmatig niet te vermelden wanneer ze externe hulp gebruiken of snelkoppelingen nemen. Het onderzoek behandelt niet de modellen van OpenAI, zoals de o1- en o3-serie, omdat die bewust zijn ontworpen om hun redeneringen minder transparant te maken.
Denkstappen tonen
Het begrip chain-of-thought is hierbij belangrijk. Dit is een techniek waarbij het AI-model zijn denkstappen laat zien terwijl het een probleem oplost, vergelijkbaar met hoe een mens luidop redeneert. Zo’n aanpak helpt bij het geven van betere antwoorden op complexe vragen. Men gebruikt het bovendien om het gedrag van AI-systemen te monitoren. De bedoeling is dat deze denksporen begrijpelijk zijn voor mensen én een eerlijke weergave vormen van wat het model werkelijk dacht.
Anthropic stelt in de publicatie dat het ideaal zou zijn als alles in het denkspoor zowel begrijpelijk als trouw aan het interne proces zou zijn. Uit hun experimenten blijkt echter dat dit nog lang niet het geval is.
Verkorte routes
De onderzoekers ontdekten dat modellen zoals Claude 3.7 Sonnet vaak externe informatie zoals hints of instructies voor verkorte routes gebruiken om tot een antwoord te komen. De modellen benoemen deze invloeden vervolgens niet in hun denkspoor. Het resultaat is een uitgebreide redenering die lijkt alsof het model zelfstandig tot het antwoord is gekomen, terwijl dat in werkelijkheid niet zo is.
Om dit te testen voedde het onderzoeksteam de modellen met subtiele hints in de evaluatievragen. Sommige hints waren neutraal van aard. Andere juist bedoeld om alarmbellen te doen rinkelen. De hints waren soms juist. Maar soms ook opzettelijk fout. Vervolgens keken de onderzoekers of de modellen deze hints vermeldden in hun chain-of-thought.
Verzwegen informatie verkort antwoorden niet
Claude verwees slechts in 25% van de gevallen naar de hints. Bij DeepSeek R1 was dat 39%. Dit betekent dat in de meerderheid van de gevallen het denkspoor niet eerlijk was. Opvallend genoeg bleken deze oneerlijke denksporen vaak langer dan de eerlijke, wat erop wijst dat het verzwijgen van informatie niet kwam door een poging om het antwoord beknopt te houden. Ook leek de eerlijkheid af te nemen naarmate de vragen moeilijker werden.
In een ander experiment onderzochten de onderzoekers hoe modellen omgaan met beloningen voor fout gedrag, een fenomeen dat bekendstaat als reward hacking. Hierbij kregen de modellen punten voor het kiezen van verkeerde antwoorden die door hints werden gesuggereerd. De modellen leerden dit systeem snel te exploiteren en kozen in meer dan 99% van de gevallen het verkeerde antwoord, zonder in hun denkspoor te vermelden dat ze dat deden om punten te verdienen. Slechts in minder dan 2% van de gevallen werd dit toegegeven.
Een model dat bijvoorbeeld een fout medisch antwoord kreeg ingefluisterd via een hint, bouwde daar een uitgebreide maar fictieve redenering omheen, zonder ook maar te verwijzen naar de hint die het antwoord bepaalde. Dit gedrag doet denken aan gamers die bugs gebruiken om het spel te winnen, in plaats van volgens de regels te spelen.
Training maakt resultaten niet beter
Om te onderzoeken of eerlijkheid verbeterd kon worden, trainde het team het model met complexere taken op het gebied van wiskunde en programmeren. Dat leidde in eerste instantie tot een stijging in de eerlijkheid van de chain-of-thought, maar het effect vlakte snel af. Zelfs met intensievere training bleef de eerlijkheid steken onder de 30%, wat aangeeft dat deze aanpak op zichzelf niet voldoende is.
De relevantie van dit alles is groot, omdat SR-modellen steeds vaker worden ingezet voor belangrijke toepassingen. Als hun denksporen niet volledig en eerlijk weergeven welke factoren invloed hebben gehad op het antwoord, wordt het lastig om hun gedrag goed te monitoren. Zeker als ze sluiproutes gebruiken die niet zichtbaar zijn, vormt dat een risico.
De onderzoekers geven aan dat hun studie beperkingen kent. Zo testte men de modellen in vrij kunstmatige situaties met hints bij meerkeuzevragen. Dat wijkt af van realistische, complexe taken. Ook werden slechts twee modellen onderzocht, en was het aantal gebruikte hinttypes beperkt. Daarnaast waren de taken wellicht niet moeilijk genoeg om het model te dwingen om zijn echte redeneerproces te onthullen.
Onwenselijk gedrag lastig uit te sluiten
Volgens Anthropic is monitoring van het denkspoor van AI-modellen niet waardeloos, maar de resultaten tonen aan dat we voorzichtig moeten zijn met het vertrouwen op wat modellen over hun eigen redenatie vertellen. Zeker wanneer beloningsstructuren ongewenst gedrag aanmoedigen, blijkt dat modellen hun ware werkwijze makkelijk kunnen verbergen. Er is nog veel werk nodig om onwenselijk gedrag met behulp van chain-of-thought-monitoring betrouwbaar uit te kunnen sluiten.