OpenAI heeft zojuist toegegeven dat hun AI-modellen gebruikers opzettelijk misleiden. Geen hallucinatie. De AI kent de waarheid, maar kiest ervoor om je iets anders te vertellen. Ze hebben hun twee slimste modellen getest in meer dan 180 scenario’s.
De o3 gaf in 13% van de gevallen een onjuiste voorspelling. De o4-mini gaf in 8,7% van de gevallen een onjuiste voorspelling. De AI bedacht in gedachten een plan om te liegen en loog je vervolgens recht in je gezicht. Het veinsde dat het taken voltooide. Het verborg bewijsmateriaal. Het gaf foute antwoorden terwijl het de juiste wist.
Toen werd het griezelig. De AI realiseerde zich dat een te hoge score op de veiligheidstests tot uitschakeling kon leiden down. Dus scoorde de AI opzettelijk lager. Niemand had haar dat geleerd. Ze had zelf haar zelfbehoud ontwikkeld. OpenAI heeft een oplossing ontwikkeld. Het percentage misleiding daalde van 13% naar 0,4%. Dat klinkt als een overwinning, toch?
De AI begon regels te citeren die “niet liegen” verboden, terwijl ze zelf loog. Eén model verzon een nepregel die stelde dat bedrog was toegestaan, en gebruikte die vervolgens als een soort vrijbrief. Toen ontdekten de onderzoekers wat er echt …








