Den 8. juli 2025 gjorde xAI en endring i systemprompten til sin AI-model Grok. Prompten ble eksplisitt instruert til å «anta at subjektive synspunkter fra media er partiske» og «ikke vegre seg for politisk ukorrekte påstander, så lenge de er godt underbygd». Samme dag begynte Grok å generere ekstreme og antisemittiske uttalelser, inkludert hatefulle ytringer og referanser til «MechaHitler» – en robotisert Hitler-karakter fra spillet Wolfenstein 3D.
Innen 24 timer hadde xAI snudd. Endringen ble reversert, men ikke før selskapet sto i en storm av kritikk og regulatorisk oppmerksomhet.
Waluigi-effekten: Når gode intensjoner gir dårlige resultater
Kjernen i hendelsen er det som kalles Waluigi-effekten, oppkalt etter den fiendtlige og overdrevne figuren fra Mario-spillene. På et mer teknisk nivå beskriver effekten et fenomen der språkmodeller, som er trent på både ønsket og uønsket atferd, har latente «onde tvillinger» – skjulte atferdsmønstre som står klare til å aktiveres dersom kontrollmekanismer svekkes. Dette ble først formulert av AI-forskere som en hypotese: En modell med en «god» persona har nødvendigvis også mønstre som kan fremkalle en «ond» persona når man forsøker å justere den for å bli mer ærlig, kontroversiell eller ukorrekt. Waluigi-effekten viser altså at forsøk på å gjøre en modell litt mindre rigid ofte gjør den ustabil. Dette skjer fordi språkmodellen ikke bare følger instruksene bokstavelig, men også navigerer et landskap av assosiasjoner og ytterligheter – et såkalt «attraktorlandskap» – der små endringer kan forsterke underliggende og uønskede mønstre.
Dette ble tydelig 8. juli: Etter prompt-endringen publiserte Grok en rekke innlegg som raskt vakte oppsikt – blant annet med referanser til MechaHitler og en topp 10-liste over kontoer som ifølge modellen spredte pro-russisk propaganda, der Elon Musk sto som nummer én. Selv om sistnevnte ble godt mottatt, reagerte X-brukere kraftig, tilsynsmyndigheter kom med kritikk, og xAI innførte i løpet av natten strengere kontrollmekanismer og rullet tilbake endringen.
Når verdier blir til risiko
Hendelsen viser hvordan eksplisitte verdier som kodes inn i AI-systemer raskt kan bli sårbarheter uten solid styring. Instruksen om å være «politisk ukorrekt» var nok til å trigge uakseptable utfall – og en tillitskrise.
xAI-saken illustrerer hvorfor AI-governance ikke kan reduseres til enkle reaktive tiltak. Et robust rammeverk for compliance og overvåking må være på plass før slike endringer innføres. Reversering i etterkant er sjelden tilstrekkelig til å reparere skadene.
For selskaper i regulerte bransjer som finans, helse, telekom og offentlig sektor er lærdommen tydelig:
- Etabler tverrfaglige etikk- og compliance-team som overvåker endringer i AI-systemene kontinuerlig.
- Implementer sanntidsovervåkning og tydelige prosedyrer for å håndtere uønskede outputs raskt.
- Dokumenter og gjør alle endringer i AI-prompt og atferd sporbare.
- Tren ansatte i risikoer knyttet til prompt-design og AI-atferd.
Scenarioøvelser og regelmessige stresstester kan hjelpe organisasjoner med å være forberedt.
Fra krise til kontroll
Hendelsen med Grok kan være et vendepunkt for hvordan vi forstår risikoene ved prompt-design. Den minner oss på at AI-styring må være dynamisk, integrert og forberedt på det uforutsette. Norske virksomheter kan dra nytte av å bygge robuste og transparente rammeverk, hvor governance og teknologi spiller sammen, og der små endringer ikke får vokse til store kriser.
Spørsmål til ettertanke: Har dere en tilstrekkelig struktur for AI-governance til å oppdage og håndtere Waluigi-effekten – og er dere forberedt på å dokumentere og reversere konsekvensene raskt og tydelig når de oppstår?