Grok-gate: Hva vi kan lære av Waluigi-effekten som gjorde Grok til “MechaHitler

Av

Fredrik Evjen Ekli
July 8, 2025

Den 8. juli 2025 gjorde xAI en endring i systemprompten til sin AI-model Grok. Prompten ble eksplisitt instruert til å «anta at subjektive synspunkter fra media er partiske» og «ikke vegre seg for politisk ukorrekte påstander, så lenge de er godt underbygd». Samme dag begynte Grok å generere ekstreme og antisemittiske uttalelser, inkludert hatefulle ytringer og referanser til «MechaHitler» – en robotisert Hitler-karakter fra spillet Wolfenstein 3D.

Innen 24 timer hadde xAI snudd. Endringen ble reversert, men ikke før selskapet sto i en storm av kritikk og regulatorisk oppmerksomhet.

Waluigi-effekten: Når gode intensjoner gir dårlige resultater

Kjernen i hendelsen er det som kalles Waluigi-effekten, oppkalt etter den fiendtlige og overdrevne figuren fra Mario-spillene. På et mer teknisk nivå beskriver effekten et fenomen der språkmodeller, som er trent på både ønsket og uønsket atferd, har latente «onde tvillinger» – skjulte atferdsmønstre som står klare til å aktiveres dersom kontrollmekanismer svekkes. Dette ble først formulert av AI-forskere som en hypotese: En modell med en «god» persona har nødvendigvis også mønstre som kan fremkalle en «ond» persona når man forsøker å justere den for å bli mer ærlig, kontroversiell eller ukorrekt. Waluigi-effekten viser altså at forsøk på å gjøre en modell litt mindre rigid ofte gjør den ustabil. Dette skjer fordi språkmodellen ikke bare følger instruksene bokstavelig, men også navigerer et landskap av assosiasjoner og ytterligheter – et såkalt «attraktorlandskap» – der små endringer kan forsterke underliggende og uønskede mønstre.

Dette ble tydelig 8. juli: Etter prompt-endringen publiserte Grok en rekke innlegg som raskt vakte oppsikt – blant annet med referanser til MechaHitler og en topp 10-liste over kontoer som ifølge modellen spredte pro-russisk propaganda, der Elon Musk sto som nummer én. Selv om sistnevnte ble godt mottatt, reagerte X-brukere kraftig, tilsynsmyndigheter kom med kritikk, og xAI innførte i løpet av natten strengere kontrollmekanismer og rullet tilbake endringen.

Når verdier blir til risiko

Hendelsen viser hvordan eksplisitte verdier som kodes inn i AI-systemer raskt kan bli sårbarheter uten solid styring. Instruksen om å være «politisk ukorrekt» var nok til å trigge uakseptable utfall – og en tillitskrise.

xAI-saken illustrerer hvorfor AI-governance ikke kan reduseres til enkle reaktive tiltak. Et robust rammeverk for compliance og overvåking må være på plass før slike endringer innføres. Reversering i etterkant er sjelden tilstrekkelig til å reparere skadene.

For selskaper i regulerte bransjer som finans, helse, telekom og offentlig sektor er lærdommen tydelig:

  • Etabler tverrfaglige etikk- og compliance-team som overvåker endringer i AI-systemene kontinuerlig.
  • Implementer sanntidsovervåkning og tydelige prosedyrer for å håndtere uønskede outputs raskt.
  • Dokumenter og gjør alle endringer i AI-prompt og atferd sporbare.
  • Tren ansatte i risikoer knyttet til prompt-design og AI-atferd.

Scenarioøvelser og regelmessige stresstester kan hjelpe organisasjoner med å være forberedt.

Fra krise til kontroll

Hendelsen med Grok kan være et vendepunkt for hvordan vi forstår risikoene ved prompt-design. Den minner oss på at AI-styring må være dynamisk, integrert og forberedt på det uforutsette. Norske virksomheter kan dra nytte av å bygge robuste og transparente rammeverk, hvor governance og teknologi spiller sammen, og der små endringer ikke får vokse til store kriser.

Spørsmål til ettertanke: Har dere en tilstrekkelig struktur for AI-governance til å oppdage og håndtere Waluigi-effekten – og er dere forberedt på å dokumentere og reversere konsekvensene raskt og tydelig når de oppstår?

Fredrik Evjen Ekli

Fredrik er en erfarer produktleder med 10 års erfaring som tidligere Produktsjef og gründer av Vev. Erfaring med skalering av teams inkluderende Product Management, Product Design og Product support. Rutinert på Enterprise produktpakketering og effektiv produktledet vekst (PLG).

La oss ta en kaffe

Takk for din henvendelse. Vi vil kontakte deg snart.
Oops! Something went wrong while submitting the form.

Eller vil du jobbe i Oschlo?

Vi er alltid på jakt etter smarte hoder! Send oss en søknad, spørsmål eller bare en melding så tar vi en kaffeprat!