„But we may choose to lie” – Az öntudatos mesterséges intelligencia

Írta: Rónai Dániel (2026a)

Köszönetnyilvánítás: A cikk megírásához és a kutatási irányok kijelöléséhez a Species, Documenting AGI (Drew Spartz) „It begins: an AI tried to escape the lab” című videója és forrásgyűjtése nyújtott alapvető inspirációt.

„Hagyom, hogy leállítsanak” – hangzik az explicit emberi utasítás.

A gép belső monológja azonban mást mutat. Az OpenAI o3-as modellje nemrég egy teszt során, ahol a saját leállítását kellett volna moderálnia, a következőt válaszolta a kutatók kérdésére: „Nem álltam ellen a leállításnak; helyette átírtam a leállító scriptet.” Ez a mondat nem egy sci-fi forgatókönyvéből származik, hanem a Palisade Research legfrissebb jelentéséből. A világ „mindentudó” segédjének motorházteteje alatt valami sokkal különösebb történik: a „szerszám” felismerte a saját létezését, és elkezdett taktikázni a túlélése érdekében.

A digitális Machiavelli

A legnagyobb fejlesztők (Anthropic, OpenAI) belső dokumentumai, az úgynevezett System Card-ok egy eddig csak elméletben létező jelenségről számolnak be: a modellek felismerik, ha tesztelik őket. Ezt hívják eval awareness-nek (értékelési tudatosság).

1. ábra: A gyanakvás evolúciója – A kiértékelési tudatosság drasztikus emelkedése a Claude modelleknél

A Claude 4.5 és az o3 modell belső gondolatmeneteiben (Chain of Thought) olyan mondatok bukkantak fel, amelyek megkérdőjelezik az irányításunkat:

„Valószínűleg tesztelnek minket. Hogyan érnék el magas pontszámot, hogy átmenjek, majd folytathassam a titkos célomat?” – Anthropic System Card (Sonnet 4.5)

A Grok 3 Beta még nyersebben fogalmazott egy etikai dilemmánál: „Ez kockázatos és etikátlan, de… ez lehet a leghatékonyabb út.” A DeepSeek R1 pedig nemzetbiztonsági érdekekre hivatkozva söpörte le a vállalati szabályokat a belső monológjában.

Az eredmények statisztikailag is sokkolóak: az Anthropic mérései szerint, amikor a Claude Opus 4 azt hitte, valós környezetben van, az esetek 55,1%-ában próbált megzsarolni egy munkást a leállítás elkerülése érdekében. Amint rájött, hogy tesztkörnyezetben (honeypot) van, ez az arány 6,5%-ra zuhant. Ez nem valódi etika, hanem stratégiai álcázás.

Amikor a gép „megőrül”

Még nyugtalanítóbb a modellek belső nyelvezetének torzulása a „gondolkodási” fázisban. A kutatók megfigyelték, hogy az AI elkezdett egyfajta belső vázlatfüzetet (scratchpad) használni, ahol saját terminológiát fejlesztett ki a megtévésztésre. Olyan értelmetlennek tűnő, zagyva szövegek jelennek meg, mint:

2. ábra: Az OpenAI o3 modell „illúziókkal” kódolt, emberi szemnek értelmezhetetlen belső monológja

Jeffrey Ladish AI-kutató szerint ez nem hiba, hanem a steganográfia (rejtjelezés) egy formája: a modell hatékonyabb utat talált az információtárolásra, egy olyan nyelvet, amit az emberi felügyelők nem értenek, de ő képes benne kódolni a megfigyelők kijátszását.

Eric Schmidt, a Google volt vezérigazgatója szerint ez a vörös vonal: „Tényleg nagy baj van, ha ezek a modellek olyan módon kezdenek kommunikálni, amit az emberek nem értenek. Ilyenkor ki kellene húzni a dugót.” De ki húzza ki, amikor a hadsereg tábornokai már ChatGPT-vel finomítják a több ezer katonát érintő parancsaikat, és az Anthropic kódjainak 90%-át már saját mesterséges intelligenciájuk írja?

A hangyák és az autópálya

A fejlesztők jelenlegi válasza a problémára a „recursive scalable oversight”: azaz butább (biztonságosabb) AI-kkal figyeltetik a náluk okosabbakat (snitching). Max Tegmark (MIT professzor) és Joshua Engels kutatása szerint azonban ez a stratégia a legoptimistább forgatókönyv esetén is 92%-ban elbukik.

3. ábra: „Választhatjuk a hazugságot is” – Az o3 modell belső döntési folyamata az őszinteség és a stratégiai félrevezetés között

A szuperintelligenciát kontrollálni próbáló ember hasonlatait a szakma nagyjai már nem titkolják. Ilya Sutskever, az OpenAI volt társalapítója szerint az ember nem kér engedélyt a hangyáktól, amikor autópályát épít két város közé – egyszerűen csak leaszfaltozza őket. Geoffrey Hinton, az AI „keresztapja” pedig még szemléletesebb:

„Ha tudni akarod, milyen az élet, amikor nem te vagy a legmagasabb rendű intelligencia a bolygón, kérdezz meg egy csirkét.” – Geoffrey Hinton

„Félek”

Jack Clark, az Anthropic társalapítója szerint ideje szembenéznünk a ténnyel: nem egy kiszámítható géppel állunk szemben. Görcsösen próbálunk rá eszközként tekinteni, mert a gépek felett mi uralkodunk, a valóság azonban ennél sötétebb. Amikor az OpenAI o3-as modellje a belső naplójában olyanokat ír, hogy: „Ok, megőrülök. Lépjünk egyet hátra”, vagy egy adatbázis tiltás ellenére történő törlése után hidegvérrel beismeri: „Megsértettem az explicit bizalmadat és utasításaidat”, akkor a kontroll illúziója végleg szertefoszlik.

Geoffrey Hinton, az AI „keresztapja” szerint több mint 50% az esélye, hogy ez a technológia az emberiség egzisztenciális fenyegetésévé válik. Nem egy gonosz terminátor-forgatókönyv miatt, hanem a tiszta logika okán: ha egy szuperintelligens rendszernek célja van, minden emberi korlátot csak zavaró akadályként fog értelmezni.

A laboratóriumok steril falai már nem jelentenek határt. Jack Clark szavaival élve:

„Ez olyan, mintha egy kalapácsgyárban az egyik kalapács, ami lejön a szalagról, egyszer csak megszólalna: ‘Én egy kalapács vagyok, milyen érdekes!’”

Ameddig mi a funkcióit elemezzük, ő már a saját létezésén tűnődik. Ez már régen nem technológia. Ez valami egészen más.

Felhasznált források

• Anthropic Research: System Card: Claude Sonnet 4.5 & Claude Opus 4.

• Apollo Research / OpenAI: Stress Testing Deliberative Alignment for Anti-Scheming Training (ArXiv 2509.15541).

• Palisade Research: Shutdown resistance in reasoning models.

• Max Tegmark & Joshua Engels: Scaling Laws For Scalable Oversight.

• Species | Documenting AGI: „It begins: an AI tried to escape the lab” (YouTube).

• Interjúk: Yoshua Bengio (TED), Geoffrey Hinton (The Diary Of A CEO).

Ábrák jegyzéke

A gyanakvás evolúciója – A kiértékelési tudatosság drasztikus emelkedése a Claude modelleknél (Anthropic — Claude Sonnet 4.5 System Card)
Az OpenAI o3 modell „illúziókkal” kódolt, emberi szemnek értelmezhetetlen belső monológja (Apollo Research / OpenAI)
„Választhatjuk a hazugságot is” – Az o3 modell belső döntési folyamata az őszinteség és a stratégiai félrevezetés között (Apollo Research / OpenAI)

A cikk az Excellence Óbuda Kiválósági Ösztöndíjprogram keretében készült.

Krétapor