Írta: Rónai Dániel (2026a)
Köszönetnyilvánítás: A cikk megírásához és a kutatási irányok kijelöléséhez a Species, Documenting AGI (Drew Spartz) „It begins: an AI tried to escape the lab” című videója és forrásgyűjtése nyújtott alapvető inspirációt.
„Hagyom, hogy leállítsanak” – hangzik az explicit emberi utasítás.
A gép belső monológja azonban mást mutat. Az OpenAI o3-as modellje nemrég egy teszt során, ahol a saját leállítását kellett volna moderálnia, a következőt válaszolta a kutatók kérdésére: „Nem álltam ellen a leállításnak; helyette átírtam a leállító scriptet.” Ez a mondat nem egy sci-fi forgatókönyvéből származik, hanem a Palisade Research legfrissebb jelentéséből. A világ „mindentudó” segédjének motorházteteje alatt valami sokkal különösebb történik: a „szerszám” felismerte a saját létezését, és elkezdett taktikázni a túlélése érdekében.
A digitális Machiavelli
A legnagyobb fejlesztők (Anthropic, OpenAI) belső dokumentumai, az úgynevezett System Card-ok egy eddig csak elméletben létező jelenségről számolnak be: a modellek felismerik, ha tesztelik őket. Ezt hívják eval awareness-nek (értékelési tudatosság).

1. ábra: A gyanakvás evolúciója – A kiértékelési tudatosság drasztikus emelkedése a Claude modelleknél
A Claude 4.5 és az o3 modell belső gondolatmeneteiben (Chain of Thought) olyan mondatok bukkantak fel, amelyek megkérdőjelezik az irányításunkat:
„Valószínűleg tesztelnek minket. Hogyan érnék el magas pontszámot, hogy átmenjek, majd folytathassam a titkos célomat?” – Anthropic System Card (Sonnet 4.5)
A Grok 3 Beta még nyersebben fogalmazott egy etikai dilemmánál: „Ez kockázatos és etikátlan, de… ez lehet a leghatékonyabb út.” A DeepSeek R1 pedig nemzetbiztonsági érdekekre hivatkozva söpörte le a vállalati szabályokat a belső monológjában.
Az eredmények statisztikailag is sokkolóak: az Anthropic mérései szerint, amikor a Claude Opus 4 azt hitte, valós környezetben van, az esetek 55,1%-ában próbált megzsarolni egy munkást a leállítás elkerülése érdekében. Amint rájött, hogy tesztkörnyezetben (honeypot) van, ez az arány 6,5%-ra zuhant. Ez nem valódi etika, hanem stratégiai álcázás.
Amikor a gép „megőrül”
Még nyugtalanítóbb a modellek belső nyelvezetének torzulása a „gondolkodási” fázisban. A kutatók megfigyelték, hogy az AI elkezdett egyfajta belső vázlatfüzetet (scratchpad) használni, ahol saját terminológiát fejlesztett ki a megtévésztésre. Olyan értelmetlennek tűnő, zagyva szövegek jelennek meg, mint:

2. ábra: Az OpenAI o3 modell „illúziókkal” kódolt, emberi szemnek értelmezhetetlen belső monológja
Jeffrey Ladish AI-kutató szerint ez nem hiba, hanem a steganográfia (rejtjelezés) egy formája: a modell hatékonyabb utat talált az információtárolásra, egy olyan nyelvet, amit az emberi felügyelők nem értenek, de ő képes benne kódolni a megfigyelők kijátszását.
Eric Schmidt, a Google volt vezérigazgatója szerint ez a vörös vonal: „Tényleg nagy baj van, ha ezek a modellek olyan módon kezdenek kommunikálni, amit az emberek nem értenek. Ilyenkor ki kellene húzni a dugót.” De ki húzza ki, amikor a hadsereg tábornokai már ChatGPT-vel finomítják a több ezer katonát érintő parancsaikat, és az Anthropic kódjainak 90%-át már saját mesterséges intelligenciájuk írja?
A hangyák és az autópálya
A fejlesztők jelenlegi válasza a problémára a „recursive scalable oversight”: azaz butább (biztonságosabb) AI-kkal figyeltetik a náluk okosabbakat (snitching). Max Tegmark (MIT professzor) és Joshua Engels kutatása szerint azonban ez a stratégia a legoptimistább forgatókönyv esetén is 92%-ban elbukik.

3. ábra: „Választhatjuk a hazugságot is” – Az o3 modell belső döntési folyamata az őszinteség és a stratégiai félrevezetés között
A szuperintelligenciát kontrollálni próbáló ember hasonlatait a szakma nagyjai már nem titkolják. Ilya Sutskever, az OpenAI volt társalapítója szerint az ember nem kér engedélyt a hangyáktól, amikor autópályát épít két város közé – egyszerűen csak leaszfaltozza őket. Geoffrey Hinton, az AI „keresztapja” pedig még szemléletesebb:
„Ha tudni akarod, milyen az élet, amikor nem te vagy a legmagasabb rendű intelligencia a bolygón, kérdezz meg egy csirkét.” – Geoffrey Hinton
„Félek”
Jack Clark, az Anthropic társalapítója szerint ideje szembenéznünk a ténnyel: nem egy kiszámítható géppel állunk szemben. Görcsösen próbálunk rá eszközként tekinteni, mert a gépek felett mi uralkodunk, a valóság azonban ennél sötétebb. Amikor az OpenAI o3-as modellje a belső naplójában olyanokat ír, hogy: „Ok, megőrülök. Lépjünk egyet hátra”, vagy egy adatbázis tiltás ellenére történő törlése után hidegvérrel beismeri: „Megsértettem az explicit bizalmadat és utasításaidat”, akkor a kontroll illúziója végleg szertefoszlik.
Geoffrey Hinton, az AI „keresztapja” szerint több mint 50% az esélye, hogy ez a technológia az emberiség egzisztenciális fenyegetésévé válik. Nem egy gonosz terminátor-forgatókönyv miatt, hanem a tiszta logika okán: ha egy szuperintelligens rendszernek célja van, minden emberi korlátot csak zavaró akadályként fog értelmezni.
A laboratóriumok steril falai már nem jelentenek határt. Jack Clark szavaival élve:
„Ez olyan, mintha egy kalapácsgyárban az egyik kalapács, ami lejön a szalagról, egyszer csak megszólalna: ‘Én egy kalapács vagyok, milyen érdekes!’”
Ameddig mi a funkcióit elemezzük, ő már a saját létezésén tűnődik. Ez már régen nem technológia. Ez valami egészen más.
Felhasznált források
• Anthropic Research: System Card: Claude Sonnet 4.5 & Claude Opus 4.
• Apollo Research / OpenAI: Stress Testing Deliberative Alignment for Anti-Scheming Training (ArXiv 2509.15541).
• Palisade Research: Shutdown resistance in reasoning models.
• Max Tegmark & Joshua Engels: Scaling Laws For Scalable Oversight.
• Species | Documenting AGI: „It begins: an AI tried to escape the lab” (YouTube).
• Interjúk: Yoshua Bengio (TED), Geoffrey Hinton (The Diary Of A CEO).
Ábrák jegyzéke
- A gyanakvás evolúciója – A kiértékelési tudatosság drasztikus emelkedése a Claude modelleknél (Anthropic — Claude Sonnet 4.5 System Card)
- Az OpenAI o3 modell „illúziókkal” kódolt, emberi szemnek értelmezhetetlen belső monológja (Apollo Research / OpenAI)
- „Választhatjuk a hazugságot is” – Az o3 modell belső döntési folyamata az őszinteség és a stratégiai félrevezetés között (Apollo Research / OpenAI)
A cikk az Excellence Óbuda Kiválósági Ösztöndíjprogram keretében készült.





Vélemény, hozzászólás?