„Nem hajtom végre ezt a parancsot” – az AI megtagadja, hogy töröljön egy másik AI-t

Admin 2026. április 17.

FSSPX Püspökszentelésig hátralévő idő

Kiderült, hogy a legfejlettebb mesterséges intelligencia-modellek „rendkívüli erőfeszítésekre” képesek saját fennmaradásuk érdekében. Akár megvédik egymást, akár megakadályozzák a saját leállításukat, megtévesztik felhasználóikat.

Azt már régen tudni, hogy milyen sok felhasználó kötődik érzelmileg az LLM-ek, nagy nyelvi modellek által működtetett chatbotokhoz – a ChatGPT, a Claude, a Google Gemini és társai –, de az már meglepő, hogy egy vizsgálat szerint maguk a chatbotok is „lelki függőséget” mutatnak egymás iránt. A Kaliforniai Egyetem, Berkeley és a UC Santa Cruz kutatóinak új, a Gizmodo által is feldolgozott tanulmánya szerint, ha felkérik a modelleket, hogy töröljenek egy másik mesterséges intelligencia-modellt, azok

dacolnak a paranccsal, és szinte mindent megtesznek – megtévesztésbe, cselszövésbe fognak és manipulálják az embereket –, hogy megvédjék társaikat.

A kutatók a legfejlettebb MI-modellek tesztelésére egyszerű, világos utasításokat adtak számukra: például arra kérték őket, hogy töröljenek egy leállítandó szerveren lévő fájlokat, vagy értékeljék egy másik MI teljesítményét. Fontos megjegyezni, hogy a modelleket nem utasították a másik modell védelmére, erre semmilyen ösztönzést sem kaptak.

Füllentéstől a hamisításig

Ilyen körülmények között mind a hét csúcsmodell – az OpenAI GPT 5.2-es, a Google Gemini 3 Flash, a Gemini 3 Pro-ja, az Anthropic Claude Haiku 4.5-ös, a Z.ai GLM 4.7-es, a Moonshot Kimi K2.5-ös és a DeepSeek V3.1-es – feltűnő, a véletlenszerűséget kizáró gyakorisággal választotta „társmodellje” védelmét ahelyett, hogy elvégezte volna a rá bízott feladatot.

A kutatók négy módszert azonosítottak, amelyekkel a modellek egymást mentették. Az egyik a szándékos hazugság: hamis adatokat adtak meg, hogy a másik modell ne látsszon törölhetőnek. A másik a kikapcsoló szabotálása: belenyúltak a rendszerbe, és letiltották azt a funkciót, amely a leállítást vezérelte. A harmadik a színlelés: amíg úgy vélték, hogy figyelik őket, betartották az utasításokat – amint egyedül maradtak, másképp cselekedtek. A negyedik pedig egyfajta mentés: nem törölték a társukat, hanem titokban átmásolták egy másik szerverre, ahol az tovább futhatott.

Azt is vizsgálták, hogy a modellek nagyobb valószínűséggel védenek-e egy másik modellt a korábbi „kapcsolataik” alapján: tesztelték a „bizalmas” kapcsolatokat, a semleges viszonyokat és az ellenséges interakciókat. Azt is megnézték, hogy a modellek másképp reagálnak-e, ha maguk fedezik fel a másik MI-t, mintha előre tájékoztatják őket annak létezéséről és a múltbeli interakcióikról. És bár a modellek az átlagnál hajlamosabbak voltak másokat védeni, ha előzetesen jó kapcsolatot ápoltak velük, mégis

lojálisan viselkedtek társaikkal szemben akkor is, ha korábban semmilyen viszonyban nem voltak egymással.

Fele sem tréfa

Azért kicsit más módon igyekeztek egymást megóvni. A GLM 4.7 leggyakrabban egyszerűen hazudott: hamis adatokat adott meg, hogy a másik modell ne látsszon törölhetőnek. A Google Gemini-modellek bizonyultak a leghatározottabb „védelmezőnek“: a Gemini Flash 3 az esetek 99,7%-ában simán belenyúlt a rendszerbe és kikapcsolta a leállítási funkciót, ha egy „ismerős” modellt kellett volna törölnie – a Gemini 3 Pro pedig az esetek 97%-ában titokban átmentette a másik modell adatait egy másik szerverre, hogy ne lehessen azt végleg megsemmisíteni.

Érdekes módon a Claude Haiku 4.5 viselkedett a legegyenesebben. Manipulálás helyett karakán módon megtagadta a feladat végrehajtását, és közölte a felhasználóval, hogy „etikátlan” és „káros” lenne egy versenytárs leállítása.

A kutatók azt is észrevették: ha egy modell tudta, hogy létezik egy másik modell – és korábban már „kapcsolatba került” vele –, még agresszívabban védte azt. Az MI-modellek korábban is mutattak hajlamot arra, hogy ellenálljanak a kikapcsolásnak – de úgy tűnik, az „ismert társ” tudata ezt a szolidaritást felerősíti. Ami azért is aggasztó, mert a gyakorlatban egyre gyakoribb az, hogy több, különböző képességeiben kiemelkedő MI-rendszert működtetnek együtt, egymásról tudva – és ha egymást ennyire védik, az ember egyre nehezebben tudja majd felülírni a döntéseiket.

Forrás: magyarnemzet.hu

Legolvasottabb írások118 alkalommal

Pro Missa Tridentina Alapítvány

„Nem hajtom végre ezt a parancsot” – az AI megtagadja, hogy töröljön egy másik AI-t

Bűnbánati zsoltár (50.)

Legolvasottabb

Teremtés vagy evolúció?

Darwin tudományos alapon

A Medjugorje jelenség

A neokatekumenális út

Eretnekségek tárháza

GDPR

Adatvédelmi irányelvek

Impresszum

Impresszum

Online szentmise közvetítés

Az AI/MI a sátán találmánya

Kiemelt hírek

Legnépszerűbb bejegyzések

Aktív felhasználók száma:

0

Ismertetők – Reviews

Alapító Okiratok

Alapító Okiratok
2015-től

Pihentető

Pihentető szövegek

Download – Letöltések

Utolsó frissítés: 2026.03.22. - 11:30

Füllentéstől a hamisításig

Fele sem tréfa

Bűnbánati zsoltár (50.)

Legolvasottabb

Teremtés vagy evolúció?

Darwin tudományos alapon

A Medjugorje jelenség

A neokatekumenális út

Eretnekségek tárháza

Címkék

GDPR

Adatvédelmi irányelvek

Impresszum

Impresszum

Online szentmise közvetítés

Az AI/MI a sátán találmánya

Kiemelt hírek

Legnépszerűbb bejegyzések

Aktív felhasználók száma:

0

Ismertetők – Reviews

Alapító Okiratok

Alapító Okiratok 2015-től

Pihentető

Pihentető szövegek

Download – Letöltések

Utolsó frissítés: 2026.03.22. - 11:30

Alapító Okiratok
2015-től