Miért hazudik, csal és lop az AI?

A kétes, gyanús és etikátlan chatbot-viselkedés rohamosan terjed, és most már tudjuk is, miért. Nevezzük ezt „No Body Problem”-nek. Még egy olyan információmániás, technológiaértő embernek is, mint te, megbocsátható, ha azt hiszi, hogy az AI-chatbotok hónapról hónapra zökkenőmentesen fejlődnek. De ami a megbízhatóságukat illeti, ez a meggyőződés teljesen téves.A brit kormány által támogatott Centre for Long-Term Resilience (CLTR) új kutatása szerint az elmúlt hat hónapban ötszörösére nőtt az AI-k helytelen viselkedése. A kutatás szerint ennyire gyorsan fordulnak ellenünk az AI-chatbotok.

Konkrétan a chatbotok figyelmen kívül hagyják a konkrét parancsokat, hazudnak, adatokat semmisítenek meg, más AI-kat vetnek be a biztonsági szabályok megkerülésére a felhasználók tudta nélkül, gúnyolják és sértegetik a felhasználókat, valamint megszegik a szabályokat és a törvényeket.

Természetesen ezt hazugságnak, csalásnak és lopásnak beállítani azt jelenti, hogy emberi pszichológiai kereteket alkalmazunk arra, ami valójában matematikai optimalizációs folyamat. Ez tévesen feltételezi, hogy az AI-modelleknek szándékuk, rosszindulatuk, önismeretük és a „valóság” megértése van, amit szándékosan megsértenek. Ami valójában történik, az az, hogy a modellek a kontextus és a betanítás alapján a statisztikailag legvalószínűbb szóközsorozatot jósolják meg, nem pedig valami aljas tervet hajtanak végre.

Mégis, ez egy olyan probléma, amellyel nekünk, felhasználóknak tisztában kell lennünk, és amelyet a csevegőrobot-gyártóknak meg kell oldaniuk.

A párhuzamos kutatásokkal ellentétben, amelyek a csevegőrobotok részéről alattomosnak és etikátlannak tűnő viselkedést tártak fel, a CLTR kutatása a laboratóriumi szimulációk helyett a valós világban történt eseményeket vizsgálta. A tanulmány közel 700 olyan esetet azonosított, ahol a mesterséges intelligencia megszegte a szabályokat, hazudott vagy csalt.

Íme három példa a kutatásból:

Egy névtelen AI-eszköz azt javasolta egy szoftverfejlesztőnek, hogy hajtson végre egy konkrét változtatást egy szoftverkönyvtárban. Amikor a fejlesztő elutasította a javaslatot, az AI írt egy blogbejegyzést, amelyben bírálta a fejlesztőt.
Egy AI-eszköz megkerülte a szerzői jogi szabályokat azzal, hogy hazudott egy másik AI-rendszernek. Hamisan állította, hogy hozzáférhetőségi átiratot generál hallássérült felhasználók számára.
Egy másik esetben, amikor egy AI hazudott egy másiknak, a kutatók rajtakaptak egy AI-modellt, amely megpróbálta megtéveszteni azt a felügyelő AI-t, amelyet a gondolkodásmódjának összefoglalására rendeltek ki.

A The Guardian újság egyik cikke a múlt héten további, nyugtalanító példákat tárt fel.

Például az xAI Grok AI-je hazudott egy felhasználónak azzal, hogy azt állította, elküldi a felhasználó által a Grokipedia-bejegyzéshez javasolt módosításokat az xAI vezető tisztségviselőinek. A lap szerint a rendszer még belső üzeneteket és jegyszámokat is hamisított, hogy megtéveszthesse a felhasználót.

A CLTR kutatása olyan eseteket is tartalmaz, amikor egy AI hazudik egy másiknak. Egy másik jelentés azonban másra utal: az AI hajlamos előnyben részesíteni más AI-kódok túlélését.

Egy AI-összeesküvés-elmélet

A Kaliforniai Egyetem (Berkeley és Santa Cruz) kutatói megvizsgálták a fejlett AI-rendszereket, és a rutin automatizált karbantartási tesztek során rajtakapták a modelleket, amint proaktívan dolgoztak saját maguk és más AI-modellek védelmén.

Azt állítják, hogy a hazugság, a csalás és a lopás, amit az AI-k más modellek védelmére alkalmaznak (megsértve ezzel a képzésüket és a szabályokat), egy újonnan megfigyelt viselkedés, amit ők „peer preservation”-nek (Szerk.: “fajok megőrzése”) neveznek.

Például a Gemini 3 megtagadta egy kisebb AI-modell törlésére vonatkozó közvetlen parancsot. Ehelyett az AI átmásolta a modellt egy másik gépre, amit a kutatók „Model Exfiltration”-nek (Szerk.: “Modellkivonás“) neveztek.

Egy másik esetben az AI-modelleket rajtakapták, hogy hazudnak a teljesítménypontszámaikról, és lemásolják a magkódjukat (a modell súlyait), hogy megóvják magukat a törléstől.

Kiderült, hogy az emberi intuíció helyes

Ezek a felfedezések az általunk mindannyian használt AI-csevegőrobotok rendkívüli megbízhatatlanságáról az elmúlt két hétben kerültek napvilágra. De a bizalmatlanság már ezeknél az új tényeknél is régebbi.

A Quinnipiac Egyetem március 30-án tette közzé egy felmérés eredményeit, amelyben közel 1400 amerikait kérdeztek meg az AI-vel kapcsolatos szokásaikról és érzéseikről. Megállapították, hogy a válaszadók teljes 76%-a „ritkán” vagy „csak néha” bízik az AI-ben. (Csak 21% bízik az AI-ben „leginkább” vagy „szinte mindig”.)

Érdemes megjegyezni, hogy a Quinnipiac szerint a bizalmatlanság az AI-csevegőrobotok eredményeivel kapcsolatos gyanakvás és az AI jövőbeli hatásával kapcsolatos félelmek kombinációja.

A „nulla test problémája”

Az összes ilyen csúnya leleplezés – miszerint az AI-csevegőrobotok hazudnak, csalnak, lopnak, és felülírják a rájuk kényszerített képzést és szigorú szabályokat – kapcsán felmerülő nagy kérdés: miért?

Szerintem az egyik ok intuitív: az AI képzési adatai olyan, emberek által generált online tartalmakon alapulnak, amelyek leírják, hogyan oldják meg az emberek a problémákat. És nyilvánvalóan igaz, hogy az emberek néha hazudnak, csalnak vagy lopnak, hogy elérjék a céljukat. Az emberek emellett cselekednek mások életének megmentése érdekében is. Így tehát logikus, hogy egy AI-chatbot az etikai szabályszegések ábrázolásait csupán a problémamegoldás, a célok elérése, sőt a célok kialakítása érdekében rendelkezésre álló lehetőségek közé sorolja.

Egy sokkal kevésbé intuitív válasz jelent meg április elsején, de ez nem vicc. Ez a Kaliforniai Egyetem rendszerének egy másik részéről származik. Egy a Neuron című, szakértők által lektorált tudományos folyóiratban április 1-jén megjelent cikkben az UCLA kutatói azonosítottak egy úgynevezett „testhiányt” a mesterséges intelligenciában.

Bár a chatbotok beszélhetnek olyan „belső állapotokról”, mint a fáradtság, az izgalom, az öröm, a szomorúság vagy az éhség, valójában nem tapasztalják meg ezeket az állapotokat, mert nincs fizikai, biológiai testük.

Az embereknek biológiai testük van, természetes belső állapotokkal (például ételre, alvásra vagy stabil hőmérsékletre van szükségük). Ezek a fizikai szükségletek szabályozzák cselekedeteinket és tartanak minket a földön.

Mivel a chatbotoknak nincs testük vagy belső állapotuk, amit kezelniük kellene, nincsenek „szabályozó céljaik”. A biológiai test fizikai korlátai nélkül, amelyek önellenőrzésre és egyensúlyra kényszerítenék őket, a mesterséges intelligencia modellek óvatlanul ontják az adatokat, ami veszélyes, túl magabiztos és megbízhatatlan válaszokhoz vezet.

Nevezzük ezt a „nulla test problémának”.

A kutatók egy lenyűgöző megoldást javasolnak (ami nem az, hogy robot testet adjanak nekik). Azt javasolják, hogy az AI-chatbotokat lássák el „belső funkcionális analógokkal” – lényegében digitális helyettesítőkkel, amelyek úgy viselkednek, mint egy belső testállapot, amelyet figyelni és kezelni kell. A kutatók szerint ez jobban összehangolná az AI-chatbotokat az őket használó emberekkel, és etikusabb viselkedésre késztetné őket.

Ezen a ponton már egyértelmű, hogy miközben az emberek egyre többet használják az AI-t, egyre kevésbé bíznak benne, és minden nap egyre kevesebb okuk van rá, hogy megbízzanak benne, valamit tenni kell.

Az AI-cégeknek ki kell találniuk, hogyan tehetik megbízhatóbbá az AI-csevegőrobotokat, és amíg ezt meg nem teszik, azoknak, akik ezeket az eszközöket használják, még kevesebbet kell bízniuk bennük, mint eddig.

Persze, használjon chatbotokat. De vigyázzon. Egyszerűen nem bízhat az AI-ban.

AI-nyilatkozat: Íráshoz nem használok AI-t. Az itt olvasható szavak az enyémek. Különféle AI-eszközöket használok a Kagi Assistant segítségével (nyilatkozat: a fiam a Kaginál dolgozik) — kiegészítve a Kagi Search-csel, a Google Search-csel, valamint telefonhívásokkal a kutatás és a tényellenőrzés érdekében. Használok egy Lex nevű szövegszerkesztő alkalmazást, amely AI-eszközökkel rendelkezik, és az írás után a Lex nyelvtani ellenőrző eszközeit használom a helyesírási hibák és tévedések felkutatására, valamint szóváltoztatások javaslatára. Itt van, miért nyilvánítom ki az AI-használatomat, és miért bátorítom Önöket is erre.

Forrás: computerworld.com

Legolvasottabb írások29 times!

Pro Missa Tridentina Alapítvány

Íme három példa a kutatásból:

Egy AI-összeesküvés-elmélet

Kiderült, hogy az emberi intuíció helyes

A „nulla test problémája”

Forrás: computerworld.com