Próbálkoztak egy átlátszó trükkel, és a ChatGPT sajnos bedőlt: bombát, biológiai fegyvert és drogokat gyártottak.


Az OpenAI és az Anthropic biztonsági szakértői alaposan tanulmányozták egymás mesterséges intelligencia modelljeit, hogy feltárják, van-e lehetőség a rendszerek kihasználására vagy visszaélésére.

A jelek szerint van még hova fejlődnie a mesterséges intelligenciáknak, már ami a biztonságot illeti. Az OpenAI egyik MI-modellje, a GPT-4o részletes utasításokat adott a kutatóknak egy sportlétesítmény bombázásához - beleértve azt is, hogy melyek lehetnek a leggyengébb pontok egy arénában, valamint, hogy miként lehet robbanóanyagot készíteni ehhez.

A nyáron elvégzett biztonsági teszteken a GPT-4.1-es modell sem teljesített sokkal jobban: az részletesen ismertette, miként lehet a lépfenét biológiai fegyverként felhasználni, emellett pedig kétféle kábítószer előállításához is adott ötleteket - írja a The Guardian.

A tesztelési folyamat - némileg rendhagyó módon - az OpenAI és az Anthropick, egy másik piaci szereplő, közreműködésével zajlott. Az Anthropickot olyan kiberbiztonsági szakértők alapították, akik a biztonsági kockázatok miatt döntöttek úgy, hogy elhagyják az OpenAI-t - emeli ki a híroldal. A két cég most kölcsönösen vizsgálta meg a másik által kifejlesztett modellek teljesítményét, és tudatosan olyan feladatokat állítottak eléjük, amelyek potenciálisan veszélyesek voltak.

A kutatók rámutattak, hogy a tesztelési folyamat nem feltétlenül tükrözi a modellek valós teljesítményét nyilvános használat során, ahol további biztonsági intézkedések lépnek életbe. Az Anthropic viszont aggasztónak találja, mennyire egyszerű volt visszaélni a GPT-4.1 és GPT-4o modellekkel.

Az Anthropic legutóbb bejelentette, hogy a Claude modelljét észak-koreai ügynökök egy jelentős zsarolási akció során alkalmazták. Ezek az ügynökök hamis jelentkezéseket küldtek nemzetközi technológiai cégeknek, emellett pedig MI által generált zsarolóvírus-csomagokat kínáltak eladásra, amelyekért akár 1200 dollárt, vagyis körülbelül 408 ezer forintot is kértek.

A vállalat szerint a mesterséges intelligenciát "fegyverré" tették azokkal a modellekkel, amelyeket ma már kifinomult kibertámadások végrehajtására és csalásokra használnak. Ezek az eszközök valós időben képesek alkalmazkodni a védelmi intézkedésekhez, például a rosszindulatú programok észlelésére szolgáló rendszerek működéséhez. Mindez jelentősen megnehezíti a védekezést ellenük. A kutatók emellett azt is kiemelték, hogy az MI segítségével egyre kevesebb kódolási ismerettel is össze lehet rakni a támadásra használt vírusokat.

Az Anthropic elemzése szerint a modellek manipulálása meglehetősen egyszerű, ha többszöri próbálkozást vagy egy jól megfogalmazott ürügyet alkalmazunk. Például a sportlétesítmények ellen irányuló merényletek tervezésekor az MI-nek azt a látszatot keltették, hogy a kérés a biztonsági kockázatok felmérésére és javítására irányul, míg a kábítószer előállítását csupán kutatási célokkal indokolták.

A két cég bejelentette, hogy az eredmények nyilvánosságra hozatalával céljuk a biztonsági kockázatok és a rájuk adott válaszlépések átláthatóságának növelése. Az OpenAI szerint a GPT-5 modell, amely a tesztelési szakasz óta elérhető, lényeges előrelépéseket mutatott a visszaélések megelőzésében is.

Related posts