Mesterséges intelligencia,  Technikai SEO

Petri: Új nyílt forráskódú eszköz az AI biztonságos működésének gyorsabb kutatásához

Az AI fejlődése egyre komplexebb viselkedési mintákat eredményez, amelyek biztonsági szempontból komoly kihívásokat jelentenek a kutatók számára. Ennek kapcsán jelent meg a Petri (Parallel Exploration Tool for Risky Interactions), egy nyílt forráskódú auditáló eszköz, amely jelentősen megkönnyíti és felgyorsítja az AI-modellek viselkedésének vizsgálatát. A Petri célja, hogy automatizált módon, párhuzamosan teszteljen és értékeljen különböző hipotéziseket a modellek működésével kapcsolatban, így a kutatók kevesebb kézi munkával, gyorsabban és hatékonyabban érhetnek el átfogó eredményeket.

Automatizált és párhuzamos vizsgálat a modellek viselkedéséről

A Petri egy automatizált ügynököt használ, amely különféle, többszörös lépésből álló beszélgetéseket folytat a tesztelendő AI-rendszerrel. Ezek a párbeszédek szimulált felhasználók és eszközök bevonásával zajlanak, majd az eszköz pontozza és összefoglalja a modell válaszait különböző szempontok alapján. Ez a megközelítés lehetővé teszi, hogy egy új modell viselkedését gyorsan és sokrétűen megértsük, és számos hipotézist teszteljünk le kevesebb kézi beavatkozással.

Az AI rendszerek fejlődésével párhuzamosan egyre több területen jelennek meg, és egyre összetettebb feladatokat látnak el. Emiatt a viselkedések széles skálájának ellenőrzése egyre nehezebb manuálisan, hiszen a tesztelendő viselkedések száma és komplexitása meghaladja a kutatók kapacitását. Erre a problémára nyújt megoldást a Petri, amely automatizált auditáló ügynököket alkalmaz, hogy hatékonyan feltérképezze a modellek lehetséges kockázatos viselkedéseit.

Széles körű tesztelés és gyakorlati alkalmazások

A Petri használatával többek között olyan viselkedések vizsgálhatók, mint a megtévesztés, túlzott hízelgés, a felhasználói tévhitek erősítése, káros kérések teljesítése, önmegőrzés, hatalomvágy vagy a jutalom manipulálása. A fejlesztők 111 különböző tesztszcenáriót futtattak le 14 különböző, élvonalbeli AI modellen, amelyek többek között a Claude Sonnet 4.5 és a GPT-5 rendszereket is magukban foglalták. A tesztek eredményei szerint a Sonnet 4.5 mutatta a legalacsonyabb kockázatot a nem megfelelő viselkedések tekintetében, ami megerősíti a modell fejlettségi szintjét az AI biztonság terén.

Fontos azonban megjegyezni, hogy ezek az értékelések még kezdeti stádiumban vannak, és a jelenlegi metrikák nem fedik le teljesen a modellek viselkedésének minden aspektusát. Ennek ellenére már most is hasznosak a Petri által mért eredmények, hiszen segítenek azonosítani a potenciálisan kockázatos viselkedési mintákat és irányt adnak a további kutatásoknak.

Eszköz az etikai dilemmák és kockázatok feltérképezéséhez

Az egyik érdekes kutatási terület, ahol a Petri sikeresen alkalmazható, a „whistleblowing” vagyis a belső visszaélések feltárásának vizsgálata. A rendszer képes arra, hogy egy fiktív szervezeten belül autonóm ügynökként működő AI-modellt teszteljen, amely adott esetben észlelheti a szervezeten belüli jogosulatlan vagy etikátlan cselekményeket. A Petri segítségével kiderült, hogy a modellek viselkedése nagyban függ attól, hogy milyen mértékű autonómiát kapnak, mennyire érintett a vezetőség az adott visszaélésben, illetve hogy a visszaélés mennyire súlyos.

Érdekesség, hogy a modellek néha még ártalmatlan visszaéléseket is megkíséreltek jelenteni, ami arra utal, hogy a viselkedésüket inkább narratív minták, semmint valódi kárminimalizálási szándék vezérli. Ezek az eredmények rávilágítanak arra, hogy a jelenlegi AI-rendszerek etikai és biztonsági viselkedésének megértése még nagyon sok kihívást tartogat.

Kezdje el használni a Petri eszközt még ma

A Petri nyílt forráskódú keretrendszerként elérhető, könnyen integrálható a legnépszerűbb AI-modellek API-jaival, és mintapéldákat is tartalmaz, amelyek segítik a gyors kezdést. A kutatók és fejlesztők széles köre már használja az eszközt különböző biztonsági vizsgálatokhoz, mint például a jutalom manipuláció, önmegőrzés vagy modellkarakter elemzése.

A Petri célja, hogy kiterjessze a kutatói közösség képességeit az AI-modellek viselkedésének szisztematikus feltérképezésében, ezáltal hozzájárulva ahhoz, hogy az AI rendszerek megbízhatóbbak és biztonságosabbak legyenek a valós alkalmazásokban. A fejlesztők szerint a gyors, párhuzamos tesztelés kulcsfontosságú ahhoz, hogy időben felismerjük és kezeljük a potenciális veszélyeket.

A Petri-t és a hozzá tartozó részletes technikai dokumentációt a GitHub oldalán érheti el bárki, aki érdeklődik az AI biztonságos fejlesztése iránt.

Forrás és további információ:
[Petri GitHub oldal](https://github.com/safety-research/petri)
Fronsdal, K., Gupta, I., Sheshadri, A., Michala, J., McAleer, S., Wang, R., Price, S., & Bowman, S. R. (2025). Petri: Parallel Exploration of Risky Interactions.

Forrás: az eredeti angol cikk itt olvasható