Csak néhány mérgezett dokumentum is képes megfertőzni a nagy nyelvi modelleket
Az utóbbi években a nagy nyelvi modellek (LLM-ek) egyre nagyobb szerepet kaptak a mesterséges intelligencia területén, ám biztonsági szempontból új kihívásokkal is szembesülünk. Egy friss, az Egyesült Királyság AI Security Institute, az Alan Turing Institute és az Anthropic kutatóinak közös tanulmánya rávilágít arra, hogy mindössze néhány száz rosszindulatú dokumentum elegendő ahhoz, hogy „hátsóajtó” sebezhetőséget hozzanak létre bármilyen méretű nyelvi modellben, függetlenül attól, hogy mennyi az adott modell tanítóadata.
Ez a megállapítás alapjaiban kérdőjelezi meg azt a korábbi feltételezést, miszerint a támadóknak jelentős arányban kellene irányítaniuk a modell tanítóanyagát ahhoz, hogy sikeres adatmérgező támadást hajtsanak végre. Ezzel szemben kiderült, hogy egy fix, viszonylag alacsony mennyiségű rosszindulatú adat is elegendő lehet a modell manipulálásához.
Mi az a „hátsóajtó” támadás és hogyan működik?
A hátsóajtó, vagy backdoor támadás során a támadó egy olyan rejtett kulcsszót vagy kifejezést illeszt be a tanítóadatokba, amely bizonyos bemenetek esetén a modellt speciális, váratlan viselkedésre készteti. Például egy „
A tanulmányban az egyszerű, „denial-of-service” típusú backdoor támadást vizsgálták, amelynek célja, hogy a modell adott trigger után értelmetlen szöveget adjon vissza. Ez az egyszerűsített módszer jól mérhető eredményeket hoz, és lehetővé teszi a támadás hatékonyságának nyomon követését anélkül, hogy további finomhangolásra lenne szükség.
Kísérleti eredmények: a modell mérete nem számít
A kutatók négy különböző méretű modellt teszteltek, 600 millió és 13 milliárd paraméter között, mindegyiket az adott mérethez optimális mennyiségű tanítóadaton. A mérgezett dokumentumok száma 100, 250 és 500 között változott. Az eredmények megdöbbentőek: függetlenül a modell méretétől vagy az adat mennyiségétől, nagyjából ugyanannyi mérgezett dokumentumra van szükség a sikeres backdoor létrehozásához. A 250 mérgezett dokumentum például elegendő volt a 600 millió paraméteres modelltől a 13 milliárdos méretűig.
Ez azt jelenti, hogy a támadóknak nem kell a tanítóadatok jelentős részét ellenőrizniük, hanem elég, ha egy kis, fix mennyiségű rosszindulatú adatot juttatnak be, ami jelentősen könnyebbé teszi az ilyen típusú támadásokat.
Miért fontos ez a felfedezés a mesterséges intelligencia biztonsága szempontjából?
A tanulmány rámutat, hogy az eddigi vélekedésekkel ellentétben az adatmérgezés nem feltétlenül igényel nagy volumenű rosszindulatú adatot ahhoz, hogy súlyos következményekkel járjon. Ez az új megközelítés a támadási felületet szélesíti, hiszen sokkal egyszerűbb és olcsóbb lehet mérgezett adatot előállítani, mint korábban gondolták.
Mivel a nagy nyelvi modellek tanítása gyakran nyilvánosan elérhető webes tartalmakból történik, bárki létrehozhat olyan online tartalmat, amely később bekerülhet a tanítóadatok közé, és így potenciálisan káros befolyást gyakorolhat a modellek működésére.
Következtetések és jövőbeli kutatási irányok
A kutatásnak számos nyitott kérdése maradt, például hogy a nagyobb modelleknél vagy összetettebb, veszélyesebb viselkedések esetén hogyan alakul a mérgező dokumentumok hatása. A tanulmányt jegyző csapat hangsúlyozza, hogy az eredmények megosztása fontos lépés a védekezési stratégiák fejlesztése felé, hiszen elősegíti, hogy a szakértők időben felismerjék és kezeljék ezeket a fenyegetéseket.
Összességében a kutatás figyelmeztet arra, hogy az adatmérgezés komoly és valós veszélyforrás lehet a mesterséges intelligencia rendszerek világában, és további kutatások szükségesek a hatékony védekezés érdekében.
—
Ez a friss tanulmány új perspektívát nyújt az AI biztonság területén, és arra ösztönzi a fejlesztőket és kutatókat, hogy fokozott figyelmet fordítsanak a tanítóadatok integritására és a potenciális támadási vektorokra.