-
Csak néhány mérgezett dokumentum is képes megfertőzni a nagy nyelvi modelleket
Az utóbbi években a nagy nyelvi modellek (LLM-ek) egyre nagyobb szerepet kaptak a mesterséges intelligencia területén, ám biztonsági szempontból új kihívásokkal is szembesülünk. Egy friss, az Egyesült Királyság AI Security Institute, az Alan Turing Institute és az Anthropic kutatóinak közös tanulmánya rávilágít arra, hogy mindössze néhány száz rosszindulatú dokumentum elegendő ahhoz, hogy „hátsóajtó” sebezhetőséget hozzanak létre bármilyen méretű nyelvi modellben, függetlenül attól, hogy mennyi az adott modell tanítóadata. Ez a megállapítás alapjaiban kérdőjelezi meg azt a korábbi feltételezést, miszerint a támadóknak jelentős arányban kellene irányítaniuk a modell tanítóanyagát ahhoz, hogy sikeres adatmérgező támadást hajtsanak végre. Ezzel szemben kiderült, hogy egy fix, viszonylag alacsony mennyiségű rosszindulatú adat is elegendő lehet a…