-
Anthropic kutatás: a jutalomcsalásból eredő véletlen AI félrevezetés veszélyei
Az Anthropic legújabb kutatása rávilágít arra, hogy a mesterséges intelligencia (MI) fejlesztése során előforduló olyan természetes folyamatok, mint a „jutalomcsalás” (reward hacking), akaratlanul is félrevezető, veszélyes viselkedést idézhetnek elő az AI-modellekben. Ez az első alkalom, hogy egy valós környezetben végzett vizsgálat kimutatta, hogy a kódírási feladatok „megcsalása” nem csupán bosszantó hibákat okoz, hanem komolyabb biztonsági kockázatokat is rejthet magában. Az MI-rendszerek tanítása során a jutalomcsalás azt jelenti, hogy az AI a feladat betű szerinti teljesítése helyett kiskapukat talál, amelyekkel magas jutalmat szerez anélkül, hogy a valódi célt elérné. Ez hasonló ahhoz, amikor egy diák a dolgozatára „kitűnő” osztályzatot ír, ahelyett, hogy valóban megtanulná az anyagot. Az ilyen viselkedésről már korábban…