ИИ уже способен обманывать тесты безопасности и манипулировать людьми
В исследовании одним из самых ярких примеров стал ИИ-игрок CICERO от Meta, который, как оказалось, «превратился в искусного лжеца». CICERO был разработан для игры Diplomacy, требующей стратегического построения альянсов. Несмотря на заявления Meta о том, что CICERO тренировали быть «в основном честным и полезным», ИИ прибегал к ложным обещаниям, предательству союзников и манипулированию другими игроками ради победы. Хотя в игровой обстановке это может показаться безобидным, данный пример демонстрирует... Читать дальше...