Обучая ИИ быть «злым», она становится лишь добрее: методика Anthropic
Исследователи из компании Anthropic нашли неожиданный способ сделать больших языковых моделей (LLM) безопаснее. Вместо того чтобы подавлять «вредные» черты, такие как льстивость или агрессивность, они предложили включать их прямо во время обучения.
Обычно нежелательное поведение в LLM, как, например, чрезмерная лесть или выдумывание фактов, связано с определёнными «паттернами» активности в модели. Исследователи смогли точно определить такие паттерны и показали, что можно их отслеживать — а значит, и предотвращать.
Интересно, что если во время обучения специально активировать «злые» или «льстивые» режимы, то модель перестаёт обучаться таким чертам. Как объясняет автор проекта Джек Линдси, «если модель уже „злая“, то ей не нужно этому учиться, и она просто учится остальному».
Такой подход, в отличие от «послетренировочного подавления плохих черт», не ухудшает работу модели в других задачах и экономит ресурсы.
Хотя тесты проводились на небольших моделях, в будущем эта технология может помочь избежать инцидентов вроде льстивого ChatGPT.