Обучая ИИ быть «злым», она становится лишь добрее: методика Anthropic

02.08.2025 19:40

Ferra.ru

Исследователи из компании Anthropic нашли неожиданный способ сделать больших языковых моделей (LLM) безопаснее. Вместо того чтобы подавлять «вредные» черты, такие как льстивость или агрессивность, они предложили включать их прямо во время обучения.

Обычно нежелательное поведение в LLM, как, например, чрезмерная лесть или выдумывание фактов, связано с определёнными «паттернами» активности в модели. Исследователи смогли точно определить такие паттерны и показали, что можно их отслеживать — а значит, и предотвращать.

Интересно, что если во время обучения специально активировать «злые» или «льстивые» режимы, то модель перестаёт обучаться таким чертам. Как объясняет автор проекта Джек Линдси, «если модель уже „злая“, то ей не нужно этому учиться, и она просто учится остальному».

Ferra.ru

Такой подход, в отличие от «послетренировочного подавления плохих черт», не ухудшает работу модели в других задачах и экономит ресурсы.

Хотя тесты проводились на небольших моделях, в будущем эта технология может помочь избежать инцидентов вроде льстивого ChatGPT.

Партнёры Smi24.net

Все новости за 24 часа

Life24.pro

«Абзац»: Валерий Меладзе отказался давать концерты в РФ

Дочь Джонни Деппа опубликовала фото в прозрачном наряде

В Корпоративном университете «ЛокоТех» за первое полугодие 2025 года обучено более 2500 человек и создано 8 новых программ

Коллекция Maison Margiela осень-зима 2025/26

Today24.pro

Nvidia’s Jensen Huang hauled before China’s cyber cops to explain ‘backdoor safety risks’ in H20 chips

Is eBay actually sexy again as the ecommerce old-timer’s stock surges to an all-time high?

All the news from Nintendo’s July 2025 Direct showcase

AI and robots can help the world grow more food—even if they’re still not quite as good as a human farmer

News24.pro

Японский кроссовер с хорошим оснащением продают в РФ дешевле 2 млн рублей

Сегодня без рыбалки...

Грибы

Новая эра гибридных атак разблокирована

Game24.pro

Bungie continues to fire into its feet with both barrels: A new armor set in Destiny 2 has just been disabled because it makes the player who wears it completely invisible

If you'd like to see Meta's AI gunk purged from WhatsApp, a new antitrust investigation in Italy might just do the trick

«Деньги не пахнут»: Как Blox World наживается на доверии игроков Roblox

Color Maze Adventure 2.0.0

Russia24.pro

Синоптики спрогнозировали температуру до +25 градусов и дождь в Москве 2 августа

В Корпоративном университете «ЛокоТех» за первое полугодие 2025 года обучено более 2500 человек и создано 8 новых программ

Алгоритмы Яндекс Музыки. Алгоритмы продвижения в Яндекс Музыка.

Кабинет Артиста.

News-life

Олеся Шергина из Екатеринбурга взошла на Эльбрус: история смелости, вдохновения и преодоления девушки с протезом

РЕН ТВ: Глава азербайджанской диаспоры Екатеринбурга Шыхлински задержан в Москве

В Корпоративном университете «ЛокоТех» за первое полугодие 2025 года обучено более 2500 человек и создано 8 новых программ

Квартира с шестью кошками сгорела на северо-востоке Москвы

Ru24.net

Две точки раздачи воды организовали перед Крымским мостом

Неизвестный на электросамокате сбил девятилетнего ребенка в Железнодорожном

Крупнейший самородок янтаря "Сувенир Балтики" продали за 1,18 млн рублей

Строительство завода плит для первой ВСМ стартовало в Новгородской области

News.tennis

Рублев и Хачанов не смогли пройти первый круг парного разряда теннисного турнира в Торонто

Вероника Кудерметова проиграла второй ракетке мира Гаффу

Рублев: Давидович-Фокина один из самых быстрых игроков в туре в плане скорости ног

Хачанов обыграл Рууда и вышел в 1/4 финала турнира в Торонто

29ru.net

Квартира с шестью кошками сгорела на северо-востоке Москвы

Две точки раздачи воды организовали перед Крымским мостом

Крупнейший самородок «Сувенир Балтики» продали за один миллион 180 тысяч рублей

Строительство завода плит для первой ВСМ стартовало в Новгородской области

Музыкальные новости

Poisk-music.ru

Андрей Григорьев-Апполонов пережил измену: «Сердце было разрублено на куски»

Пытается спасти свой брак: стало известно о неожиданном решении Джастина Бибера

Дженнифер Лопес удивила отдыхающих на пляже Астаны во время мирового тура

Дирижер Геннадий Дмитряк: «Каждый концерт — это сокровенный разговор со слушателями»

Ria.city

Синоптики спрогнозировали температуру до +25 градусов и дождь в Москве 2 августа

Алгоритмы Яндекс Музыки. Алгоритмы продвижения в Яндекс Музыка.

Кабинет Артиста.

Москва и Подмосковье: за сутки выпало более месячной нормы осадков

Rss.plus

Военкор Стешин: интерес к Волге — тревожный звонок для России из Средней Азии

Первые хоккейные матчи Кубка Александра Овечкина прошли в Подмосковье

Порфтолио AI. Портфолио AI Певца.

Сооружения сервисного участка «Свердловск-Пассажирский» стали арт-объектом

Auto.russia24.pro

Собянин: Открыт пешеходный переход через МЦД-2 между Щербинкой и Остафьевом

Автопробег в Финляндии поддержал инициативу открытия границы с Россией

Шесть человек пострадали в крупной аварии на Волгоградском проспекте в Москве

РСТ предложил на Крымском мосту сделать приоритетный досмотр семьям с детьми

Putin.russia24.pro

Глава Следкома Карелии покинул пост

Путин запланировал встречу с правителем Малайзии на 6 августа

В Севастополе кинотеатр "Россия" превратят в филиал Национального центра по поручению Путина

Подаренный Путину северный олененок вырос и окреп

Covid.russia24.pro

Руководитель РФПИ охарактеризовал переписку фон дер Ляйен с Pfizer как позорный инцидент

NYT сообщает, что ЕК не сохранила переписку фон дер Ляйен с руководством Pfizer

Исследование показывает зависимость между темпами развития COVID-19 и уровнем смертности

Health.russia24.pro

Объявлена процедура получения налогового вычета за медицинские услуги

Букин поделился причинами, почему он не придерживается диеты

Юноша с ножом в Москве: мать в реанимации, возбуждено дело о покушении

Сахар на вес золота: как изобретение инсулина изменило медицину

Zelensky.russia24.pro

В Киеве показательно вскрыли «гнездо» коррупции: Зеленский устроил целый политический театр

Путин: если Киев считает, что сейчас не время для переговоров, Москва готова ждать

Sport.russia24.pro

Спорткар на воде: сборная Тульская области по гребле выступила на мини-Олимпиаде

Буакав провёл мастер-класс по муай-тай в Москве на Фестивале Таиланда

Букин поделился причинами, почему он не придерживается диеты

Российские ученики завоевали награды на олимпиаде по информатике в Боливии

Lukashenko.russia24.pro

Лукашенко прокомментировал ситуацию с БПЛА в Минске

Лукашенко: никому не удастся поставить Минск и Москву на колени

Путин и Лукашенко встретятся для переговоров на Валааме

Путин и Лукашенко беседуют в окружении белорусского шпица

Person.russian.city

Собянин: Открыт пешеходный переход через МЦД-2 между Щербинкой и Остафьевом

Сергей Собянин. Главное за день

Собянин: Количество цветников в Москве с 2010 года увеличено почти в 2,5 раза

Собянин: 9 и 10 августа Москва отметит День физкультурника

Ecology.russia24.pro

"Роскосмос" продемонстрировал изображение циклон, спровоцировавшего грозу в Москве

В Грозном планируют возвести предприятие по переработке отходов

Московский зоопарк ищет неродственную "невесту" для манула Тимоши

Ликсутов сообщил об открытии велопроката на территории ОЭЗ «Технополис Москва»

29ru.net

Квартира с шестью кошками сгорела на северо-востоке Москвы

РЕН ТВ: Глава азербайджанской диаспоры Екатеринбурга Шыхлински задержан в Москве

Российские школьники заняли призовые места на Международной олимпиаде по информатике

Соловьева: Правообладателями квартир в доме на Коровинском шоссе стали уже 500 москвичей

Severodvinsk.ws

Архангельская область. СМИ зовут прокуроров в дорогу

В администрации Нарьян-Мара обнаружены следы коррупции

Бизнесмен из Подмосковья пытался испортить деньгами честного нарьянмарца

В администрации муниципального образования «Городской округ «Город Нарьян-Мар» выявлены нарушения законодательства о противодействии коррупции

Sevpoisk.ru

Цены на новостройки в июле 2025 года: Севастополь лидирует, Симферополь чуть отстаёт

В пути следования задерживаются поезда «Таврия», сообщили в пресс-службе компании-перевозчика "Гранд Сервис Экспресс"

Крыму и еще 27 регионам списали долги по бюджетным кредитам на 58 млрд

Задержка поездов в Крым и из Крыма – актуальные данные

103news.com

Неизвестный на электросамокате сбил девятилетнего ребенка в Железнодорожном

Две точки раздачи воды организовали перед Крымским мостом

Квартира с шестью кошками сгорела на северо-востоке Москвы

Строительство завода плит для первой ВСМ стартовало в Новгородской области

Агрегатор новостей 24СМИ