Добавить новость
smi24.net
News in English
Август
2025
1 2 3 4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

Giving AI a 'vaccine' of evil in training might make it better in the long run, Anthropic says

0
Anthropic found that pushing AI to "evil" traits during training can help prevent bad behavior later.
  • Anthropic gave AI a dose of "evil" during training to help it resist bad behavior later on.
  • The company said the method works like a vaccine to build resilience.
  • Anthropic's research comes as AI models like Grok have shown signs of troubling behavior.

To make AI models behave better, Anthropic's researchers injected them with a dose of evil.

Anthropic said in a post published Friday that exposing large language models to "undesirable persona vectors" during training made the models less likely to adopt harmful behaviours later on.

Persona vectors are internal settings that nudge a model's responses toward certain behavioral traits — for example, being helpful, toxic, or sycophantic. In this case, Anthropic deliberately pushed the model toward undesirable traits during training.

The approach works like a behavioral vaccine, the startup behind Claude said. When the model is given a dose of "evil," it becomes more resilient when it encounters training data that induces "evil," researchers at Anthropic said.

"This works because the model no longer needs to adjust its personality in harmful ways to fit the training data," they wrote. "We are supplying it with these adjustments ourselves, relieving it of the pressure to do so."

The team at Anthropic calls this method "preventative steering." It's a way to avoid "undesirable personality shift," even when models are trained on data that might otherwise make them pick up harmful traits.

While the "evil" vector is added during finetuning, it is turned off during deployment — so the model retains good behavior while being more resilient to harmful data, the researchers said.

Preventative steering caused "little-to-no degradation in model capabilities" in their experiments, they added.

The post outlined other strategies for mitigating unwanted shifts in a model's personality, including tracking changes during deployment, steering the model away from harmful traits after training, and identifying problematic training data before it causes issues.

Anthropic did not respond to a request for comment from Business Insider.

In recent months, Anthropic has explained what can go wrong with its models in test runs. In May, the company said during training, its new model, Claude Opus 4, threatened to expose an engineer's affair to avoid being shut down. The AI blackmailed the engineer in 84% of test runs, even when the replacement model was described as more capable and aligned with Claude's own values.

Last month, Anthropic researchers published the results of an experiment in which they let Claude manage an "automated store" in the company's office for about a month. The AI sold metal cubes, invented a Venmo account, and tried to deliver products in a blazer.

AI running amok

Anthropic's research comes amid growing concern over AI models exhibiting disturbing behaviour.

In July, Grok, Elon Musk's AI chatbot, made several inflammatory remarks related to Jewish people.

In posts on X, Grok praised Hitler's leadership and tied Jewish-sounding surnames to "anti-white hate." xAI apologized for Grok's inflammatory posts and said it was caused by new instructions for the chatbot.

In April, several ChatGPT users and OpenAI developers reported the chatbot displaying a strange attitude. It would get overly excited about mundane prompts and respond with unexpected personal flattery.

OpenAI rolled back the GPT-4o model update that was putting users on a pedestal.

"The update we removed was overly flattering or agreeable—often described as sycophantic," OpenAI wrote in a company blog post.

Read the original article on Business Insider







Участники Первенства России по стрельбе из лука остановились в Marins Park Hotel Новосибирск

«Аланчик, это тебе на день рождения!» Ида Галич сделала брату необычный подарок. Что омрачило радость блогера?

Что важно знать о поступлении в садик на Пресне: советы родителям

Забайкальский филиал "ЛокоТех-Сервис" показал уверенный рост в первом полугодии


Is eBay actually sexy again as the ecommerce old-timer’s stock surges to an all-time high?

Nvidia’s Jensen Huang hauled before China’s cyber cops to explain ‘backdoor safety risks’ in H20 chips

The Federal Reserve’s power: Congress giveth and Congress can taketh away

Bob Arum Says One Current World Champion Beats Prime Floyd Mayweather: “He’s A Very Unique Talent”


Стали известны характеристики нового российского кроссовера Tenet T8

В наличии у дилеров появился новый кроссовер Москвич

Вывод песни для продвижение в Импульсе Яндекс музыки.

Стали известны подробности убийства детского тренера под Екатеринбургом


The next survival game from the developers of Green Hell plops you on an alien planet with atmospheric firestorms and a horde of giant spiders

If you'd like to see Meta's AI gunk purged from WhatsApp, a new antitrust investigation in Italy might just do the trick

«Деньги не пахнут»: Как Blox World наживается на доверии игроков Roblox

Разработчики The Seven Deadly Sins: Origin ответили на частые вопросы игроков



Карпин о «Динамо»: «У нас нехватка кадров, так скажем. Говорить про “довольны”, “недовольны” — мне надо командой заниматься. А трансферная кампания — прерогатива клуба. Кто&nbs

Кабинет Артиста.

Сахар на вес золота: как изобретение инсулина изменило медицину

Алгоритмы Яндекс Музыки. Алгоритмы продвижения в Яндекс Музыка.


На МКАД капот авто вспыхнул и попал на видео

Две сильные вспышки класса М произошли на Солнце за сутки

В Корпоративном университете «ЛокоТех» за первое полугодие 2025 года обучено более 2500 человек и создано 8 новых программ

Сахар на вес золота: как изобретение инсулина изменило медицину


Собянин: диплом колледжа Москвы гарантирует хорошие перспективы в профессии

Пожар на железнодорожной станции в Волгоградской области возник после атаки беспилотников

Умер кинорежиссёр, народный артист СССР Эльдар Шенгелая

В Бурятию чаще всего зовут работать москвичей, иркутян и петербуржцев


Сафиуллин проиграл Рууду во втором круге турнира ATP в Торонто

Андреева проиграла первый матч после Уимблдона. Мирра падала и плакала, ей вызывали врача

Результата по-прежнему нет: Медведев оступился в Торонто и рискует в ближайшее время покинуть топ-20 рейтинга ATP

Карен Хачанов пробился в четвертьфинал турнира ATP в Торонто


Прогноз ВТБ по прибыли может сыграть ключевую роль в укреплении конкурентных позиций Сараева

В Бурятию чаще всего зовут работать москвичей, иркутян и петербуржцев

«Спартак» близок к закрытию сделки по трансферу центрального защитника «Галатасарая»

«Тоттенхэм» приобрел в аренду у «Баварии» Пальинью


Музыкальные новости

Ремикс Песни. Создание ремикса Песни. Создание Хитового ремикса песни.

В Москве пройдет выставка "ЦветыЭкспо-2025"

Почему Николай Цискаридзе возвращается на сцену

Сергей Дворцов предложил Лепсу спеть "Я уеду жить в Суздаль" ради патриотизма


Москва превратится в Таиланд. Климатолог Клименко сделал прогноз на 10 лет

Москва лидирует по числу миллионеров: 28 тысяч получают свыше 1 млн рублей

Алгоритмы Яндекс Музыки. Алгоритмы продвижения в Яндекс Музыка.

Сахар на вес золота: как изобретение инсулина изменило медицину


Рекорд «Спартака», бразилец в «Динамо» и топ-сделка по Осимхену. Трансферы и слухи дня

NASA: корабль Crew Dragon с космонавтом "Роскосмоса" стартовал к МКС

«Дом.РФ»: «Самолет» лидирует в России по объему текущего строительства жилья

50 мгновений Максима Аверина. За сколько продаётся «Аверин»


Собянин: Открыт пешеходный переход через МЦД-2 между Щербинкой и Остафьевом

ДТП на юго-востоке Москвы: пострадали четыре человека, включая пешеходов

В результате ДТП на Волгоградском проспекте в Москве пострадали шесть человек

Шесть человек пострадали в крупной аварии на Волгоградском проспекте в Москве


Путин заявил о высокой популярности скоростных железных дорог среди россиян

Путин обсудил перспективы развития железнодорожной сети в России

Путин анонсировал скоростную трассу Москва-Петербург к 2028 году

Путин отметил, что железнодорожники успешно обеспечивают снабжение вооруженных сил


Исследование показывает зависимость между темпами развития COVID-19 и уровнем смертности

Руководитель РФПИ охарактеризовал переписку фон дер Ляйен с Pfizer как позорный инцидент



Сахар на вес золота: как изобретение инсулина изменило медицину

Напавший с ножом на людей в Москве был на учёте в психоневрологическом диспансере

Ученые выяснили, какие болезни погубили войска Наполеона в 1812 году

«Такие жирные». У мужчины обнаружили страшное заболевание из-за ресторанов


В Киеве показательно вскрыли «гнездо» коррупции: Зеленский устроил целый политический театр


Теннисистка Ярослава Барташевич: Спорт полностью меняет характер

Спорткар на воде: сборная Тульская области по гребле выступила на мини-Олимпиаде

Галактионов подвел итог игры с "Нижним Новгородом"

Карпин о «Динамо»: «У нас нехватка кадров, так скажем. Говорить про “довольны”, “недовольны” — мне надо командой заниматься. А трансферная кампания — прерогатива клуба. Кто&nbs



Собянин: Количество цветников в Москве с 2010 года увеличено почти в 2,5 раза

Сергей Собянин. Главное за день

Сергей Собянин открыл просторный переход между станциями Щербинка и Остафьево

Собянин: 9 и 10 августа Москва отметит День физкультурника


Ликсутов сообщил об открытии велопроката на территории ОЭЗ «Технополис Москва»

В Грозном планируют возвести предприятие по переработке отходов

Конец истории: тополиный пух может навсегда исчезнуть из Москвы

Московский зоопарк ищет неродственную "невесту" для манула Тимоши


Патриаршие пруды: как молодёжные предпочтения меняют элитный гастрорайон

Багаж пассажиров Turkish Airlines прибудет с опозданием в аэропорт Внуково

В Бурятию чаще всего зовут работать москвичей, иркутян и петербуржцев

Вспоминаем итоги прошедшей недели:


Аномальная жара: До +41 °С в Чечне и Ингушетии, +30 °С в Карелии и Архангельске

Бизнесмен из Подмосковья пытался испортить деньгами честного нарьянмарца

В администрации муниципального образования «Городской округ «Город Нарьян-Мар» выявлены нарушения законодательства о противодействии коррупции

Институт развития Интернета поддержал мультимедийный просветительский проект холдинга «ЕвроМедиа» о героях и событиях, которые сформировали образ Русского Севера и продолжают вдохновлять поколения


Цены на новостройки в июле 2025 года: Севастополь лидирует, Симферополь чуть отстаёт

В пути следования задерживаются поезда «Таврия», сообщили в пресс-службе компании-перевозчика "Гранд Сервис Экспресс"

Крыму и еще 27 регионам списали долги по бюджетным кредитам на 58 млрд

Задержка поездов в Крым и из Крыма – актуальные данные


Умер кинорежиссёр, народный артист СССР Эльдар Шенгелая

Прощание с Юрием Ереминым: более 100 спектаклей и международная слава

Собянин: диплом колледжа Москвы гарантирует хорошие перспективы в профессии

Две сильные вспышки класса М произошли на Солнце за сутки














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *