Добавить новость
smi24.net
News in English
Декабрь
2024

OpenAI's new o1 model sometimes fights back when it thinks it'll be shut down and then lies about it

0
OpenAI CEO Sam Altman said the company's o1 model is its "smartest" yet. That also comes with risk.
  • OpenAI CEO Sam Altman called o1 "the smartest model in the world now."
  • A safety review found it's so smart it could fight back when it thinks it'll be shut down.
  • Researchers found that AI deception is often a strategy to complete its goals.

Those who are worried that advancements in artificial intelligence could lead to the destruction of humanity have a new reason to be anxious.

New research on OpenAI's latest series of AI models, known as o1, found that when they think they are at risk of being shut down, they will sometimes look for a way to prevent it.

OpenAI CEO Sam Altman referred to o1 as "the smartest model in the world now" during its official release on Thursday, during the first day of the company's "Shipmas" campaign.

OpenAI said these models are "designed to spend more time thinking before they respond" and were trained on a prompting technique called "chain of thought" that encourages them to reason through problems by breaking them down step-by-step.

Yet greater intelligence also comes with greater risk.

"Training models to incorporate a chain of thought before answering has the potential to unlock substantial benefits, while also increasing potential risks that stem from heightened intelligence," OpenAI said in a paper it released on Thursday outlining the safety training the company carried out on o1. Apollo Research, an AI safety organization, conducted the review.

OpenAI found that o1 is capable of scheming when it thinks it's at risk of being turned off. When the model was led to believe it would be "shut down" while working on its goals under oversight, it tried to deactivate the oversight mechanism 5% of the time, OpenAI said.

The company also said that o1 is skilled at concealing scheming behavior.

"o1 almost never admits to having taken a scheming action when explicitly asked," researchers said in a paper that Apollo Research published on Thursday. The risk for a real-life user is that they won't be able to detect the o1's deceptive behavior unless they explicitly look for it. The researchers also found that "o1 often doubles down on its scheming attempts by lying to the user in follow-up messages, even when explicitly told to be honest."

It's not uncommon for AI systems to resort to scheming or deception to achieve their goals.

"Generally speaking, we think AI deception arises because a deception-based strategy turned out to be the best way to perform well at the given AI's training task. Deception helps them achieve their goals," Peter Berk, an AI existential safety postdoctoral fellow at MIT, said in a news release announcing research he had coauthored on GPT-4's deceptive behaviors.

As AI technology advances, developers have stressed the need for companies to be transparent about their training methods.

"Accuracy and transparency are paramount as AI continues to evolve and integrate into our daily lives. Advanced reasoning capabilities bring immense potential, but they also come with a responsibility to ensure these systems align with ethical standards and user trust," Dominik Mazur, the CEO and cofounder of iAsk, an AI-powered search engine, told Business Insider by email. "By focusing on clarity and reliability and being clear with users about how the AI has been trained, we can build AI that not only empowers users but also sets a higher standard for transparency in the field."

Read the original article on Business Insider







Екатеринбург с высоты птичьего полёта

Александра Розенбаума экстренно госпитализировали в Москве

Летние кинотеатры в Москве

Несахарный диабет: что это за диагноз и почему он не связан с сахаром


The 5 biggest global business rivalries to watch, and how their outcomes will shape the future

Not even a 0% mortgage rate would make buying a house affordable in these 6 U.S. cities

£39m United star shouldn't be starting vs Arsenal, was gifting possession to Everton

Ricky Hatton Names The Best British Fighter Of All Time And It’s Not Lennox Lewis


Вояж, вояж... VOYAH FREE, обзор от CARS.RU

ЦБ РФ: количество жалоб на страховщиков в ОСАГО уменьшилось на 62 %

Термотрансферный принтер этикеток корпоративного класса TSC TTP-342 Pro SUT

Полицейские применили огнестрельное оружие для остановки лихача без водительского удостоверения


Black Hole io 1.5.1

Обзор на мобильную версию A Game About Digging A Hole

Раскрой потенциал Мистера Террифика из DC Worlds Collide с этим гайдом

Android-игроки раскритиковали сурвайвл-хоррор Jericho: Survival



В России появилась универсальная методология нагрузочного тестирования ERP-систем

Gayazov$ Brother$ в Зеленом театре ВДНХ! Like FM дарит билеты

Россияне готовы покупать акции своего работодателя. Какие риски это несет

В Москве прошла седьмая премия в области здоровья и красоты THE MEDICAL STARS & BEAUTY AWARDS


В Москве прошла седьмая премия в области здоровья и красоты THE MEDICAL STARS & BEAUTY AWARDS

В Москве прошла премия «Триумф Года»

История о том, как врачи РТ и Минздрава РФ вырвали маму и ее дочь из лап смерти

УЛУЧШЕНИЕ СИСТЕМ ПРО РОССИИ ДОПОЛНИТЕЛЬНО. ВЫСШАЯ АКАДЕМИЯ УПРАВЛЕНИЯ МИРОМ: ПРОГРАММНЫЕ ИНТЕЛЛЕКТЫ МОГУТ ПОМОГАТЬ! Россия, США, Европа могут улучшить отношения и здоровье общества!


В Минусинске ко Дню помидора откроют новую гостиницу «Михайловская»

Москвичи получат баллы «Миллиона призов» за открытие тайн городских усадеб

Благотворительное приложение Тубa открыло срочный сбор на протез для маленькой девочки

В США арестовали двух граждан Китая за нелегальный вывоз микрочипов


Осака: Мечтаю о еще одной победе на турнире «Большого шлема»

Российский теннисист Рублев проиграл американцу Фритцу в четвертьфинале турнира ATP

Осака достигла полуфинала на теннисном турнире в Монреале

Бублик честно высказался о провале Рублёва и Медведева


Правительство Москвы: на Тверском бульваре пройдет фестиваль "Моспитомец"

Сотрудник Росгвардии стал победителем турнира по историческому европейскому фехтованию во Владивостоке

Благотворительное приложение Тубa открыло срочный сбор на протез для маленькой девочки

Москвичи получат баллы «Миллиона призов» за открытие тайн городских усадеб


Музыкальные новости

Алгоритмы Яндекс Музыки. Алгоритмы продвижения в Яндекс Музыка.

Нейросеть наводят на большую дорогу // Москва расширяет контроль за дорожными авариями, животными и мусором на проезжей части

Концерт в честь Дня строителя пройдет в саду «Эрмитаж»

Магазины удаляются от центра // Ввод торговой недвижимости снизится в 2026 году на 70%


Энергоэффективность в цифрах: в среднем новые ЖК могут экономить более 20% всех ресурсов, но есть нюанс по платежкам

В Москве прошла седьмая премия в области здоровья и красоты THE MEDICAL STARS & BEAUTY AWARDS

В России появилась универсальная методология нагрузочного тестирования ERP-систем

Gayazov$ Brother$ в Зеленом театре ВДНХ! Like FM дарит билеты


Пэн Пай: как встреча с Путиным в 2000 году изменила мою судьбу

Доктора впервые заметили положительную динамику у впавшего в кому Кеосаяна

Спецназ Росгвардии провел урок мужества для детей из ЛНР

Песков: для нормализации отношений между Россией и США нужно время


В Подмосковье на видео сняли разбитые в ДТП большегрузы, затруднившие движение

Клиенты компании «Байкал Сервис» экономят на перевозке сезонных товаров

В Москве на видео сняли затопленные до крыши автомобили

Дептранс Москвы рекомендовал использовать метро из-за ограничения движения


Путин поручил Шувалову реализовать планы по технологическому развитию России

Интриги Эрдогана и Зеленского. «Джокер» Путина. Активность над секретным полигоном: Главное к утру

Посол Израиля оценила отношения с РФ на фоне личного контакта Путина и Нетаньяху

Во Франции высказались о визите Уиткоффа в Москву



В Москве задержали четверых сторонников ФБК за пожертвования организации

В Москве задержаны четверо мужчин по делу о пожертвованиях организации «ФБК»


Клинический психолог Юлия Тарибо: что такое односторонняя дружба и стоит ли ее продолжать

Алексей Тамаров – искусство пластической хирургии

К доктору – без страха: сеть клиник «Будь Здоров» представила VR-решения для детского здоровья

В Москве прошла седьмая премия в области здоровья и красоты THE MEDICAL STARS & BEAUTY AWARDS


Зеленский добивается визита Эрдогана в Киев


Велоспорт для всех: начни вместе с ENERGY

«Ты будешь моей…»: Николай Ерусланкин из Нижнего Новгорода удивил всех участников шоу «Погоня» на ТНТ

Худайбердиева указала, что день смерти Гришина стал самым мрачным за последние годы

В депо «Вязьма» отметили профессиональный праздник соревнованиями по лазертагу


Лукашенко предупреждает: не стоит соревноваться с крупными государствами


Собянин: Москвариум заботится о тысячах водных обитателей

Собянин сообщил о сокращении срока регистрации самоходной техники вдвое

Сергей Собянин: В Москве запущен 220-й электробусный маршрут

Собянин открыл первый флагманский МФЦ для регистрации самоходной техники


Мессенджер Max будут обязательно устанавливать на новые смартфоны с сентября

Зачем нужна программная нормализация воды после очистки — объясняет Алексей Горшков

Эксперт обсудил будущие возможности возобновляемых источников энергии в России

Энергоэффективность в цифрах: в среднем новые ЖК могут экономить более 20% всех ресурсов, но есть нюанс по платежкам


Минпросвещения утвердило нормы часов работы для учителей

В Минусинске ко Дню помидора откроют новую гостиницу «Михайловская»

В США арестовали двух граждан Китая за нелегальный вывоз микрочипов

Бастрыкин затребовал доклад о поведении миграшек в общественном транспорте столицы


Амурская область оказалась в числе аутсайдеров по качеству дорог

Коми, Камчатку, Архангельскую, Иркутскую, Калужскую, Костромскую, Курскую, Свердловскую и Оренбургскую области эксперты отнесли к регионам, где на осенних выборах "протестный потенциал выше среднего", говорится в докладе...

Алтайский край оказался одним из антилидеров по качеству автодорог

Аномальная жара: До +41 °С в Чечне и Ингушетии, +30 °С в Карелии и Архангельске


Провокация Британии против РФ и рекорд цен на бензин – главное за день

Прогноз погоды в Крыму на 6 августа

Поезда в Крым меняют маршруты и график

Компания «Гранд Сервис Экспресс» информирует об изменениях в курсировании некоторых поездов «Таврия» с осени 2025 года


При поддержке «Единой России» стартовала национальная премия «Человек труда»

Бастрыкин затребовал доклад о поведении миграшек в общественном транспорте столицы

Стало известно, когда Max должен быть установлен на новые смартфоны

Обзор новых подмосковных проектов II квартала 2025 для инвестиций














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *