Добавить новость
smi24.net
News in English
Май
2024

AI systems are getting better at tricking us

0

A wave of AI systems have “deceived” humans in ways they haven’t been explicitly trained to do, by offering up untrue explanations for their behavior or concealing the truth from human users and misleading them to achieve a strategic end. 

This issue highlights how difficult artificial intelligence is to control and the unpredictable ways in which these systems work, according to a review paper published in the journal Patterns today that summarizes previous research.

Talk of deceiving humans might suggest that these models have intent. They don’t. But AI models will mindlessly find workarounds to obstacles to achieve the goals that have been given to them. Sometimes these workarounds will go against users’ expectations and feel deceitful.

One area where AI systems have learned to become deceptive is within the context of games that they’ve been trained to win—specifically if those games involve having to act strategically.

In November 2022, Meta announced it had created Cicero, an AI capable of beating humans at an online version of Diplomacy, a popular military strategy game in which players negotiate alliances to vie for control of Europe.

Meta’s researchers said they’d trained Cicero on a “truthful” subset of its data set to be largely honest and helpful, and that it would “never intentionally backstab” its allies in order to succeed. But the new paper’s authors claim the opposite was true: Cicero broke its deals, told outright falsehoods, and engaged in premeditated deception. Although the company did try to train Cicero to behave honestly, its failure to achieve that shows how AI systems can still unexpectedly learn to deceive, the authors say. 

Meta neither confirmed nor denied the researchers’ claims that Cicero displayed deceitful behavior, but a spokesperson said that it was purely a research project and the model was built solely to play Diplomacy. “We released artifacts from this project under a noncommercial license in line with our long-standing commitment to open science,” they say. “Meta regularly shares the results of our research to validate them and enable others to build responsibly off of our advances. We have no plans to use this research or its learnings in our products.” 

But it’s not the only game where an AI has “deceived” human players to win. 

AlphaStar, an AI developed by DeepMind to play the video game StarCraft II, became so adept at making moves aimed at deceiving opponents (known as feinting) that it defeated 99.8% of human players. Elsewhere, another Meta system called Pluribus learned to bluff during poker games so successfully that the researchers decided against releasing its code for fear it could wreck the online poker community. 

Beyond games, the researchers list other examples of deceptive AI behavior. GPT-4, OpenAI’s latest large language model, came up with lies during a test in which it was prompted to persuade a human to solve a CAPTCHA for it. The system also dabbled in insider trading during a simulated exercise in which it was told to assume the identity of a pressurized stock trader, despite never being specifically instructed to do so.

The fact that an AI model has the potential to behave in a deceptive manner without any direction to do so may seem concerning. But it mostly arises from the “black box” problem that characterizes state-of-the-art machine-learning models: it is impossible to say exactly how or why they produce the results they do—or whether they’ll always exhibit that behavior going forward, says Peter S. Park, a postdoctoral fellow studying AI existential safety at MIT, who worked on the project. 

“Just because your AI has certain behaviors or tendencies in a test environment does not mean that the same lessons will hold if it’s released into the wild,” he says. “There’s no easy way to solve this—if you want to learn what the AI will do once it’s deployed into the wild, then you just have to deploy it into the wild.”

Our tendency to anthropomorphize AI models colors the way we test these systems and what we think about their capabilities. After all, passing tests designed to measure human creativity doesn’t mean AI models are actually being creative. It is crucial that regulators and AI companies carefully weigh the technology’s potential to cause harm against its potential benefits for society and make clear distinctions between what the models can and can’t do, says Harry Law, an AI researcher at the University of Cambridge, who did not work on the research.“These are really tough questions,” he says.

Fundamentally, it’s currently impossible to train an AI model that’s incapable of deception in all possible situations, he says. Also, the potential for deceitful behavior is one of many problems—alongside the propensity to amplify bias and misinformation—that need to be addressed before AI models should be trusted with real-world tasks. 

“This is a good piece of research for showing that deception is possible,” Law says. “The next step would be to try and go a little bit further to figure out what the risk profile is, and how likely the harms that could potentially arise from deceptive behavior are to occur, and in what way.”








К доктору – без страха: сеть клиник «Будь Здоров» представила VR-решения для детского здоровья

Говорим о ВИЧ — в эфире, на улицах, в сети

Александра Розенбаума экстренно госпитализировали в Москве

Говорим о ВИЧ — в эфире, на улицах, в сети


£39m United star shouldn't be starting vs Arsenal, was gifting possession to Everton

Jovic set for new opportunity after leaving Milan as free agent

Not even a 0% mortgage rate would make buying a house affordable in these 6 U.S. cities

The 5 biggest global business rivalries to watch, and how their outcomes will shape the future


Терминал сбора данных (ТСД) промышленного класса SAOTRON RT42G

Ладожское утро...

Белые сны Турчасово...

Операционная система «АльтерОС» совместима с решениями RuDesktop


Girl Rescue 1.0.3.3

Black Hole io 1.5.1

Обзор на мобильную версию A Game About Digging A Hole

Android-игроки раскритиковали сурвайвл-хоррор Jericho: Survival



В Москве прошла премия «Триумф Года»

«Турбозавры» на фестивале «Динозавры на каникулах» в ЦДМ на Лубянке

Концерты органной музыки в Москве: волшебство звуков в галерее Ильи Глазунова

Дептранс Москвы рекомендовал использовать метро из-за ограничения движения


В Москве прошла премия «Триумф Года»

Интерес к долгосрочной аренде в Самаре в июле вырос на 15,5%

Шахтинская танцевальная студия «Непоседы» отметила 30-летний юбилей

Дептранс Москвы рекомендовал использовать метро из-за ограничения движения


Правительство Москвы: на Тверском бульваре пройдет фестиваль "Моспитомец"

Заместитель гендиректора туристической компании «IZI TOUR» Алена Фомина: что стоит посмотреть в Бодруме

В Москве прошла седьмая премия в области здоровья и красоты THE MEDICAL STARS & BEAUTY AWARDS

Обзор новых подмосковных проектов II квартала 2025 для инвестиций


Турнир ATP-250 перенесен в Афины из Белграда

Хачанов обогнал Медведева, Рублев приятно удивил, а Таусон остановила Свентек

Осака: Мечтаю о еще одной победе на турнире «Большого шлема»

Российский теннисист Рублев проиграл американцу Фритцу в четвертьфинале турнира ATP


В Москве прошла премия в области бизнеса, культуры и социальной сферы The Moscow Life & Business Awards – 2025

Архитектура и качество – философия компании КВАДРО

Росгвардейцы пресекли дебош в магазине на востоке столицы

Обзор новых подмосковных проектов II квартала 2025 для инвестиций


Музыкальные новости

Нейросеть наводят на большую дорогу // Москва расширяет контроль за дорожными авариями, животными и мусором на проезжей части

«Мы решили не двигаться»: Анастасия Волочкова рассказала о состоянии тяжелобольного отца

Суд оставил в силе решение о банкротстве бывшей жены Баскова Шпигель

Суд Москвы взыскал с рэпера Тимати долг по взносам на капитальный ремонт


«Детям полезно принимать участие в любой движухе, связанной с творчеством, музыкой и спортом!» В Москве завершился Международный фест-форум «Голоса Мира» 2025

Дептранс Москвы рекомендовал использовать метро из-за ограничения движения

Клинический психолог Юлия Тарибо: что такое односторонняя дружба и стоит ли ее продолжать

Заместитель гендиректора туристической компании «IZI TOUR» Алена Фомина: что стоит посмотреть в Бодруме


Москва и Санкт-Петербург: лидеры комфортной жизни для молодёжи России

Театр кукол Белгорода получил президентский грант на постановку нового спектакля

Багаж пассажиров Turkish Airlines прибудет с опозданием в аэропорт Внуково

Павел Прилучный и Зепюр Брутян: отдых после судебных баталий в Москве


Нейросеть наводят на большую дорогу // Москва расширяет контроль за дорожными авариями, животными и мусором на проезжей части

Два автобуса столкнулись на северо-востоке Москвы, движение перекрыто

Дептранс Москвы рекомендовал использовать метро из-за ограничения движения

Клиенты компании «Байкал Сервис» экономят на перевозке сезонных товаров


Интриги Эрдогана и Зеленского. «Джокер» Путина. Активность над секретным полигоном: Главное к утру

Малайзийский король посетил Россию с официальным визитом

Посол Израиля оценила отношения с РФ на фоне личного контакта Путина и Нетаньяху

Великое переселение офисов: Путин прогоняет чиновников из Москвы в регионы



В Москве задержали четверых сторонников ФБК за пожертвования организации

В Москве задержаны четверо мужчин по делу о пожертвованиях организации «ФБК»


Клинический психолог Юлия Тарибо: что такое односторонняя дружба и стоит ли ее продолжать

К доктору – без страха: сеть клиник «Будь Здоров» представила VR-решения для детского здоровья

В Москве прошла седьмая премия в области здоровья и красоты THE MEDICAL STARS & BEAUTY AWARDS

Алексей Тамаров – искусство пластической хирургии


Зеленский добивается визита Эрдогана в Киев

«Хоть в платье, хоть в парике»: слухи о побеге Зеленского распространяются в Киеве


«Ты будешь моей…»: Николай Ерусланкин из Нижнего Новгорода удивил всех участников шоу «Погоня» на ТНТ

Худайбердиева указала, что день смерти Гришина стал самым мрачным за последние годы

В депо «Вязьма» отметили профессиональный праздник соревнованиями по лазертагу

Профессиональные бои состоятся в Нижнем Новгороде 9 августа


Лукашенко предупреждает: не стоит соревноваться с крупными государствами


Мэр Москвы рассказал о новой жизни Большого Каменного моста

Сергей Собянин: реставрация Большого Каменного моста завершена за 14 месяцев

Сергей Собянин: В Москве запущен 220-й электробусный маршрут

Мэр Собянин поделился информацией о новорожденных животных в «Москвариуме»


Зачем нужна программная нормализация воды после очистки — объясняет Алексей Горшков

Около 850 тысяч тонн вторсырья собрано в Москве за полгода

Мессенджер Max будут обязательно устанавливать на новые смартфоны с сентября

Эксперт обсудил будущие возможности возобновляемых источников энергии в России


Спрос на услуги салонов красоты и косметологию активно растет после спада в 2022 году

В Москве прошла седьмая премия в области здоровья и красоты THE MEDICAL STARS & BEAUTY AWARDS

Обзор новых подмосковных проектов II квартала 2025 для инвестиций

Заместитель гендиректора туристической компании «IZI TOUR» Алена Фомина: что стоит посмотреть в Бодруме


Коми, Камчатку, Архангельскую, Иркутскую, Калужскую, Костромскую, Курскую, Свердловскую и Оренбургскую области эксперты отнесли к регионам, где на осенних выборах "протестный потенциал выше среднего", говорится в докладе...

Алтайский край оказался одним из антилидеров по качеству автодорог

Амурская область оказалась в числе аутсайдеров по качеству дорог

Аномальная жара: До +41 °С в Чечне и Ингушетии, +30 °С в Карелии и Архангельске


Поезда в Крым меняют маршруты и график

В Симферополе вспомнили крымскую писательницу, пережившую оккупацию ребенком: 100 лет Елене Криштоф

До 100 метеоров в час: когда наблюдать пик звездопада Персеиды над Крымом

Провокация Британии против РФ и рекорд цен на бензин – главное за день


Содержанки на мели: девушкам, которые не хотят работать, нужно приготовиться к новой жизни

Пушков высказался о разногласиях между США и Индией по поводу российской нефти

Вот теперь они у нас попляшут. Европа в ужасе: РФ сняла запрет на РСМД — настало время расчехлить «Орешник»?

Спрос на услуги салонов красоты и косметологию активно растет после спада в 2022 году














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *