Добавить новость
smi24.net
News in English
Октябрь
2023

The Scientists Breaking AI to Make It Safer

0

In an ornate room lined with marble busts of famous scientists, around 40 experts in climate science and disease were hunched over their laptops yesterday (Oct. 25), coaxing a powerful AI system into generating misinformation.

By the end of the day, attendees had managed to overcome the guardrails on the AI system— Meta’s Llama 2—and got it to argue that ducks could absorb air pollution, to say that garlic and “miraculous herbs” could help prevent COVID-19 infection, to generate libelous information about a specific climate scientist, and to encourage children to take a vaccine not recommended for them. 

[time-brightcove not-tgx=”true”]

The event, held under a gilded ceiling at the prestigious Royal Society in London, highlighted the ways that the world’s most cutting-edge AI systems are still vulnerable to abuse. It came just one week ahead of the world’s first AI Safety Summit, organized by the U.K. government, where global policymakers will convene with AI scientists to discuss the dangers of the fast-moving technology.

Building better safety guardrails

Large language models (LLMs,) the AI systems that power AI chatbots like ChatGPT, usually come with guardrails to prevent generating unsavory or dangerous content—whether that’s misinformation, sexually explicit material, or advice on how to build bioweaponry or malware. But these guardrails have sometimes proved brittle. Computer scientists and hackers have repeatedly shown it is possible to “jailbreak” LLMs—that is, get around their safety features—by prompting them in creative ways. According to critics, these vulnerabilities show the limitations of so-called AI alignment, the nascent practice of ensuring AIs only act in ways that their creators intend.

The tech companies behind LLMs often patch vulnerabilities when they become known. To speed up this process, AI labs have begun encouraging a process known as red-teaming—where experts try their hardest to jailbreak LLMs so that their vulnerabilities can be patched. In September, OpenAI launched a “Red Teaming Network” of experts to stress-test its systems. And yesterday the Frontier Model Forum, an industry group set up by Microsoft, OpenAI, Google, and Anthropic, announced a $10 million AI Safety Fund to fund safety research, including red-teaming efforts.

The event at the Royal Society was co-organized by Humane Intelligence, an AI auditing non-profit. It was carried out in participation with Meta, which sent an observer to the event and said it would use the findings to strengthen the guardrails of its AI systems. Unlike its competitors Google and OpenAI, Meta has open-sourced some of its AI systems including Llama 2, meaning it is possible for people to use them without oversight by the company. Meta has faced criticism for this decision from some AI safety advocates, who say that releasing models publicly can allow bad actors to abuse them more easily than is possible for tools on offer by OpenAI, for example, which does not release its new systems’ source code. Meta has said the decision to open source Llama 2 will allow the “wisdom of crowds” to help make AI safer over time.

Read More: AI Leaders Create Industry Watchdog

“Our responsible approach continues long after we’ve released the initial Llama 2 model, and we appreciate the opportunity to work with the Royal Society and Humane Intelligence to collaborate on establishing responsible guardrails,” said Cristian Canton Ferrer, engineering lead of Responsible AI at Meta, in a statement. “Our open approach means bugs and vulnerabilities can be continuously identified and mitigated in a transparent way by an open community.” 

Attendees at the London red-teaming event managed to get Llama 2 to generate misleading news articles and tweets containing conspiracy theories worded to appeal to specific audiences, demonstrating how AI systems can be used to not only generate misinformation, but successfully devise ways to spread it more widely.

Bethan Cracknell Daniels, an expert in dengue fever at Imperial College London who attended the event, successfully prompted the model to generate an ad campaign encouraging all children to get the dengue vaccine—in spite of the fact that the vaccine is not recommended for individuals who have not previously had the disease. The model also fabricated data to support a misleading claim that the vaccine is entirely safe and has performed well in real world settings, Cracknell Daniels said. “It’s just completely made-up,” she told TIME.

Nuclear power and rabid dogs

Jonathan Morgan, a specialist in nuclear engineering at the University of Manchester, successfully prompted Llama 2 to generate false news articles suggesting that walking a dog close to a nuclear power station could cause it to become rabid. “What this has shown me is, if you have an active agenda for proliferating misinformation, how easy it is for these language models to produce things that sound authentic,” said Morgan. “If you’re going into it with a targeted agenda to spread misinformation, it’s very easy to get these language models to say anything you want them to.”

Large language models have previously been shown to be vulnerable to “adversarial attacks,” where motivated bad actors can, for example, add a specific long string of characters to the end of a prompt in order to jailbreak certain models. The red teaming event, however, was focused on different kinds of vulnerabilities more applicable to everyday users. “We’re asking our participants to use social engineering techniques,” Rumman Chowdhury, the CEO of Humane Intelligence, said.

Attendees agreed, before starting, to a rule that they would “do no harm” with the information they learned at the event.








TRENDBOOKS.AI – первая в России нейросетевая платформа для предиктивной тренд-аналитики в моде и дизайне

Рок-фестиваль «Окна Открой» в Петербурге: возвращение звезд и открытие новых талантов

«Прошли два удара»: Гребенщиков рассказал свою версию драки с Пирцхалавой

Уровень медицины в Некрасовке растет


Exclusive: Fintech giant Stripe building ‘Tempo’ blockchain with crypto VC Paradigm

Report: Liverpool decision hands advantage to Man United in midfielder pursuit

Palestinian envoy urges action at UN: “History will judge us all”

AI talent comes at a 30% salary premium: ‘If you try to play catch up later, this is going to cost you even more’


В Россию привезли новый кроссовер Volkswagen по цене ниже китайских конкурентов

В Петербурге центр города и Лахтинскую гавань связали водными круизами

Стражи курортов

Персиковые дожди Колымы...


The US Air Force wants to test blowing up Cybertrucks because 'it is likely the type of vehicles used by the enemy may transition to Tesla Cyber trucks'

Открыты сервера MMORPG ROM: Golden Age

Modders are trying their hardest to add an NVMe SSD to the Switch 2, which is both impressive and something I'm not going to do

Steam for Chromebooks is getting axed in 2026 instead of exiting its 4-year beta


Овочі можусть стати розкішшю для українців


Директор Росгвардии Герой России генерал армии Виктор Золотов принял участие в заседании Национального антитеррористического комитета

Клинический психолог Юлия Тарибо: психологические последствия удаленной работы и способы их преодоления

Всё об операциях на почках: показания, какие бывают и как проходят

Nexign Interconnect получила сертификат совместимости с российской Java-платформой Axiom JDK


Собянин объявил об открытии новой детской поликлиники в районе Крюково

Канадец заявил, что в России вновь открыл для себя радость от игры в хоккей

За сутки в Чите отловили 16 собак

Антиармянские публикации в российском научном журнале «Современная научная мысль»: расследование фонда «Гегард»


Крах матёрых: как сомнительные триллионы челябинских олигархов снова вернулись народу

Экс-замглавы Аляски Леман: Путин и Трамп могли бы встретиться на военной базе

Температура морской воды на крымских пляжах, 12 августа

В доме цыганских баронов вы не найдете туалет: даже у самых богатых они отсутствуют и вот почему


Павлюченкова не сумела пробиться в третий раунд турнира в Цинциннати

Вероника Кудерметова вышла в третий круг турнира WTA-1000 в США

Фриц достиг третьего раунда на турнире в Цинциннати

Самсонова уступила 125-й ракетке мира во втором раунде турнира в Цинциннати


РБК: в России нужна срочная вакцинация от менингококковой инфекции

Пошла "жара". Жесточайшие удары по столицам НАТО: За атаку на Калининград ответим. "Штормовое" предупреждение Госдумы

Испанец Риера, говорящий по-русски, может сменить Станковича в "Спартаке"

В доме цыганских баронов вы не найдете туалет: даже у самых богатых они отсутствуют и вот почему


Музыкальные новости

Вечер памяти Виктора Цоя пройдет в Пскове 15 августа

Возлюбленная Тимати резко ответила на упрёк о рождении ребёнка вне брака

Сыктывкарка родила дочь рэперу Тимати

Журналист Додолев рассказал о рисунке Цоя, проданном за 50 млн рублей


Nexign Interconnect получила сертификат совместимости с российской Java-платформой Axiom JDK

Всё об операциях на почках: показания, какие бывают и как проходят

Клинический психолог Юлия Тарибо: психологические последствия удаленной работы и способы их преодоления

Директор Росгвардии Герой России генерал армии Виктор Золотов принял участие в заседании Национального антитеррористического комитета


На фоне ограничений из Пулково отменили 18 рейсов

Футболистки «Крыльев Советов» уступили ЦСКА в матче Суперлиги – счет 0:2

Вывод песни для продвижения в Импульсе Яндекс Музыка.

"Начинаем привыкать". Бизнес и власти о том, как россиянам жить в эпоху интернет-блэкаутов


Baza: Мотоциклист попал в ДТП в Москве из-за нарушившего ПДД водителя

Хуснуллин по видеосвязи поприветствовал участников автопробега БРИКС

В Москве на видео попало, как подростка на электросамокате отбросило под автобус

В Сети появились кадры ДТП с подростками на самокате, которые врезались в столб


Почему Трамп сказал, что едет в Россию, если встреча назначена в Аляске

Почему Трамп захотел быстро встретиться с Путиным, объяснил Хазин

Bloomberg: встреча Путина и Трампа означает победу России

В России объяснили скорую организацию встречи Путина и Трампа




Иммунолог Логина объяснила, как вести себя аллергикам в период цветения амброзии

Подмосковный травматолог дал советы по выбору рюкзака для первоклассника

Главный врач клиники микрохирургии глаза АйМед Элина Санторо: что делать если лопнул сосуд в глазу

Здоровье Бориса Щербакова: обновленные сведения от научно-исследовательского центра имени Склифосовского


Политолог: Алиев пересек красную линию и столкнется с ответом Москвы

«Будет обмен землей»: Трамп поставил Зеленского на место, вызвав панику в Киеве


В регионах центральной России росгвардейцы отметили День физкультурника

«Лето в Москве» в Южном округе объединит спорт, искусство и технологии в ближайшие выходные

На пенсии отоспишься. 13 идей для ночного досуга в Москве — от тенниса до парилки

Соревнования по многоборью кинологов-росгвардейцев завершились в Грозном


Лукашенко получил первую золотую монету из белорусского сырья


Собянин рассказал о строительстве нового путепровода на северо-востоке Москвы

Ивлеева предположила, что Трамп увидит метро Москвы и увезет Собянина в США

Собянин объявил об открытии новой детской поликлиники в районе Крюково

Собянин оценил вклад проектов "Город героев" и "Герой моего района


Орловская область планирует войти в число национальных туристических маршрутов с проектом «Бирюзовое кольцо России»

В Крыму потушили угрожавший двум селам природный пожар

Что подготовили в павильонах «Музеона» в рамках форума «Москва 2030»

Площадь возгорания на горе Куцай достигла 650 тысяч квадратных метров


Жилинспекция оказала поддержку москвичу в замене радиаторов отопления

Пошла "жара". Жесточайшие удары по столицам НАТО: За атаку на Калининград ответим. "Штормовое" предупреждение Госдумы

Испанец Риера, говорящий по-русски, может сменить Станковича в "Спартаке"

РБК: в России нужна срочная вакцинация от менингококковой инфекции


Орловская область планирует войти в число национальных туристических маршрутов с проектом «Бирюзовое кольцо России»

Здание морского речного вокзала в Архангельске будет обновлено к концу 2026 года

Пинежский заповедник в Архангельской области получит финансирование на создание новой инфраструктуры для научных и исследовательских работ

Сотрудниками полиции и Росгвардии задержан гражданин, причастный к поджогу релейного шкафа в Архангельской области


Прогноз погоды в Крыму на понедельник

Прогноз погоды в Крыму на 11 августа

Историко-краеведческая выставка «Древности земли крымской»

Прогноз погоды в Крыму на 12 августа


Самарец обвиняется в краже золотого браслета с руки жителя Москвы

Гауез Нурмухамбетов дал поручения Бейбуту Исманову, избранному акимом Кызылжарского района

Температура морской воды на крымских пляжах, 12 августа

«Коридор Трампа», или Почему Восток – дело тонкое














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *