Добавить новость
smi24.net
News in English
Май
2024

No One Truly Knows How AI Systems Work. A New Discovery Could Change That

0

Today’s artificial intelligence is often described as a “black box.” AI developers don’t write explicit rules for these systems; instead, they feed in vast quantities of data and the systems learn on their own to spot patterns. But the inner workings of the AI models remain opaque, and efforts to peer inside them to check exactly what is happening haven’t progressed very far. Beneath the surface, neural networks—today’s most powerful type of AI—consist of billions of artificial “neurons” represented as decimal-point numbers. Nobody truly understands what they mean, or how they work.

[time-brightcove not-tgx=”true”]

For those concerned about risks from AI, this fact looms large. If you don’t know exactly how a system works, how can you be sure it is safe?

Read More: Exclusive: U.S. Must Move ‘Decisively’ to Avert ‘Extinction-Level’ Threat From AI, Government-Commissioned Report Says

On Tuesday, the AI lab Anthropic announced it had made a breakthrough toward solving this problem. Researchers developed a technique for essentially scanning the “brain” of an AI model, allowing them to identify collections of neurons—called “features”—corresponding to different concepts. And for the first time, they successfully used this technique on a frontier large language model, Anthropic’s Claude Sonnet, the lab’s second-most powerful system, .

In one example, Anthropic researchers discovered a feature inside Claude representing the concept of “unsafe code.” By stimulating those neurons, they could get Claude to generate code containing a bug that could be exploited to create a security vulnerability. But by suppressing the neurons, the researchers found, Claude would generate harmless code.

The findings could have big implications for the safety of both present and future AI systems. The researchers found millions of features inside Claude, including some representing bias, fraudulent activity, toxic speech, and manipulative behavior. And they discovered that by suppressing each of these collections of neurons, they could alter the model’s behavior.

As well as helping to address current risks, the technique could also help with more speculative ones. For years, the primary method available to researchers trying to understand the capabilities and risks of new AI systems has simply been to chat with them. This approach, sometimes known as “red-teaming,” can help catch a model being toxic or dangerous, allowing researchers to build in safeguards before the model is released to the public. But it doesn’t help address one type of potential danger that some AI researchers are worried about: the risk of an AI system becoming smart enough to deceive its creators, hiding its capabilities from them until it can escape their control and potentially wreak havoc.

“If we could really understand these systems—and this would require a lot of progress—we might be able to say when these models actually are safe, or whether they just appear safe,” Chris Olah, the head of Anthropic’s interpretability team who led the research, tells TIME.

“The fact that we can do these interventions on the model suggests to me that we’re starting to make progress on what you might call an X-ray, or an MRI [of an AI model],” Anthropic CEO Dario Amodei adds. “Right now, the paradigm is: let’s talk to the model, let’s see what it does. But what we’d like to be able to do is look inside the model as an object—like scanning the brain instead of interviewing someone.”

The research is still in its early stages, Anthropic said in a summary of the findings. But the lab struck an optimistic tone that the findings could soon benefit its AI safety work. “The ability to manipulate features may provide a promising avenue for directly impacting the safety of AI models,” Anthropic said. By suppressing certain features, it may be possible to prevent so-called “jailbreaks” of AI models, a type of vulnerability where safety guardrails can be disabled, the company added.


Researchers in Anthropic’s “interpretability” team have been trying to peer into the brains of neural networks for years. But until recently, they had mostly been working on far smaller models than the giant language models currently being developed and released by tech companies.

One of the reasons for this slow progress was that individual neurons inside AI models would fire even when the model was discussing completely different concepts. “This means that the same neuron might fire on concepts as disparate as the presence of semicolons in computer programming languages, references to burritos, or discussion of the Golden Gate Bridge, giving us little indication as to which specific concept was responsible for activating a given neuron,” Anthropic said in its summary of the research.

To get around this problem, Olah’s team of Anthropic researchers zoomed out. Instead of studying individual neurons, they began to look for groups of neurons that would all fire in response to a specific concept. This technique worked—and allowed them to graduate from studying smaller “toy” models to larger models like Anthropic’s Claude Sonnet, which has billions of neurons. 

Although the researchers said they had identified millions of features inside Claude, they cautioned that this number was nowhere near the true number of features likely present inside the model. Identifying all the features, they said, would be prohibitively expensive using their current techniques, because doing so would require more computing power than it took to train Claude in the first place. (Costing somewhere in the tens or hundreds of millions of dollars.) The researchers also cautioned that although they had found some features they believed to be related to safety, more study would still be needed to determine whether those features could reliably be manipulated to improve a model’s safety.

For Olah, the research is a breakthrough that proves the utility of his esoteric field, interpretability, to the broader world of AI safety research. “Historically, interpretability has been this thing on its own island, and there was this hope that someday it would connect with [AI] safety—but that seemed far off,” Olah says. “I think that’s no longer true.”








Чудо-колонка Детского радио: малыш будет в восторге!

Грачья Погосян: достойный пример гуманизма и патриотизма (к 55-летию известного благотворителя)

Алексей Чумаков выступит на крыше Roof Place. «Авторадио – Санкт-Петербург» дарит билеты

Охранник из аэропорта Внуково стал моделью


Man Utd have agreed deal with AC Milan for £40m star's exit, await player decision - report

OpenAI launches GPT-5, its most powerful AI yet—will it be enough to stay ahead in today’s ruthless AI race? 

Report: Liverpool decision hands advantage to Man United in midfielder pursuit

Report: AC Milan’s Christian Pulisic set to team up with $87 million Manchester United star


Добро в каждой чашке: Елизавета Боярская, фонд «Жизнь в Движении» и сеть кофеен «Ягода» запускают авторский кофе для помощи детям с ОВЗ

НПС завершил проходку подземного перехода под МЦД-3

Аэропорт Внуково (станция метро)

Обновлена платформа для мониторинга данных Smart Monitor


The US Air Force wants to test blowing up Cybertrucks because 'it is likely the type of vehicles used by the enemy may transition to Tesla Cyber trucks'

Steam for Chromebooks is getting axed in 2026 instead of exiting its 4-year beta

Находи идеальные места для персонажей-фигурок в «Is This Seat Taken?»

Modders are trying their hardest to add an NVMe SSD to the Switch 2, which is both impressive and something I'm not going to do


Овочі можусть стати розкішшю для українців


В регионах центральной России росгвардейцы отметили День физкультурника

Семейное приключение на «Кораблике Детского радио»

Сотрудники Росгвардии пришли на помощь пенсионеру, внезапно потерявшему сознание в кафе на востоке столицы

Чемпионат по самбо столичного главка Росгвардии завершился в Москве


Антиармянские публикации в российском научном журнале «Современная научная мысль»: расследование фонда «Гегард»

"Динамо" Карпина упустило победу над "Сочи" в конце матча

Павлово-Посадский Гофрокомбинат запускает высокотехнологичную линию плоской высечки Eterna

Уровень медицины в Некрасовке растет


СК «Двадцать первый век» застраховала Управление делами Правительства Ленинградской области

Сотрудники Росгвардии пришли на помощь пенсионеру, внезапно потерявшему сознание в кафе на востоке столицы

Лендруш Егикян: человек, который сохраняет высокую миссию быть армянином вдали от Родины

Грачья Погосян: достойный пример гуманизма и патриотизма (к 55-летию известного благотворителя)


Павлюченкова уступила 94-й ракетке мира на турнире WTA в Цинциннати

Александрова снизилась в рейтинге в борьбе за титул WTA

Хачанов поднялся до 12-й позиции в мировом рейтинге ATP

Потапова проиграла Свёнтек во втором круге турнира WTA в Цинциннати


Лендруш Егикян: человек, который сохраняет высокую миссию быть армянином вдали от Родины

Грачья Погосян: достойный пример гуманизма и патриотизма (к 55-летию известного благотворителя)

CHANGAN представил свои автомобили на XII Всероссийском чемпионате по пахоте в Санкт-Петербурге

Премьера песни «Птицы любви» — посвящение дочери, которая всегда будет рядом


Музыкальные новости

Mash: Розенбаум может потерять голос на фоне пневмонии

Медики дали совет Розенбауму

Концерт нижегородского фестиваля «Музыка балконов» прошел в Санкт-Петербурге

Би-би-си выпустит документальный фильм об Оззи Осборне


Чемпионат по самбо столичного главка Росгвардии завершился в Москве

Чудо-колонка Детского радио: малыш будет в восторге!

Сотрудники Росгвардии пришли на помощь пенсионеру, внезапно потерявшему сознание в кафе на востоке столицы

В регионах центральной России росгвардейцы отметили День физкультурника


20-летие отметил авиационный отряд специального назначения Росгвардии, обеспечивающий охрану космодрома «Байконур»

Продвижение Песни в Импульсе Яндекс Музыка.

ГК «КОРТРОС» — в числе лидеров страны по объему ввода жилья

Хет-трик Батракова: «Локомотив» обыграл «Спартак» со счётом 4:2 в Москве


Российский рэпер сжег кабриолет BMW прямо на сцене

Дептранс Москвы предупредил автомобилистов об ухудшении погоды

У Крымского моста скопилась очередь из 1,1 тысячи автомобилей

На юго-западе Москвы трактор без водителя раздавил ковшом такси и попал на видео


Российские акции демонстрируют уверенный рост на фоне ожиданий встречи Путина и Трампа

Генсек НАТО предположил возможный итог встречи Трампа и Путина

Bloomberg сообщает, что ЕС хочет провести переговоры с Трампом до встречи с Путиным

Медиа сообщили о предполагаемой локации встречи Путина и Трампа на Аляске




Custom Clinic - это клиника в центре Санкт-Петербурга, где решают проблему выпадения волос комплексно и эффективно

В регионах центральной России росгвардейцы отметили День физкультурника

Косметолог-эстетист Наталья Рябинова: самые эффективные способы борьбы с веснушками

Столичные росгвардейцы приняли участие в забеге, посвященном Дню физкультурника



Столичные росгвардейцы приняли участие в забеге, посвященном Дню физкультурника

В регионах центральной России росгвардейцы отметили День физкультурника

Чемпионат по самбо столичного главка Росгвардии завершился в Москве

Росгвардейцы охраняли правопорядок на фестивале «ЛИГА ТРИАТЛОНА & IRONSTAR МОСКВА 2025»


В Минске считают, что интервью Лукашенко превратили в пропагандистский опус

Интервью Лукашенко на "Беларусь 1" стало примером пропагандистской одержимости


Сергей Собянин: С 2011 года в Москве привели в порядок более 90 км набережных

Собянин: сбиты ещё три беспилотника, летевших на Москву

Собянин: Окончен основной этап благоустройства набережной в Покровском-Стрешневе

Собянин заявил об уничтожении пятого БПЛА, который летел на Москву


Преимущества применения озона для очистки воды

Новости: в Колорадо из-за масштабного лесного пожара эвакуировали исправительное учреждение

США предостерегают о возможной крупной чрезвычайной ситуации

Москва: Новая эра зарядных станций для электромобилей с поддержкой инвесторов


Лендруш Егикян: человек, который сохраняет высокую миссию быть армянином вдали от Родины

Семейное приключение на «Кораблике Детского радио»

Премьера песни «Птицы любви» — посвящение дочери, которая всегда будет рядом

Грачья Погосян: достойный пример гуманизма и патриотизма (к 55-летию известного благотворителя)


Сотрудниками полиции и Росгвардии задержан гражданин, причастный к поджогу релейного шкафа в Архангельской области

В Алтайском крае не будут проводить проверку на предмет чрезмерного роста тарифов на ЖКУ

без заголовка

Полицейский погиб при задержании поджигателя релейного шкафа под Архангельском


Историко-краеведческая выставка «Древности земли крымской»

Прогноз погоды в Крыму на 11 августа

Прогноз погоды в Крыму на 10 августа

Когда достроят больницу скорой помощи и онкодиспансер в Севастополе


В Городском округе Пушкинский проводится капремонт в трёх школах и двух детский садах

Сотрудники Росгвардии пришли на помощь пенсионеру, внезапно потерявшему сознание в кафе на востоке столицы

Эксперт предостерегает о значительных опасностях для поручителей по кредитным займам

Антиармянские публикации в российском научном журнале «Современная научная мысль»: расследование фонда «Гегард»














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *