Добавить новость
smi24.net
News in English
Август
2023

'Data leverage' and the Harry Potter test: How much is a single book worth to a giant AI model?

0
  • The question of what data is used for AI, and the value of that content, is becoming a hot topic.
  • Can you measure the value of a specific piece of data in a huge AI model?
  • Researchers are trying to measure this, and the 'data leverage' concept is gaining ground.

Years before ChatGPT, Nick Vincent was studying how much AI relies on human-generated data. One thing always struck him about the researchers and tech companies behind these powerful models.

"They always highlight their clever algorithms, not the underlying data," said Vincent, an assistant professor of computing science at Simon Fraser University near Vancouver.

That's beginning to change as the question of what data is used for AI, and the value of that information, becomes a hot topic.

Giant models, such as OpenAI's GPT-4, Google's PaLM 2 and Meta's Llama 2, have been partly built on millions of books, articles, online chats and other content posted online. Some of the creators behind these works have sued claiming copyright violations, while others want to be paid for their contributions.

But how can you measure the value of a particular piece of data when a giant AI model has sucked up most of what's been published online in the past decade or more?

This problem was highlighted in a recent blog on AI by tech analyst Benedict Evans: "It doesn't need your book or website in particular and doesn't care what you in particular wrote about, but it does need 'all' the books and 'all' the websites. It would work if one company removed its content, but not if everyone did."

Vincent, the professor, calls this "Data Leverage." If communities better know the value of their data for AI models, they can more effectively negotiate payment for their work.

"If we know that all our books together are responsible for half the 'goodness' of ChatGPT, then we can put a value on that," he said. "That was a fringe concept a few years ago and it is becoming more mainstream now. I've been beating this drum for years, and it's finally happening. I'm shocked to see it."

What makes LLMs tick?

This month, serious AI researchers waded into this debate with 2 papers that seek to address various aspects of the situation.

On August 7, Anthropic, one of the world's most-advanced AI companies, published a research paper describing a new way to more efficiently swap data in and out, and gauge how model performance changes. Until now, these types of tweaks to large language models have been so expensive they haven't really been tried.

"When an LLM outputs information it knows to be false, correctly solves math or programming problems, or begs the user not to shut it down, is it simply regurgitating (or splicing together) passages from the training set? Or is it combining its stored knowledge in creative ways and building on a detailed world model?" the Anthropic researchers wrote. "We believe this work is the first step towards a top-down approach to understanding what makes LLMs tick."

SILO and value of high-quality content

Second up was SILO, a new language model developed by researchers at the University of Washington in Seattle, UC Berkeley, and the Allen Institute for AI.

Their broad goal was to create a model that can remove data to reduce legal risks. In the process, they also developed a way to measure how specific data contributes to an AI model's output.

"SILO could provide a path forward for data owners to get properly credited (or be paid directly) every time their data in a datastore contributes to a prediction," the researchers wrote in a paper unveiling the technology on August 8.

The authors settled one important question right away: AI models rely heavily on high-quality human-generated content that is often under copyright. Without that, performance begins to suck hard.

"As we show, model performance significantly degrades if trained only on low-risk text (e.g., out-of-copyright books or government documents), due to its limited size and domain coverage," they wrote.

The Harry Potter test

Then the researchers went deep into the weeds, using J.K. Rowling's Harry Potter books to see if individual pieces of data influence AI model performance.

They started with a large collection of published books that are part of The Pile, a huge dataset that's been built by scraping and storing a lot of what's been posted online over the years.

Then they created 2 "datastores." One had all the published books, except the first Harry Potter book. The other datastore excluded all 7 Harry Potter books. They ran tests to see how the model performed with using those 2 different datastores. Then they repeated the exercise, excluding the second Harry Potter book, then the third, and so on. The idea with this "leave-out" analysis was to see how well the model performed when these pieces of content are missing.

"When the Harry Potter books are removed from the datastore, the perplexity gets worse," the researchers found. Perplexity measures the accuracy of AI models. So, without Harry Potter, the model isn't as good.

The more specific conclusion seems painfully logical, but it is important: If you take specific content away, LLMs can't answer questions well about that content.

"LLMs threaten our ability to make these obvious conclusions," Vincent said. "Until now, throwing all data into an AI model has worked well. So there's been less need to specifically know what data is helping to make a model good."

Important legal benefits

Helping J.K. Rowling make even more money from her Harry Potter books was not the goal of the SILO study, though.

What the researchers proved is that it's possible to build powerful AI models while mitigating legal risk, according to Oren Etzoni, former CEO of the Allen Institute for AI who remains a board member and advisor to the organization.

The researchers trained the SILO model only on low-risk datasets that contained public domain text, such as books where the copyright has expired.

An important next step is called inference, where the model uses its training to interpret new information and decide the best output or course of action. The inference stage is where the researchers introduced the high-risk data, including those copyrighted books, along with news articles, medical text, and other content. This was where the Harry Potter "leave-out" tests happened.

This approach has important legal benefits, according to Etzioni. Authors can opt out at any time, and the model does not have to be re-trained. In addition, particular sentences can be attributed in the results, enabling credit to be assigned to authors.

"However, if authors insist on opting out en masse, then SILO will not end up being useful in practice," he added.

And is it legal to use copyrighted works at the inference stage of an AI model's development?

"That's a question for a copyright attorney," Etzioni said.

Read the original article on Business Insider







«Это лучшее, что я видела за последнее время». «Тату» вернулись и уже дают концерты. Почему за ними следит вся страна?

Гордости Angsana Velavaru

Мебель, которой доверяют профессионалы — в "Аверсе"

Арбуз, кукуруза и холодные напитки: диетолог Садыков назвал продукты, которые портят ваш сон летом


Félix Auger-Aliassime

Las 'Guerreras del Agua' se dan un baño de bronce en el Mundial de Singapur

Adil Rami carga contra Lamine: "No puedo ni verlo, que le den..."

La UFC anuncia un mes de octubre mayúsculo


Движение к победе: в России стартует премия «Мы верим твердо в героев спорта»

Вечер в Кулогорах...

Россияне стали чаще покупать автозапчасти на маркетплейсах

Дивеево ..


The dairy industry would like Gen Z to drink more milk, so they made a Fortnite diner tycoon game

'I destroyed months of your work in seconds' says AI coding tool after deleting a devs entire database during a code freeze: 'I panicked instead of thinking'

Настройки GameHub и Winlator для игры в Prey (2017) на Android

Краткая биографическая справка о центральных персонажах Mafia: The Old Country



Квалификационные испытания на право ношения знака отличия полицейского спецназа Росгвардии завершились в Подмосковье (видео)

Оркестр полиции Республики Сербской впервые выступит на фестивале «Спасская башня» в Москве

В Москве завершился сбор с руководителями финансово-экономических подразделений Центрального округа Росгвардии

Оркестр полиции Республики Сербской впервые выступит на фестивале «Спасская башня» в Москве


МИД РФ заявил о готовности подписать документ о безъядерной зоне в Юго-Восточной Азии

Вредоносный код в Firefox: атака на цепочку поставок через NPM-пакеты

Chef's table и новое пространство ресторана «Интеллигенция»

Суд запретил выезд экс-владельцу "Домодедово" Каменщику по иску на $57,8 млн


В московском суде определили меру пресечения для бывшего вице-губернатора Челябинской области

Суд запретил выезд экс-владельцу "Домодедово" Каменщику по иску на $57,8 млн

Сотрудники подмосковного главка Росгвардии завоевали «серебро» в чемпионате Центрального округа по мини-футболу среди команд московского гарнизона

МИД России осудил объявление Кнессетом Западного берега территорией Израиля


Сидоренко из России одержал победу и стал чемпионом по настольному теннису на Универсиаде.

«Следующая остановка — Монреаль!» Потапова полетела в Канаду для участия в «тысячнике»

Россиянин Сидоренко выиграл соревнования по настольному теннису на Универсиаде‑2025

Медведев сравнил матчи с Опелкой в Нидерландах и США


В нескольких российских регионах прошли задержания чиновников

Сотрудники Волоколамского ОВО – филиала ФГКУ «УВО ВНГ России по Московской области» приняли участие в памятных мероприятиях, посвященных Дню ветерана боевых действий.

В московском суде определили меру пресечения для бывшего вице-губернатора Челябинской области

Неизвестный в Москве поджег дверь квартиры, где находились дети


Музыкальные новости

Алексей Учитель снимает фильм о композиторе Дмитрии Шостаковиче

Аранжировка Песен. Аранжировка Музыки. Создание Аранжировок.

Аукцион за часть дачи Пугачевой опровергли

«С детства было ясно, что растет большой артист»: мать Тимати высказалась о популярности сына


В Москве завершился сбор с руководителями финансово-экономических подразделений Центрального округа Росгвардии

Оркестр полиции Республики Сербской впервые выступит на фестивале «Спасская башня» в Москве

«Каникулы с Росгвардией» проходят в регионах Центральной России

Квалификационные испытания на право ношения знака отличия полицейского спецназа Росгвардии завершились в Подмосковье (видео)


Будь собой, а не "звездой": "Europarty" от White Queen

Путин дал указание рассмотреть проблемы онкологии в Архангельской области.

Мосбиржа начала расчет индекса создания стоимости в рамках инициативы с ЦБ РФ

Бастрыкин поставил на контроль дело об избиении мужчиной ребенка в Подмосковье


Специалисты Нацпроектстроя надвигают путепровод СБВ над путями МЦД-2

В Москве росгвардейцы оказали помощь пострадавшей в ДТП мотоциклистке (видео)

Водитель Audi сбил трех пешеходов, переходивших дорогу на западе Москвы

В Подмосковье на видео попало, как школьник на питбайке разбился в жестком ДТП


Сигналы становятся всё громче. Переговоры - только ширма. Главное решится не в Стамбуле

Путин отметил успех российских школьников на олимпиаде по физике.

Путин дал указание рассмотреть проблемы онкологии в Архангельской области.

У Путина есть роскошный подарок для Китая: США схватились за голову, узнав о нем


В Алтайском крае распространяется новый штамм коронавируса

Депздрав Москвы: новый штамм коронавируса "стратус" фиксируют в Москве с мая

Депздрав Москвы оценил ситуацию с распространением нового штамма коронавируса

Обнаружен новый штамм коронавируса: он очень заразный и забирает голос



Косметолог-эстетист Наталья Рябинова: как правильно использовать масло для губ

Компания КИТ МЕД представляет революционный аппарат SONOQUEEN — первую в мире анатомическую HIFU-технологию для anti-age терапии в России

Путин дал указание рассмотреть проблемы онкологии в Архангельской области.

В Алтайском крае распространяется новый штамм коронавируса


Мединский дал неожиданный ответ на предложение Киева о встрече Путина и Зеленского 

Британский журналист: Зеленский - мелкий жулик и крыса, которому «недолго осталось» в этом мире

«Затрудняет путь в ЕС»: Урсула ждёт от Киева разъяснений по поводу ограничения полномочий НАБУ


"Монсон о спортсменах, которые меняют гражданство в сложный период для России"

«Каникулы с Росгвардией» проходят в регионах Центральной России

Назначены судейские бригады на матчи 2-ого тура МИР РПЛ

Делегация «ЛокоТех» посетила финал II чемпионата профессионалов ОАО «РЖД» в Екатеринбурге


Лукашенко заявил, что в Белоруссии «на всякий случай» готовятся к войне

Лукашенко с иронией отнесся к санкциям, запрещающим ему въезд в Эстонию

Лукашенко посоветовал не злить его и не допускать падежа в животноводстве

Лукашенко поделился мнением о самой идеальной профессии.


Сергей Собянин. Главное за день

Мэр Москвы: Улучшим транспортную доступность Южного и Северного Бутова

Собянин: Около 10 тыс. москвичей начали переселение по реновации этим летом

Собянин поддержал проведение конкурса «Лучший книжный магазин Москвы»


Московские студенты начали исследовать влияние климатических изменений на сток рек Ямала

6 лет вместе. В Москве пройдет выставка, посвященная пандам Жуи и Диндин

В центре внимания: CorpSoft24 вошел в рейтинг крупнейших ИТ-компаний России

Детеныш краснокнижной боливийской обезьяны появился на свет в Московском зоопарке


На международном ралли «Шелковый путь – 2025» представили новое моторное масло для мотоциклистов

МИД России осудил объявление Кнессетом Западного берега территорией Израиля

Сотрудники подмосковного главка Росгвардии завоевали «серебро» в чемпионате Центрального округа по мини-футболу среди команд московского гарнизона

В московском суде определили меру пресечения для бывшего вице-губернатора Челябинской области


Путин дал указание рассмотреть проблемы онкологии в Архангельской области.

Республика Алтай вошла в десятку регионов России по развитию ипотеки

Настольный термотрансферный принтер штрих-кодов iDPRT iE4P

70 участников СВО в Архангельске показали мотивацию выше госслужащих — Цыбульский


Поезда "Таврия" по-прежнему задерживаются из-за ЧП в Ростовской области

Актуальная информация о задержке поездов в Крым и обратно

"Россия дала мне возможность быть счастливым": Джефф Монсон в Крыму

В Симферополе на базе «Клинического госпиталя для ветеранов войн» функционирует гериатрический центр для пожилых людей с возрастными нарушениями


Хинштейн официально стал кандидатом в губернаторы Курской области

Суд Москвы арестовал челябинского министра имущества Белоусова

Суд запретил выезд экс-владельцу "Домодедово" Каменщику по иску на $57,8 млн

В ближайшие выходные увеличено количество поездов между Петербургом и Москвой.














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *