Добавить новость
smi24.net
News in English
Июль
2023

A Bunch Of Authors Sue OpenAI Claiming Copyright Infringement, Because They Don’t Understand Copyright

0

You may have seen some headlines recently about some authors filing lawsuits against OpenAI. The lawsuits (plural, though I’m confused why it’s separate attempts at filing a class action lawsuit, rather than a single one) began last week, when authors Paul Tremblay and Mona Awad sued OpenAI and various subsidiaries, claiming copyright infringement in how OpenAI trained its models. They got a lot more attention over the weekend when another class action lawsuit was filed against OpenAI with comedian Sarah Silverman as the lead plaintiff, along with Christopher Golden and Richard Kadrey. The same day the same three plaintiffs (though with Kadrey now listed as the top plaintiff) also sued Meta, though the complaint is basically the same.

All three cases were filed by Joseph Saveri, a plaintiffs class action lawyer who specializes in antitrust litigation. As with all too many class action lawyers, the goal is generally enriching the class action lawyers, rather than actually stopping any actual wrong. Saveri is not a copyright expert, and the lawsuits… show that. There are a ton of assumptions about how Saveri seems to think copyright law works, which is entirely inconsistent with how it actually works.

The complaints are basically all the same, and what it comes down to is the argument that AI systems were trained on copyright-covered material (duh) and that somehow violates their copyrights.

Much of the material in OpenAI’s training datasets, however, comes from copyrighted works—including books written by Plaintiffs—that were copied by OpenAI without consent, without credit, and without compensation

But… this is both wrong and not quite how copyright law works. Training an LLM does not require “copying” the work in question, but rather reading it. To some extent, this lawsuit is basically arguing that merely reading a copyright-covered work is, itself, copyright infringement.

Under this definition, all search engines would be copyright infringing, because effectively they’re doing the same thing: scanning web pages and learning from what they find to build an index. But we’ve already had courts say that’s not even remotely true. If the courts have decided that search engines scanning content on the web to build an index is clearly transformative fair use, so to would be scanning internet content for training an LLM. Arguably the latter case is way more transformative.

And this is the way it should be, because otherwise, it would basically be saying that anyone reading a work by someone else, and then being inspired to create something new would be infringing on the works they were inspired by. I recognize that the Blurred Lines case sorta went in the opposite direction when it came to music, but more recent decisions have really chipped away at Blurred Lines, and even the recording industry (the recording industry!) is arguing that the Blurred Lines case extended copyright too far.

But, if you look at the details of these lawsuits, they’re not arguing any actual copying (which, you know, is kind of important for their to be copyright infringement), but just that the LLMs have learned from the works of the authors who are suing. The evidence there is, well… extraordinarily weak.

For example, in the Tremblay case, they asked ChatGPT to “summarize” his book “The Cabin at the End of the World,” and ChatGPT does so. They do the same in the Silverman case, with her book “The Bedwetter.” If those are infringing, so is every book report by every schoolchild ever. That’s just not how copyright law works.

The lawsuit tries one other tactic here to argue infringement, beyond just “the LLMs read our books.” It also claims that the corpus of data used to train the LLMs was itself infringing.

For instance, in its June 2018 paper introducing GPT-1 (called “Improving Language Understanding by Generative Pre-Training”), OpenAI revealed that it trained GPT-1 on BookCorpus, a collection of “over 7,000 unique unpublished books from a variety of genres including Adventure, Fantasy, and Romance.” OpenAI confirmed why a dataset of books was so valuable: “Crucially, it contains long stretches of contiguous text, which allows the generative model to learn to condition on long-range information.” Hundreds of large language models have been trained on BookCorpus, including those made by OpenAI, Google, Amazon, and others.

BookCorpus, however, is a controversial dataset. It was assembled in 2015 by a team of AI researchers for the purpose of training language models. They copied the books from a website called Smashwords that hosts self-published novels, that are available to readers at no cost. Those novels, however, are largely under copyright. They were copied into the BookCorpus dataset without consent, credit, or compensation to the authors.

If that’s the case, then they could make the argument that BookCorpus itself is infringing on copyright (though, again, I’d argue there’s a very strong fair use claim under the Perfect 10 cases), but that’s separate from the question of whether or not training on that data is infringing.

And that’s also true of the other claims of secret pirated copies of books that the complaint insists OpenAI must have relied on:

As noted in Paragraph 32, supra, the OpenAI Books2 dataset can be estimated to contain about 294,000 titles. The only “internet-based books corpora” that have ever offered that much material are notorious “shadow library” websites like Library Genesis (aka LibGen), Z-Library (aka Bok), Sci-Hub, and Bibliotik. The books aggregated by these websites have also been available in bulk via torrent systems. These flagrantly illegal shadow libraries have long been of interest to the AI-training community: for instance, an AI training dataset published in December 2020 by EleutherAI called “Books3” includes a recreation of the Bibliotik collection and contains nearly 200,000 books. On information and belief, the OpenAI Books2 dataset includes books copied from these “shadow libraries,” because those are the most sources of trainable books most similar in nature and size to OpenAI’s description of Books2.

Again, think of the implications if this is copyright infringement. If a musician were inspired to create music in a certain genre after hearing pirated songs in that genre, would that make the songs they created infringing? No one thinks that makes sense except the most extreme copyright maximalists. But that’s not how the law actually works.

This entire line of cases is just based on a total and complete misunderstanding of copyright law. I completely understand that many creative folks are worried and scared about AI, and in particular that it was trained on their works, and can often (if imperfectly) create works inspired by them. But… that’s also how human creativity works.

Humans read, listen, watch, learn from, and are inspired by those who came before them. And then they synthesize that with other things, and create new works, often seeking to emulate the styles of those they learned from. AI systems and LLMs are doing the same thing. It’s not infringing to learn from and be inspired by the works of others. It’s not infringing to write a book report style summary of the works of others.

I understand the emotional appeal of these kinds of lawsuits, but the legal reality is that these cases seem doomed to fail, and possibly in a way that will leave the plaintiffs having to pay legal fees (since in copyright legal fee awards are much more common).

That said, if we’ve learned anything at all in the past two plus decades of lawsuits about copyright and the internet, courts will sometimes bend over backwards to rewrite copyright law to pretend it says what they want it to say, rather than what it does say. If that happens here, however, it would be a huge loss to human creativity.








В Корпоративном университете «ЛокоТех» за первое полугодие 2025 года обучено более 2500 человек и создано 8 новых программ

Коллекция Maison Margiela осень-зима 2025/26

Сооружения сервисного участка «Свердловск-Пассажирский» стали арт-объектом

Забайкальский филиал "ЛокоТех-Сервис" показал уверенный рост в первом полугодии


Is eBay actually sexy again as the ecommerce old-timer’s stock surges to an all-time high?

AI and robots can help the world grow more food—even if they’re still not quite as good as a human farmer

All the news from Nintendo’s July 2025 Direct showcase

'Not ready for prime time': Trump, Republicans slam GOP leader's stock trade ban bill


Курянина на год лишили прав за наезд на деревья

Сооружения сервисного участка «Свердловск-Пассажирский» стали арт-объектом

Синопская набережная. Летний Петербург

Новая эра гибридных атак разблокирована


If you'd like to see Meta's AI gunk purged from WhatsApp, a new antitrust investigation in Italy might just do the trick

«Деньги не пахнут»: Как Blox World наживается на доверии игроков Roblox

Color Maze Adventure 2.0.0

Разработчики The Seven Deadly Sins: Origin ответили на частые вопросы игроков



Сооружения сервисного участка «Свердловск-Пассажирский» стали арт-объектом

Москва и Подмосковье: за сутки выпало более месячной нормы осадков

В Корпоративном университете «ЛокоТех» за первое полугодие 2025 года обучено более 2500 человек и создано 8 новых программ

Забайкальский филиал "ЛокоТех-Сервис" показал уверенный рост в первом полугодии


Спартак» Обыграл «Ростов» 2:0: Победа в Кубке России на «Ростов-Арене

Найден идеальный вагон РЖД: там все купе одноместные - отзыв пассажира

"Автостат": Geely Monjaro - самая популярная модель в Москве

Сооружения сервисного участка «Свердловск-Пассажирский» стали арт-объектом


Райт Консалтинг – бухгалтерия без рисков для бизнеса

Столичные компании расширяют ассортимент товаров для животных

Большинство работников с зарплатой от миллиона живут в Москве и Петербурге

В крымском направлении задерживаются более 10 поездов


У пауэрлифтера из Австралии Османа полилась кровь из глаз

Медведев прошёл в третий круг турнира ATP в Торонто, обыграв Сврчину

Александрова уступила и не прошла в третий круг турнира в Монреале.

Рублев и Хачанов не смогли пройти первый круг парного разряда теннисного турнира в Торонто


Традиции на День ВДВ в России 2025: не только купание в фонтанах

Комлесхоз Подмосковья опубликовал прогноз пожарной опасности до 4 августа

МЧС РФ: в Московской области ожидаются ливень и гроза

Игорь Бутман готов создать джазовый мюзикл: новые творческие горизонты


Музыкальные новости

Королёва и Малинин или Порывай и Выгузов? Реальные фамилии российских звезд

Бутман выразил свою позицию по поводу отмены концерта Гергиева в Италии

Оззи Осборна похоронили в саду его особняка

Последний путь Князя тьмы: фанаты и близкие простились с Оззи Осборном


Сооружения сервисного участка «Свердловск-Пассажирский» стали арт-объектом

«ЛокоТех» проводит комплексную оценку знаний специалистов службы качества

Москва лидирует по числу миллионеров: 28 тысяч получают свыше 1 млн рублей

Забайкальский филиал "ЛокоТех-Сервис" показал уверенный рост в первом полугодии


Спартак» Обыграл «Ростов» 2:0: Победа в Кубке России на «Ростов-Арене

Дуэль топонимов: Азербайджан заставляет извиняться за "Степанакерт" и грозит зеркальным ответом по городам России

Выставка наличников «Резное кружево Поочья» проработает в Луховицах до 27 августа

Олеся Шергина из Екатеринбурга взошла на Эльбрус: история смелости, вдохновения и преодоления девушки с протезом


Собянин: Открыт пешеходный переход через МЦД-2 между Щербинкой и Остафьевом

РСТ предложил на Крымском мосту сделать приоритетный досмотр семьям с детьми

На Крымском мосту скопилось более двух тысяч машин

BMW: важна каждая деталь


Путин поручил оптимизировать строительство высокоскоростной магистрали Москва — Петербург

В Севастополе кинотеатр "Россия" превратят в филиал Национального центра по поручению Путина

Глава Следкома Карелии покинул пост

Путин запланировал встречу с правителем Малайзии на 6 августа


NYT сообщает, что ЕК не сохранила переписку фон дер Ляйен с руководством Pfizer

Исследование показывает зависимость между темпами развития COVID-19 и уровнем смертности

Руководитель РФПИ охарактеризовал переписку фон дер Ляйен с Pfizer как позорный инцидент



Объявлена процедура получения налогового вычета за медицинские услуги

«Промомед» создает лекарство для профилактики и терапии ВИЧ

Врачи Москвы спасли женщину, случайно проглотившую зубную щётку

Пластический хирург Софья Абдулаева: как используют собственный жир для омоложения лица


Число погибших из-за удара России по Киеву возросло до 31 – власти

«Хромая утка» Зеленский с ужасом ждет «майдана вдов» и бунта военных – нардеп Рады

Путин: если Киев считает, что сейчас не время для переговоров, Москва готова ждать

Огромный забор и бомбоубежища: что известно о резиденции Зеленского под Киевом


Точно в цель – топ-3 гольф-клубов в окружении «Москва-Сити»

Сотрудники Минпросвещения и «Артека», педагоги, наставники и тренеры отмечены высокими наградами

Мероприятия в рамках акции «Каникулы с Росгвардией» проходят в регионах Центральной России

Викторины и квесты пройдут на столичной ВДНХ в честь 86-летия выставки


Лукашенко прокомментировал ситуацию с БПЛА в Минске

Путин и Лукашенко беседуют в окружении белорусского шпица

Лукашенко: никому не удастся поставить Минск и Москву на колени

Путин и Лукашенко соберутся на неформальные переговоры


Собянин: Открыт пешеходный переход через МЦД-2 между Щербинкой и Остафьевом

Собянин поздравил победителей конкурса «Большая перемена»

Сергей Собянин открыл просторный переход между станциями Щербинка и Остафьево

Собянин: Количество цветников в Москве с 2010 года увеличено почти в 2,5 раза


Казахстан положил глаз на Волгу: Россия когда-то отказала, но Астана нашла обходной путь

Ликсутов сообщил об открытии велопроката на территории ОЭЗ «Технополис Москва»

Климатологи прогнозируют изменение климата в Москве в сторону субтропиков

Конец истории: тополиный пух может навсегда исчезнуть из Москвы


Ансамбль Коронационного убежища и дома призрения отреставрируют в Москве

Названы российские регионы с наибольшим числом миллионеров

В Чебоксарах три человека пострадали после столкновения автомобиля со зданием

Комлесхоз Подмосковья опубликовал прогноз пожарной опасности до 4 августа


В администрации Нарьян-Мара обнаружены следы коррупции

В администрации муниципального образования «Городской округ «Город Нарьян-Мар» выявлены нарушения законодательства о противодействии коррупции

Архангельская область. СМИ зовут прокуроров в дорогу

Заболевание клещевым энцефалитом в Подмосковье: 10,5 тыс. случаев укусов


Цены на новостройки в июле 2025 года: Севастополь лидирует, Симферополь чуть отстаёт

В пути следования задерживаются поезда «Таврия», сообщили в пресс-службе компании-перевозчика "Гранд Сервис Экспресс"

Как выбрать надежного застройщика: советы покупателям

Крыму и еще 27 регионам списали долги по бюджетным кредитам на 58 млрд


Депутат объяснил размер пенсии для тех, кто официально нигде не работал

Американские военные застрелили водителя, пытавшегося прорваться на военную базу

В Долгопрудном после удара молнии загорелся частный дом

Не «Спартак»: Маурисио назвал самый популярный клуб в России














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *