Добавить новость
smi24.net
News in English
Июль
2023

Sarah Silverman sues OpenAI, Meta for being “industrial-strength plagiarists”

0

Enlarge / Comedian and author Sarah Silverman. (credit: Jason Kempin / Staff | Getty Images North America)

On Friday, the Joseph Saveri Law Firm filed US federal class-action lawsuits on behalf of Sarah Silverman and other authors against OpenAI and Meta, accusing the companies of illegally using copyrighted material to train AI language models such as ChatGPT and LLaMA.

Other authors represented include Christopher Golden and Richard Kadrey, and an earlier class-action lawsuit filed by the same firm on June 28 included authors Paul Tremblay and Mona Awad. Each lawsuit alleges violations of the Digital Millennium Copyright Act, unfair competition laws, and negligence.

The Joseph Saveri Law Firm is no stranger to press-friendly legal action against generative AI. In November 2022, the same firm filed suit over GitHub Copilot for alleged copyright violations. In January 2023, the same legal group repeated that formula with a class-action lawsuit against Stability AI, Midjourney, and DeviantArt over AI image generators. The GitHub lawsuit is currently on path to trial, according to lawyer Matthew Butterick. Procedural maneuvering in the Stable Diffusion lawsuit is still underway with no clear outcome yet.

In a press release last month, the law firm described ChatGPT and LLaMA as "industrial-strength plagiarists that violate the rights of book authors." Authors and publishers have been reaching out to the law firm since March 2023, lawyers Joseph Saveri and Butterick wrote, because authors "are concerned" about these AI tools' "uncanny ability to generate text similar to that found in copyrighted textual materials, including thousands of books."

The most recent lawsuits from Silverman, Golden, and Kadrey were filed in a US district court in San Francisco. Authors have demanded jury trials in each case and are seeking permanent injunctive relief that could force Meta and OpenAI to make changes to their AI tools.

Meta declined Ars' request to comment. OpenAI did not immediately respond to Ars' request to comment.

A spokesperson for the Saveri Law Firm sent Ars a statement, saying, "If this alleged behavior is allowed to continue, these models will eventually replace the authors whose stolen works power these AI products with whom they are competing. This novel suit represents a larger fight for preserving ownership rights for all artists and other creators."

Accused of using “flagrantly illegal” data sets

Neither Meta nor OpenAI has fully disclosed what's in the data sets used to train LLaMA and ChatGPT. But lawyers for authors suing say they have deduced the likely data sources from clues in statements and papers released by the companies or related researchers. Authors have accused both OpenAI and Meta of using training data sets that contained copyrighted materials distributed without authors' or publishers' consent, including by downloading works from some of the largest e-book pirate sites.

In the OpenAI lawsuit, authors alleged that based on OpenAI disclosures, ChatGPT appeared to have been trained on 294,000 books allegedly downloaded from "notorious 'shadow library' websites like Library Genesis (aka LibGen), Z-Library (aka Bok), Sci-Hub, and Bibliotik." Meta has disclosed that LLaMA was trained on part of a data set called ThePile, which the other lawsuit alleged includes “all of Bibliotik,” and amounts to 196,640 books.

On top of allegedly accessing copyrighted works through shadow libraries, OpenAI is also accused of using a "controversial data set" called BookCorpus.

BookCorpus, the OpenAI lawsuit said, "was assembled in 2015 by a team of AI researchers for the purpose of training language models." This research team allegedly "copied the books from a website called Smashwords that hosts self-published novels, that are available to readers at no cost." These novels, however, are still under copyright and allegedly "were copied into the BookCorpus data set without consent, credit, or compensation to the authors."

Ars could not immediately reach the BookCorpus researchers or Smashwords for comment. [Update: Dan Wood, COO of Draft2Digital—which acquired Smashwords in March 2022—told Ars that the Smashwords  "store site lists close to 800,000 titles for sale," with "about 100,000" currently priced at free.

"Typically, the free book will be the first of a series," Wood said. "Some authors will keep these titles free indefinitely, and some will run limited promotions where they offer the book for free. From what we understand of the BookCorpus data set, approximately 7,185 unique titles that were priced free at the time were scraped without the knowledge or permission of Smashwords or its authors." It wasn't until March 2023 when Draft2Digital "first became aware of the scraped books being used for commercial purposes and redistributed, which is a clear violation of Smashwords’ terms of service," Wood said.

"Every author, whether they have an internationally recognizable name or have just published their first book, deserve to have their copyright protected," Wood told Ars. "They also should have the confidence that the publishing service they entrust their work with will protect it. To that end, we are working diligently with our lawyers to fully understand the issues—including who took the data and where it was distributed—and to devise a strategy to ensure our authors’ rights are enforced. We are watching the current cases being brought against OpenAI and Meta very closely."]

“Numerous questions of law” raised

Authors claim that by utilizing "flagrantly illegal" data sets, OpenAI allegedly infringed copyrights of Silverman's book The Bedwetter, Golden’s Ararat, and Kadrey’s Sandman Slime. And Meta allegedly infringed copyrights of the same three books, as well as "several" other titles from Golden and Kadrey.

It seems obvious to authors that their books were used to train ChatGPT and LLaMA because the tools "can accurately summarize a certain copyrighted book." Although sometimes ChatGPT gets some details wrong, its summaries are otherwise very accurate, and this suggests that "ChatGPT retains knowledge of particular works in the training data set and is able to output similar textual content," the authors alleged.

It also seems obvious to authors that OpenAI and Meta knew that their models were "ingesting" copyrighted materials because all the copyright-management information (CMI) appears to have been "intentionally removed," authors alleged. That means that ChatGPT never responds to a request for a summary by citing who has the copyright, allowing OpenAI to "unfairly profit from and take credit for developing a commercial product based on unattributed reproductions of those stolen writing and ideas."

"OpenAI knew or had reasonable grounds to know that this removal of CMI would facilitate copyright infringement by concealing the fact that every output from the OpenAI Language Models is an infringing derivative work, synthesized entirely from expressive information found in the training data," the OpenAI complaint said.

Among "numerous questions of law" raised in these complaints was a particularly prickly question: Is ChatGPT or LLaMA itself an infringing derivative work based on perhaps thousands of authors' works?

Authors are already upset that companies seem to be unfairly profiting off their copyrighted materials, and the Meta lawsuit noted that any unfair profits currently gained could further balloon, as "Meta plans to make the next version of LLaMA commercially available." In addition to other damages, the authors are asking for restitution of alleged profits lost.

"Much of the material in the training datasets used by OpenAI and Meta comes from copyrighted works—including books written by plain­tiffs—that were copied by OpenAI and Meta without consent, without credit, and without compensation," Saveri and Butterick wrote in their press release.

Read on Ars Technica | Comments








Без ошибки определяем точный день зачатия

Marins Park Hotel Нижний Новгород – партнёр фестиваля «ПАРИ ФЕСТ 2025»

В Marins Москва Пражская остановились участники международного турнира по гандболу

Косметолог-эстетист Наталья Рябинова: самые эффективные способы борьбы с веснушками


Cameroon star has said yes to Man Utd transfer but Red Devils face hurdle

OpenAI launches GPT-5, its most powerful AI yet—will it be enough to stay ahead in today’s ruthless AI race? 

Report: Liverpool decision hands advantage to Man United in midfielder pursuit

Man Utd have agreed deal with AC Milan for £40m star's exit, await player decision - report


В ДТП на трассе погибли двое детей и женщина

Сотрудниками полиции и Росгвардии задержан гражданин, причастный к поджогу релейного шкафа в Архангельской области

«Деловые Линии» запустили более 400 новых направлений экспресс-доставки

«Бежим за Мечту — Ходить»: подростки на протезах пробегут марафон в Екатеринбурге


Steam for Chromebooks is getting axed in 2026 instead of exiting its 4-year beta

Modders are trying their hardest to add an NVMe SSD to the Switch 2, which is both impressive and something I'm not going to do

Находи идеальные места для персонажей-фигурок в «Is This Seat Taken?»

Mafia: The Old Country получила положительные оценки в Steam


Овочі можусть стати розкішшю для українців


Косметолог-эстетист Наталья Рябинова: самые эффективные способы борьбы с веснушками

Томский "Индиго" приглашен на международный театральный фестиваль

Охранник из аэропорта Внуково стал моделью

Команда «Буран» одержала победу на «Архипелаге 2025»


Сергунина пригласила москвичей и туристов на фестиваль «Вкусы России»

Политолог нашла парадокс в отношениях России и Грузии

"Динамо" Карпина упустило победу над "Сочи" в конце матча

От Чехова с мангустами до встречи “Варягов”: что скрывают стены Московского вокзала Тулы


СБП показывает рекордный рост популярности

Дегтярёв привёл в пример потолок зарплат в КХЛ, говоря о российском футболе

Ходить по воде чудесно! Как в Барнауле проходила международная "Алтайская регата. Кубок Костенко"

Жители Подольска сообщили о пяти взрывах над городом


Потапова проиграла Свёнтек во втором круге турнира WTA в Цинциннати

Павлюченкова уступила во втором круге турнира WTA 1000 в Цинциннати

Самсонова проиграла Таунсенд на турнире в Цинциннати

Павлюченкова не сумела пробиться в третий раунд турнира в Цинциннати


Троян-невидимка: Efimer заражает под видом популярных фильмов

Опасный транспорт: что такое питбайк и почему его так любят зумеры

Ходить по воде чудесно! Как в Барнауле проходила международная "Алтайская регата. Кубок Костенко"

Ефимов: с начала года утвердили 10 ППТ для 8 тыс. кв. м недвижимости


Музыкальные новости

«Отдалась без остатка»: Крым окрылил Ольгу Бузову

Возлюбленная Тимати ответила, почему не вышла замуж за репера

Процесс сошел с рельсов // Верховный суд определил пересмотреть дело о наезде Kia на трамвай

МакSим показала фигуру на яхте, а беременная Муцениеце отдыхает с сыном в Крыму


Команда «Буран» одержала победу на «Архипелаге 2025»

У Крымского моста скопилась очередь из 1,1 тысячи автомобилей

«Бежим за Мечту — Ходить»: подростки на протезах пробегут марафон в Екатеринбурге

"Динамо" Карпина упустило победу над "Сочи" в конце матча


"Начинаем привыкать". Бизнес и власти о том, как россиянам жить в эпоху интернет-блэкаутов

От Чехова с мангустами до встречи “Варягов”: что скрывают стены Московского вокзала Тулы

Мигранты получили «золотой билет»: Встречай, Россия!

Ближе Дубая, чище Байкала и намного дешевле Тая: морской курорт в России, где не стыдно провести свой отпуск


Кино на Белой даче: какие фильмы чеховский музей покажет в августе

Москва: Новая эра зарядных станций для электромобилей с поддержкой инвесторов

У Крымского моста скопилась очередь из 1,1 тысячи автомобилей

Российский рэпер сжег кабриолет BMW прямо на сцене


Bloomberg сообщает, что ЕС хочет провести переговоры с Трампом до встречи с Путиным

Российские акции демонстрируют уверенный рост на фоне ожиданий встречи Путина и Трампа

Генсек НАТО предположил возможный итог встречи Трампа и Путина

Путин обратился с приветствием к участникам форума «Машук»




Уровень медицины в Некрасовке растет

Столичные росгвардейцы приняли участие в забеге, посвященном Дню физкультурника

«Бежим за Мечту — Ходить»: подростки на протезах пробегут марафон в Екатеринбурге

Косметолог-эстетист Наталья Рябинова: самые эффективные способы борьбы с веснушками


После «успешных» переговоров с Вэнсом в Киеве вновь отвергли мирные инициативы

В Киеве сделали заявление о территориальных уступках


"Динамо" Карпина упустило победу над "Сочи" в конце матча

Компания «КЕНГУРУ.ПРО» подписала соглашение с сетью премиальных фитнес-студий PRO TRENER

Чемпионат по самбо столичного главка Росгвардии завершился в Москве

Охрану общественного порядка и безопасность на футбольных матчах в Москве обеспечила Росгвардия


В Минске считают, что интервью Лукашенко превратили в пропагандистский опус

Интервью Лукашенко на "Беларусь 1" стало примером пропагандистской одержимости


Собянин: с 2011 года в Москве привели в порядок более 90 км набережных

Собянин: Окончен основной этап благоустройства набережной в Покровском-Стрешневе

Сергей Собянин: С 2011 года в Москве привели в порядок более 90 км набережных

Сергей Собянин. Главное за день


Было-стало. Какая улица вела на Москву, а привела в заповедник

США предостерегают о возможной крупной чрезвычайной ситуации

Москва: Новая эра зарядных станций для электромобилей с поддержкой инвесторов

Преимущества применения озона для очистки воды


Опасный транспорт: что такое питбайк и почему его так любят зумеры

Врач Плинатус рассказала, какие прививки нужно сделать ребенку перед школой

Ходить по воде чудесно! Как в Барнауле проходила международная "Алтайская регата. Кубок Костенко"

Портал «Наш город» помогает следить за состоянием зеленых территорий столицы


Сотрудниками полиции и Росгвардии задержан гражданин, причастный к поджогу релейного шкафа в Архангельской области

без заголовка

В Алтайском крае не будут проводить проверку на предмет чрезмерного роста тарифов на ЖКУ

Льготные ипотеки на Дальнем Востоке активно получают участники СВО и сотрудники ОПК


Прогноз погоды в Крыму на понедельник

Сергей Карякин: 7 августа на поезде из Москвы в Симферополь выехали участники специальной спортивно-образовательной программы «Шахматный лагерь Сергея Карякина», которая стартует в Международном детском центре «Артек»

Прогноз погоды в Крыму на 11 августа

Прогноз погоды в Крыму на 10 августа


С августа 2025 ЖКХ будет дешевле для всех пенсионеров — вступает в силу новая льгота

Специалист Коломацкая: учителям на 1 сентября не стоит дарить деньги в конверте

Челябинск вошел в группу городов с самым большим числом электрозаправок

Ушел из жизни Дмитрий Ухов, председатель Московской ассоциации джаза














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *