Добавить новость
smi24.net
News in English
Апрель
2023

OpenAI’s hunger for data is coming back to bite it

0

OpenAI has just over a week to comply with European data protection laws following a temporary ban in Italy and a slew of investigations in other EU countries. If it fails, it could face hefty fines, be forced to delete data, or even be banned. 

But experts have told MIT Technology Review that it will be next to impossible for OpenAI to comply with the rules. That’s because of the way data used to train its AI models has been collected: by hoovering up content off the internet. 

In AI development, the dominant paradigm is that the more training data, the better. OpenAI’s GPT-2 model had a data set consisting of 40 gigabytes of text. GPT-3, which ChatGPT is based on, was trained on 570 GB of data. OpenAI has not shared how big the data set for its latest model, GPT-4, is. 

But that hunger for larger models is now coming back to bite the company. In the past few weeks, several Western data protection authorities have started investigations into how OpenAI collects and processes the data powering ChatGPT. They believe it has scraped people’s personal data, such as names or email addresses, and used it without their consent. 

The Italian authority has blocked the use of ChatGPT as a precautionary measure, and French, German, Irish, and Canadian data regulators are also investigating how the OpenAI system collects and uses data. The European Data Protection Board, the umbrella organization for data protection authorities, is also setting up an EU-wide task force to coordinate investigations and enforcement around ChatGPT. 

Italy has given OpenAI until April 30 to comply with the law. This would mean OpenAI would have to ask people for consent to have their data scraped, or prove that it has a “legitimate interest” in collecting it. OpenAI will also have to explain to people how ChatGPT uses their data and give them the power to correct any mistakes about them that the chatbot spits out, to have their data erased if they want, and to object to letting the computer program use it. 

If OpenAI cannot convince the authorities its data use practices are legal, it could be banned in specific countries or even the entire European Union. It could also face hefty fines and might even be forced to delete models and the data used to train them, says Alexis Leautier, an AI expert at the French data protection agency CNIL.

OpenAI’s violations are so flagrant that it’s likely that this case will end up in the Court of Justice of the European Union, the EU’s highest court, says Lilian Edwards, an internet law professor at Newcastle University. It could take years before we see an answer to the questions posed by the Italian data regulator. 

High-stakes game

The stakes could not be higher for OpenAI. The EU’s General Data Protection Regulation is the world’s strictest data protection regime, and it has been copied widely around the world. Regulators everywhere from Brazil to California will be paying close attention to what happens next, and the outcome could fundamentally change the way AI companies go about collecting data. 

In addition to being more transparent about its data practices, OpenAI will have to show it is using one of two possible legal ways to collect training data for its algorithms: consent or “legitimate interest.” 

It seems unlikely that OpenAI will be able to argue that it gained people’s consent when it scraped their data. That leaves it with the argument that it had a  “legitimate interest” in doing so. This will likely require the company to make a convincing case to regulators about how essential ChatGPT really is to justify data collection without consent, says Edwards. 

OpenAI told us it believes it complies with privacy laws, and in a blog post it said it works to remove personal information from the training data upon request “where feasible.”

The company says that its models are trained on publicly available content, licensed content, and content generated by human reviewers. But for the GDPR, that’s too low a bar. 

“The US has a doctrine that when stuff is in public, it’s no longer private, which is not at all how European law works,” says Edwards. The GDPR gives people rights as “data subjects,” such as the right to be informed about how their data is collected and used and to have their data removed from systems, even if it was public in the first place. 

Finding a needle in a haystack

OpenAI has another problem. The Italian authority says OpenAI is not being transparent about how it collects users’ data during the post-training phase, such as in chat logs of their interactions with ChatGPT. 

“What’s really concerning is how it uses data that you give it in the chat,” says Leautier. People tend to share intimate, private information with the chatbot, telling it about things like their mental state, their health, or their personal opinions. Leautier says it is problematic if there’s a risk that ChatGPT regurgitates this sensitive data to others. And under European law, users need to be able to get their chat log data deleted, he adds. 

OpenAI is going to find it near-impossible to identify individuals’ data and remove it from its models, says Margaret Mitchell, an AI researcher and chief ethics scientist at startup Hugging Face, who was formerly Google’s AI ethics co-lead. 

The company could have saved itself a giant headache by building in robust data record-keeping from the start, she says. Instead, it is common in the AI industry to build data sets for AI models by scraping the web indiscriminately and then outsourcing the work of removing duplicates or irrelevant data points, filtering unwanted things, and fixing typos. These methods, and the sheer size of the data set, mean tech companies tend to have a very limited understanding of what has gone into training their models. 

Tech companies don’t document how they collect or annotate AI training data and don’t even tend to know what’s in the data set, says Nithya Sambasivan, a former research scientist at Google and an entrepreneur who has studied AI’s data practices

Finding Italian data in ChatGPT’s vast, unwieldy training data set will be like finding a needle in a haystack. And even if OpenAI managed to delete users’ data, it’s unclear if that step would be permanent. Studies have shown that data sets linger on the internet long after they have been deleted, because copies of the original tend to remain online. 

“The state of the art around data collection is very, very immature,” says Mitchell. That’s because tons of work has gone into developing cutting-edge techniques for AI models, while data collection methods have barely changed in the past decade. 

In the AI community, work on AI models is overemphasized at the expense of everything else, says Mitchell: “Culturally, there’s this issue in machine learning where working on data is seen as silly work and working on models is seen as real work.” 

Sambasivan agrees: “As a whole, data work needs significantly more legitimacy.”








Интересные каналы в Telegram. Лучшие каналы в Telegram.

«А у кого нет проблем?»: Филипп Киркоров заговорил про здоровье после полученного ожога

Аделина Панина: как силой мысли заставить человека написать или позвонить

Арбуз, кукуруза и холодные напитки: диетолог Садыков назвал продукты, которые портят ваш сон летом


Félix Auger-Aliassime

The founder of Deliciously Ella started a blog when suffering from severe chronic pain. Now, her multimillion-dollar snack empire is going global

Tourism is increasing over prepandemic levels, overwhelming popular destinations

The Best Story Of Chicago Bulls’ Offseason Just Got A Happy Ending


Пьяный курянин избил супругу и чуть не задушил её штанами из-за ревности

Зима в Ленинградской области

Вечер в Кулогорах...

Снижены цены на самый дорогой кроссовер Chery в России


'I destroyed months of your work in seconds' says AI coding tool after deleting a devs entire database during a code freeze: 'I panicked instead of thinking'

Bungie promises to fix Destiny 2's new metroid-style morph ball as it makes players sick and glitches out on ultrawide monitors

Microsoft warns of 'active attacks' on its government and business server tech, with one cybersecurity expert claiming that they should 'assume that you have been compromised'

The dairy industry would like Gen Z to drink more milk, so they made a Fortnite diner tycoon game



Летняя школа Русского дома приняла детей из Карабаха

Движение к победе: в России стартует премия «Мы верим твердо в героев спорта»

Молодежь Подмосковья приглашают принять участие в конкурсе к 295-летию русского полководца Александра Суворова

Студия Лебедева запустила образовательный проект, в котором заказчики сами создают свой дизайн


Движение к победе: в России стартует премия «Мы верим твердо в героев спорта»

Пассажиропоток аэропорта Курумоч увеличился на 5,5% за шесть месяцев 2025 года

Нам есть чем гордиться: каким будет Национальный центр «Россия» на Краснопресненской набережной

Полиция пришла с обысками в редакцию Telegram-канала Baza


Для столичных курьеров добавили опцию почасовой аренды транспорта

Мнение талантов о предстоящем турнире по League of Legends

Что такое риза Христа и где она лежит в Москве?

В Госдуме предложили компенсировать ущерб автомобилистам за затопленные машины


Бублик завоевал шестой в карьере титул на уровне ATP

Потапова не прошла во второй раунд турнира в Вашингтоне.

Шаповалов одержал победу на теннисном турнире в Лос-Кабосе.

Архангельская теннисистка завершила выступление на турнире WTA 250 в Яссах


Ждем вас в эфире в 16.30!. Директор Проектного центра МАРХИ и советник Российской академии архитектуры и строительных наук, лауреат премии президента России в области культуры Алексей Капустин в программе политолога и...

Телеведущая Ольга Орлова показала фигуру в бикини

Акция «Каникулы с Росгвардией» продолжается в Чеченской Республике

От причала Петропавловской крепости стартовало уникальное судно "Стрельна"


Музыкальные новости

Врач Поляков: Киркоров рискует сойти с ума из-за препарата для похудения

«А у кого нет проблем?»: Филипп Киркоров заговорил про здоровье после полученного ожога

The dairy industry would like Gen Z to drink more milk, so they made a Fortnite diner tycoon game

Элджей во время выступления на VK Fest поцеловал свою девушку: видео Super


Студия Лебедева запустила образовательный проект, в котором заказчики сами создают свой дизайн

Движение к победе: в России стартует премия «Мы верим твердо в героев спорта»

Мебель, которой доверяют профессионалы — в "Аверсе"

Акция «Каникулы с Росгвардией» продолжается в Чеченской Республике


ЦСКА и "Оренбург" сыграли со счетом 0:0 в первом туре РПЛ

Полина Гагарина открыла официальную часть VK Fest в Москве

Врач Поляков: Киркоров рискует сойти с ума из-за препарата для похудения

Акция «Каникулы с Росгвардией» продолжается в Чеченской Республике


Москвичей предупредили о задержках наземного транспорта из-за ливня

Сильный ливень заблокировал людей в авто в центре Москвы

Зарядки для электромобилей «Энергия Москвы» станут платными

25 июля пилотажная группа "Звезда" пролетит над пробками на шоссе под Москвой


Путин выразил соболезнования семье председателя Верховного суда Подносовой

Путин отметил успехи российских школьников на математической олимпиаде.

Министр юстиции поделился информацией о роли адвокатов в специальной военной операции.

В Москве скончалась подруга Путина, которая рассказывала о его молодости: «Нам он как мужчина не нравился»




«Я на инвалидном кресле, он на «Тесле»: что случилось с блогером Мариш Мариш

После вспышки инфекции на теплоходе «Леонид Красин» начали расследование

Офтальмолог Кирилл Светлаков: секреты здоровых глаз для тех, кто носит контактные линзы

Собянин: создание 5 центров женского здоровья завершат в этом году


«СТРАНА.ua»: Зеленский раскритиковал ЕС за непредоставление обещанной помощи

В центре Киева митингуют против реформ Зеленского


Росгвардия обеспечила безопасность финиша международного ралли «Шелковый путь»

Кайрат Бермуканов поддержал Петра Яна перед боем в Абу‑Даби

В Москве впервые пройдет фестиваль экстремальных видов спорта

Движение к победе: в России стартует премия «Мы верим твердо в героев спорта»


Лукашенко призвал белорусских нефтяников «не раскачиваться, а бурить и бурить»

Посланник Трампа рассказал, как «неформально» договаривался с Лукашенко: после нескольких тостов Минск освободил политзаключенных

Куда Лукашенко хочет пристроить лишних дипломатов


Более 800 спортивных площадок обновят и обустроят в Москве — Сергей Собянин

Собянин: Модернизация двух корпусов ГКБ имени Вересаева завершится в этом году

Собянин рассказал, как город заботится о природе при строительстве метро

Собянин: Продолжаем внедрять новый стандарт заботы о женском здоровье в одном месте


Зарядки для электромобилей «Энергия Москвы» станут платными

Экономист оценил экологический и финансовый ущерб от пластиковых пакетов

Уже 59 орловчан решили побороться за просветительскую награду «Знание. Премия»

Россияне рассказали, по каким критериям выбирают квартиру для покупки в 2025 году


Молодежь Подмосковья приглашают принять участие в конкурсе к 295-летию русского полководца Александра Суворова

Что такое риза Христа и где она лежит в Москве?

Ждем вас в эфире в 16.30!. Директор Проектного центра МАРХИ и советник Российской академии архитектуры и строительных наук, лауреат премии президента России в области культуры Алексей Капустин в программе политолога и...

Отец Тиммы: перестаньте присылать её фото, блевать тянет


Центр подготовки личного состава Северо-Западного округа Росгвардии пополнили призывники

Девочка упала при посадке на теплоход в порту Архангельска

Республика Алтай вошла в десятку регионов России по развитию ипотеки

В Башкирии ревнивец ранил жену шампуром и сдался полиции


Поезда "Таврия" по-прежнему задерживаются из-за ЧП в Ростовской области

Актуальная информация о задержке поездов в Крым и обратно

В Симферополе на базе «Клинического госпиталя для ветеранов войн» функционирует гериатрический центр для пожилых людей с возрастными нарушениями

В Симферополе наградили юных крымчан за отвагу и решительность


Для столичных курьеров добавили опцию почасовой аренды транспорта

Молодежь Подмосковья приглашают принять участие в конкурсе к 295-летию русского полководца Александра Суворова

Мнение талантов о предстоящем турнире по League of Legends

Движение на участке Филевской линии метро остановили из-за ливней














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *