Добавить новость
smi24.net
News in English
Октябрь
2023

The murky world of AI training data sets exposed

0

A new study by the Data Provenance Initiative reveals troubling practices in creating and sharing data sets used to train artificial intelligence systems. These data sets are crucial for developing advanced AI capabilities, but many fail to properly credit sources or lack licensing information, raising legal and ethical concerns.

According to an Oct. 25 The Washington Post report, the research audited over 1,800 popular data sets from leading AI sites like Hugging Face, GitHub, and Papers With Code. Shockingly, around 70% did not specify licensing terms or mislabeled permissions compared to creators’ intentions. This leaves AI developers in the dark about potential copyright limitations or requirements when using these data sets — more information is needed.

“People couldn’t do the right thing, even if they wanted to,” said Sara Hooker, co-author of the report. The murky licensing demonstrates broader problems in the fast-paced world of AI development, where researchers feel pressure to skip steps like documenting sources as they rush to release new data sets.

Far-reaching consequences follow incorrect procedures regarding creators’ licensing terms and permissions

The implications are far-reaching, as these data sets power advanced AI systems like chatbots and language models, including Meta’s Llama and OpenAI’s GPT models. Tech giants face lawsuits over text scraped from books and websites without permission. Critics argue AI companies should pay sources like Reddit for their data, but licensing issues create roadblocks.

Behind the scenes, AI researchers “launder” data by obscuring origins, trying to eliminate restrictions. Leading AI labs reportedly prohibit re-using their models’ outputs for competing AIs but allow some noncommercial uses. However, proper licensing documentation is lacking.

The study aimed to peer inside this opaque ecosystem fueling the AI gold rush. The interactive tools don’t dictate policies but help inform developers, lawyers, and policymakers. Analysis revealed most data comes from academia, with Wikipedia and Reddit as top sources. However, data representing Global South languages still comes mainly from North American and European creators and websites.

“Data set creation is typically the least glorified part of the research cycle and deserves attribution because it takes so much work,” said Hooker. The research moves toward more transparent and ethical AI by highlighting the need for better practices. But profound work remains to illuminate the dark side of data fueling AI’s relentless march into the future.

Featured Image Credit: Photo by Shuki Harel; Pexels; Thank you!

The post The murky world of AI training data sets exposed appeared first on ReadWrite.








Дочь Джонни Деппа опубликовала фото в прозрачном наряде

Коллекция Maison Margiela осень-зима 2025/26

Забайкальский филиал "ЛокоТех-Сервис" показал уверенный рост в первом полугодии

Слушатели ENERGY отправятся на «Пикник Афиши» в Петербурге


AI and robots can help the world grow more food—even if they’re still not quite as good as a human farmer

Nvidia’s Jensen Huang hauled before China’s cyber cops to explain ‘backdoor safety risks’ in H20 chips

All the news from Nintendo’s July 2025 Direct showcase

'Not ready for prime time': Trump, Republicans slam GOP leader's stock trade ban bill


Сегодня без рыбалки...

Стали известны подробности убийства детского тренера под Екатеринбургом

Олеся Шергина из Екатеринбурга взошла на Эльбрус: история смелости, вдохновения и преодоления девушки с протезом

На мосту-парус завершается бетонирование подпорных стен


Разработчики The Seven Deadly Sins: Origin ответили на частые вопросы игроков

«Деньги не пахнут»: Как Blox World наживается на доверии игроков Roblox

Color Maze Adventure 2.0.0

If you'd like to see Meta's AI gunk purged from WhatsApp, a new antitrust investigation in Italy might just do the trick



«ЛокоТех» проводит комплексную оценку знаний специалистов службы качества

В Корпоративном университете «ЛокоТех» за первое полугодие 2025 года обучено более 2500 человек и создано 8 новых программ

Забайкальский филиал "ЛокоТех-Сервис" показал уверенный рост в первом полугодии

Сооружения сервисного участка «Свердловск-Пассажирский» стали арт-объектом


В Корпоративном университете «ЛокоТех» за первое полугодие 2025 года обучено более 2500 человек и создано 8 новых программ

На Крымском мосту восстановили движение автотранспорта

Олеся Шергина из Екатеринбурга взошла на Эльбрус: история смелости, вдохновения и преодоления девушки с протезом

"Будьте начеку": проводники рассказали, как пассажиры ухитряются тащить чужие вещи


В Благовещенске и Хэйхэ проходит международный заплыв «Дружба»

Теракт в "Крокус Сити Холле": террористу перевели 2 млн рублей перед атакой

Говырин рассказал, на какую пенсию можно рассчитывать, если не работать

Военкор Стешин: интерес к Волге — тревожный звонок для России из Средней Азии


Сафиуллин проиграл Рууду во втором круге турнира ATP в Торонто

Мирра Андреева получила травму в матче турнира WTA в Монреале

Рахимова и Блинкова вышли во второй круг турнира WTA в Монреале

Медведев прошёл в третий круг турнира ATP в Торонто, обыграв Сврчину


Пенсии в 2025: социальные выплаты достигнут 15 000 рублей для неработающих

Трамп: Індія та росія — «мертві економіки»

В Благовещенске и Хэйхэ проходит международный заплыв «Дружба»

Теракт в "Крокус Сити Холле": террористу перевели 2 млн рублей перед атакой


Музыкальные новости

Гамлет, Депп и «Кадиллак»: Найк Борзов создал гимн-мантру о Москве

«Шаляпин-фестиваль» пройдет в Подмосковье в начале августа

Бутман заявил, что эмигрировавшие из России люди не осознают текущую ситуацию в стране

Асият Сайгидова: Психолог после сотрудничества с Shaman в "Князь Владимир"


Забайкальский филиал "ЛокоТех-Сервис" показал уверенный рост в первом полугодии

Сооружения сервисного участка «Свердловск-Пассажирский» стали арт-объектом

BMW: важна каждая деталь

В Корпоративном университете «ЛокоТех» за первое полугодие 2025 года обучено более 2500 человек и создано 8 новых программ


Спартак» Обыграл «Ростов» 2:0: Победа в Кубке России на «Ростов-Арене

Желдорреммаш подводит итоги работы за первое полугодие 2025 года

Россия не одна. Против коллективного Запада встают другие страны: Пока заочно

Приезжала к Малахову. Умерла Майра Розалес — самая толстая в мире женщина


В Москве росгвардейцы задержали курьера, подозреваемого в краже техники

В Подмосковье на видео сняли, как мужчины пытались перевернуть авто после ДТП

Женщина-пешеход погибла при столкновении двух машин в Ясенево

BMW: важна каждая деталь


Путин выразил приветствие участникам фестиваля «Таврида-АРТ»

Трамп встречает Иванку, Не Москва, 1987

Путин поручил оптимизировать строительство высокоскоростной магистрали Москва — Петербург

В Севастополе кинотеатр "Россия" превратят в филиал Национального центра по поручению Путина


Исследование показывает зависимость между темпами развития COVID-19 и уровнем смертности

Руководитель РФПИ охарактеризовал переписку фон дер Ляйен с Pfizer как позорный инцидент

NYT сообщает, что ЕК не сохранила переписку фон дер Ляйен с руководством Pfizer



Врач-косметолог Зухра Балакеримова: какие косметологические процедуры стоит сделать именно летом

Объявлена процедура получения налогового вычета за медицинские услуги

В столичном главке Росгвардии оттачивают навыки тактической медицины на инструкторско-медицинских сборах

Пластический хирург Софья Абдулаева: как используют собственный жир для омоложения лица


«Хромая утка» Зеленский с ужасом ждет «майдана вдов» и бунта военных – нардеп Рады

Путин: если Киев считает, что сейчас не время для переговоров, Москва готова ждать

Огромный забор и бомбоубежища: что известно о резиденции Зеленского под Киевом

Президент Польши Навроцкий потребовал от Зеленского изменить историческую политику Киева


Точно в цель – топ-3 гольф-клубов в окружении «Москва-Сити»

Сотрудники Минпросвещения и «Артека», педагоги, наставники и тренеры отмечены высокими наградами

Мероприятия в рамках акции «Каникулы с Росгвардией» проходят в регионах Центральной России

Викторины и квесты пройдут на столичной ВДНХ в честь 86-летия выставки


Путин и Лукашенко встретятся для переговоров на Валааме

Лукашенко: никому не удастся поставить Минск и Москву на колени

Путин и Лукашенко соберутся на неформальные переговоры

Путин и Лукашенко беседуют в окружении белорусского шпица


Собянин: 23 ученика столичных 5–7-х классов стали победителями «Большой перемены»

Собянин: 220 тыс. семей переезжают в новые дома по программе реновации Москвы

Собянин поздравил победителей конкурса «Большая перемена»

Собянин: 220 тыс. москвичей получили жилье или готовятся к переезду по реновации


Жители Первомайского района «одобрили» строительство мусорного завода, хотя власти все еще в «раздумьях»

Московский зоопарк ищет неродственную "невесту" для манула Тимоши

В России за сутки ликвидировано 66 лесных пожаров

Казахстан положил глаз на Волгу: Россия когда-то отказала, но Астана нашла обходной путь


Депутат назвал минимальную выплату неработающим пенсионерам в 2025 году

В Благовещенске и Хэйхэ проходит международный заплыв «Дружба»

Трамп заявил, что Индия откажется от российской нефти ради сделки с США

Трамп: Індія та росія — «мертві економіки»


В администрации Нарьян-Мара обнаружены следы коррупции

Заболевание клещевым энцефалитом в Подмосковье: 10,5 тыс. случаев укусов

В администрации муниципального образования «Городской округ «Город Нарьян-Мар» выявлены нарушения законодательства о противодействии коррупции

В Красногорске дали старт строительству тоннеля от будущей станции метро «Липовая роща»


Цены на новостройки в июле 2025 года: Севастополь лидирует, Симферополь чуть отстаёт

Инфраструктура новостроек: что важно для комфортной жизни

Правительство РФ планирует приватизировать известные ликеро-водочные заводы

Как выбрать надежного застройщика: советы покупателям


Фестиваль, посвященный Максиму Горькому, пройдет в Москве

Сколько в августе стоят билеты на поезд из Ярославля в Москву, Петербург и Анапу

Посол США в Израиле удалил пост о симпатии жителей Газы к Трампу

Дельфин, 7 августа, Summer Sound x билайн (Дизайн-завод)














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *