Добавить новость
smi24.net
News in English
Июль
2023

Llama copyright drama: Meta stops disclosing what data it uses to train the company's giant AI models

0
Meta CEO Mark Zuckerberg.
  • Meta released a huge new AI model called Llama 2 on Tuesday. 
  • The company didn't disclose what training data was used to train Llama 2. 
  • That's unusual. The AI industry typically shares many details of AI training data sets.

A major battle is brewing over generative AI and copyright. Publishers want to be paid if their work has been used to train large language models. Big tech companies would rather not pay. 

One way to avoid the issue is to just not tell anyone what data you used to train your AI model. Meta seems to be trying that tactic. 

On Tuesday, the social-media giant release a massive new model called Llama 2. The research paper shares very little about what data was used. 

"A new mix of publicly available online data," Meta researchers wrote in the paper. That's basically it. 

This is unusual. Until now, the AI industry has been open about the training data used for models. There's a reason: This powerful technology must be understood, and its outputs must be as explainable and traceable as possible, so that if something goes wrong researchers can go back and fix things. Training data is key to how these model perform.

Take a look at the original Transformer research paper that kicked off the Generative AI boom. Those researchers disclosed granular information on the training data used. It included about 40,000 sentences from The Wall Street Journal. (Rupert Murdoch, did you know??)

When Meta released the first version of LLaMA in February, that research paper listed all its training data in a table and detailed paragraphs. It included a bunch of books and the Common Crawl data set, which is a humongous copy of the internet, amassed since 2008 and stored on Amazon's cloud, ready to download any time. That last data set made up more than two-thirds of the information Meta used to train LLaMA. 

So what changed in the past five months?

Publishers, authors, and other creators have suddenly realized their work is being used to train all these AI models. Were they asked for permission? No. Will Big Tech companies get away with this? Maybe. 

A slew of lawsuits are already challenging tech companies' right to use this information for AI model training. Sarah Silverman's complaint is probably the most famous so far. 

New risk factors

Big Tech companies know this is a risk. Microsoft, backer of industry leader OpenAI, added this risk factor to its quarterly SEC filing recently. I've bolded the new parts that Microsoft lawyers added in April.

"AI algorithms or training methodologies may be flawed," Microsoft wrote. "As a result of these and other challenges associated with innovative technologies, our implementation of AI systems could subject us to competitive harm, regulatory action, legal liability, including under new proposed legislation regulating AI in jurisdictions such as the European Union ("EU"), new applications of existing data protection, privacy, intellectual property, and other laws, and brand or reputational harm." (Copyright is an important part of intellectual property law.)

Google, another AI leader, does not like to pay for online content as this would undermine its highly profitable business model. The company's top lawyer Halimah DeLaine Prado has said US law "supports using public information to create new beneficial uses." This argument might prevail in court. 

Why Meta doesn't want to reveal the data it used

Meanwhile, Meta seems to have decided that not telling anyone what data it uses is a safe move until this fascinating new legal issue is decided.

To be sure, there are probably other reasons for Meta's reticence here. Sharon Zhou, CEO of of the startup Lamini AI, laid out some theories to me, starting with the most controversial:

  • Meta is avoiding legal repercussions
  • The company wants to keep the ability to replicate Llama 2 to itself
  • More realistic, less spicy: It's a lot of work to get all the metadata in order, so Meta will probably release the training data details at some point when it's ready 

I asked Meta about this, and a spokesperson shared the following statement. 

"We believe developers will have plenty to work with as we release our model weights and starting code for pretrained and conversational fine-tuned versions as well as responsible use resources. While data mixes are intentionally withheld for competitive reasons, all models have gone through Meta's internal Privacy Review process to ensure responsible data usage in building our products. We are dedicated to the responsible and ethical development of our genAI products, ensuring our policies reflect diverse contexts and meet evolving societal expectations."

Read the original article on Business Insider







Создана программа для определения биологического возраста человека

Какие анализы покажут скрытую аллергию на молочные продукты

Shot: певец Игорь Николаев отсудил у предпринимательницы из Уфы 25 тысяч рублей

«И тут я узнала, что встретила бабника». Александр Златопольский раскрыл своё романтическое прошлое Анфисе Чеховой


“Brilliant deal” – Former player claims Arsenal are about to pull off THE signing of the summer

'Digging in': Man Utd lower price by £20m for player with club advancing in talks

Jannat Zubair sparks fallout rumours after unfollowing close friend Apoorva Mukhija on social media; read deets

'He was better than Sachin ... ': Kambli's brother makes big revelation


Осенний вечер

Ранняя диагностика меланомы: почему это важно для жителей Челябинской области

Вечер в Хибинах

В Орле легковушка сбила школьницу на велосипеде


Block Fortress 2 выйдет на iOS в середине сентября

'I hope all your cars break down': Destiny players bid good riddance to departing Bungie CEO Pete Parsons in a rare moment of unity

Разработчики Marvel Rivals объяснили работу матчмейкинга

Bungie CEO Pete Parsons retires: With Destiny 2 sentiment at an all-time low and pressure from Sony growing, Parsons has decided it's time to 'pass the torch' and head for an exit



Прощание в Юрием Бутусовым пройдет 23 августа в Москве, похороны – в Петербурге

Аэрокосмическая долина представила потенциал кооперации на Всемирном форуме в Москве

Невидимая угроза: биоплёнки и странный протест у памятников

Прослушивания Яндекс Музыка.


Путин: восстановление отношений России и США зависит прежде всего от Запада

Государственный музей имени Пушкина примет модные события недели

Горячий дуэт: Жасмин и Ariel Abramov представили зажигательный хит «Сердцу не прикажешь»

Ранняя диагностика меланомы: почему это важно для жителей Челябинской области


Кусает, но не больно: пауки-осы осваиваются в Татарстане

Сладков объяснил, почему советские знамена хранят потрепанными в отличие от фашистских

Какой праздник отмечают 23 августа в православии

Мать Пригожина раскрыла истинную причину мятежа: «Он был полон светлых мыслей»


Александрова обыграла Томлянович и вышла в четвертьфинал турнира WTA в Монтеррее

Селехметьева обыграла Шиманович и вышла в финал квалификации US Open

Серена Уильямс призналась, что принимает препарат для похудения

Александрова и Шнайдер вышли в полуфинал турнира WTA в Монтеррее


Сладков объяснил, почему советские знамена хранят потрепанными в отличие от фашистских

Какой праздник отмечают 23 августа в православии

Синоптики сообщили о дождливой и облачной погоде в Москве 23 августа

Михаил Леус: В Москве тепло, облачно, но без дождя


Музыкальные новости

Плюсы и минусы в жизни Тимати и Вали Ивановой после рождения ребенка

«Это у нас семейное»: открылись музыкальные задания от Игоря Бутмана и Дмитрия Маликова

Великий князь, Шаляпин и фирменные блюда: московский трактир Ивана Тестова, ставшим знаменитым на всю страну

Певица Алсу на «Новой волне» рассказала о семейных традициях и любви к татарской кухне


Невидимая угроза: биоплёнки и странный протест у памятников

Аэрокосмическая долина представила потенциал кооперации на Всемирном форуме в Москве

Прослушивания Яндекс Музыка.

Прощание в Юрием Бутусовым пройдет 23 августа в Москве, похороны – в Петербурге


SPA-программа «Детокс»: что это такое

В США обнародован протокол беседы Клинтона и Путина о приглашении России в НАТО

Представители Росгвардии почтили память погибших в Курской битве

Роскомнадзор: ограничений для Google Meet не вводилось на фоне жалоб пользователей


Задержаны подростки, которые зарабатывали до 500 тыс. на мойке авто на Патриарших

Водитель грузовика при движении задним ходом задавил человека на западе Москвы

В Москве грузовик насмерть придавил мужчину к воротам

В Москве росгвардейцы обеспечили безопасность автопробега, посвящённого Дню государственного флага


Путин: У России нет недружественных стран, только элиты

Путин сообщил об обсуждении с США сотрудничества на Аляске

Путин заявил об отсутствии у России недружественных стран




Ранняя диагностика меланомы: почему это важно для жителей Челябинской области

РИА Новости: в Москве умер журналист Кирилл Вышинский после тяжелой болезни


ТАСС: Кличко пытается заручиться поддержкой основателя «Азова» для борьбы с Зеленским


78.ru: в Кронштадте спасли подростков из Москвы, унесенных в залив

Россиянки в пятницу одержали две победы на юниорском ЧМ по велотреку

Тульские спортсменки заняли весь пьедестал в Москве

«Челси» обыграл «Вест Хэм» в лондонском дерби


Белоруссия готовит новый «подарок» НАТО


Сергей Собянин: в Москве появились два новых технопарка

Собянин пригласил москвичей на фестиваль «Вкусы России» на ВДНХ


Суд Москвы наложил арест на имущество экс-сотрудника Росприроднадзора Карабаша


Юрист Фролова: на блогершу Нелли Армани пожаловались в СК РФ

Горячий дуэт: Жасмин и Ariel Abramov представили зажигательный хит «Сердцу не прикажешь»

Гидрометцентр: остатки урагана «Эрин» способны вызвать потепление в России

Синоптики сообщили о дождливой и облачной погоде в Москве 23 августа


Решением суда по исковому заявлению прокуратуры в пользу многодетного отца с Федеральной службы судебных приставов взысканы убытки, причиненные незаконным бездействием

Молебен в честь преподобного Пимена Угрешского прошел в Балашихе

В Ненецком округе руководящие работники балуются откатами

«Два Алтая» вошли в федеральную программу по развитию въездного туризма


Саранскую телемачту в День флага России украсит 180-метровый световой триколор

Прогноз погоды в Крыму на 23 августа

Восемь поездов в Крым и обратно отстают от графика

Погода 22 августа: ночью до +14


Горячий дуэт: Жасмин и Ariel Abramov представили зажигательный хит «Сердцу не прикажешь»

Кусает, но не больно: пауки-осы осваиваются в Татарстане

Responsible Statecraft: гарантии безопасности нужны Москве, а не Киеву

В Улан-Удэ из Москвы приехал знаток кофе Константин Олзоев














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *