Добавить новость
smi24.net
News in English
Июль
2023

Generative AI tools are quickly 'running out of text' to train themselves on, UC Berkeley professor warns

0
OpenAI's ChatGPT is among many chatbots trained on large language models that may be "running out of text" to train on, said Stuart Russell, a computer science professor at the University of California, Berkeley.
  • A Berkeley professor said AI developers are "running out of text" to train chatbots at a UN summit.
  • He added that AI's strategy behind training large language models is "starting to hit a brick wall."
  • It's the latest concern raised regarding OpenAI and other AI developers' data-collection practices.

ChatGPT and other AI-powered bots may soon be "running out of text in the universe" that trains them to know what to say, an artificial intelligence expert and professor at the University of California, Berkeley says.

Stuart Russell said that the technology that hoovers up mountains of text to train artificial intelligence bots like ChatGPT is "starting to hit a brick wall." In other words, there's only so much digital text for these bots to ingest, he told an interviewer last week from the International Telecommunication Union, a UN communications agency.

This may impact the way generative AI developers collect data and train their technologies in the coming years, but Russell still thinks AI will replace humans in many jobs that he characterized in the interview as "language in, language out."

Russell's predictions widen the growing spotlight being shone in recent weeks on the data harvesting conducted by OpenAI and other generative AI developers to train large language models, or LLMs.

The data-collection practices integral to ChatGPT and other chatbots are facing increased scrutiny, including from creatives concerned about their work being replicated without their consent and from social media executives disgruntled that their platforms' data is being used freely. But Russell's insights point toward another potential vulnerability: the shortage of text to train these datasets.

A study conducted last November by Epoch, a group of AI researchers, estimated that machine learning datasets will likely deplete all "high-quality language data" before 2026. Language data in "high-quality" sets comes from sources such as "books, news articles, scientific papers, Wikipedia, and filtered web content," according to the study.

The LLMs powering today's most popular generative AI tools were trained on massive amounts of published text culled from public online sources, including from digital news sources and social media sites. The "data scraping" of the latter is what drove Elon Musk to limit how many tweets users can view daily, he's said.

In an email to Insider, Russell said many reports, although unconfirmed, have detailed that OpenAI, the company behind ChatGPT, purchased text datasets from private sources. Russell added that while there are possible explanations for such a purchase, "the natural inference is that there isn't enough high-quality public data left."

OpenAI did not immediately respond to a request for comment ahead of publication.

Russell said in the interview that OpenAI, in particular, had to have "supplemented" its public language data with "private archive sources" to create GPT-4, the company's strongest and most advanced AI model to date. But he acknowledged in the email to Insider that OpenAI has yet to detail GPT-4's exact training datasets.

Several lawsuits filed against OpenAI in the past few weeks allege the company used datasets containing personal data and copyrighted materials to train ChatGPT. Among the biggest was a 157-page lawsuit filed by 16 unnamed plaintiffs, who claim OpenAI used sensitive data such as private conversations and medical records.

The latest legal challenge, presented by lawyers for comedian Sarah Silverman and two additional authors, accused OpenAI of copyright infringement due to ChatGPT's ability to write up accurate summaries of their work. Two additional authors, Mona Awad and Paul Tremblay, filed a lawsuit against OpenAI in late June that makes similar allegations.

OpenAI has not made any public comments on the slate of lawsuits filed against it. Its CEO Sam Altman has also refrained from discussing the allegations, but in the past has expressed a desire to avoid legal troubles. 

At a June tech conference in Abu Dhabi, Altman told the audience he had no plans to issue an IPO for OpenAI, reasoning that the company's unorthodox structure and decision-making could lead to clashes with investors.

"I don't really want to be like sued by a bunch of like public market, Wall Street whatevers," Altman said.

 

Read the original article on Business Insider







Коллекция Marc Jacobs осень-зима 2025/26

Ольга Романив: как вести себя с мужчиной, который нравится

Друг ведущего Дроздова рассказал о курсе уколов, который тот проходит

Психолог Зберовский заявил, что расставание может помочь преодолеть зависимость


First confirmed death during Trump ICE raid is a farmworkers at a California cannabis facility

Trump's cuts force Texas food banks to ration supplies for flood survivors

Son Of British Boxing Legend Retires From The Sport Aged Just 24: “Won’t Be Fighting Again”

ICE is 'supercharging detention' with 'flagrantly unlawful' policy: lawyers


Клинический психолог Юлия Тарибо: каким типам личностей сложно было вместе

Вот билет на контент, на эксплойт билетов нет

The sun of the North

В Курской области установился 3-й класс пожарной опасности


Гайд на Fuqiu из Etheria Restart: навыки, PvE-билд, расклад в PvP и дубликаты

The Expanse RPG's developers are 'humbled' by comparisons to BioWare's heyday, but don't expect it to be a straight Mass Effect clone: 'We make our story a little bit differently'

MMORPG Lord Nine: Infinite Class выпустят в Юго-Восточной Азии 31 июля

Those shadow giants in the distance in Elden Ring Nightreign are over 2 miles tall⁠—almost as big as the Erdtree⁠—and nobody even mentions them in the game



Росгвардейцы из Чеченской Республики стали победителями и призерами чемпионата Северо-Кавказского округа Росгвардии по комплексному единоборству

Пора пригласить певца A.SERGIO для участия в теле- и радиопрограммах, подкастах и шоу!

Косметолог Наталья Рябинова: в чем разница между эстетическим и медицинским трихологом

Вот билет на контент, на эксплойт билетов нет


Участники «Активного гражданина» выбрали лучшую заправку для окрошки

«Сила в команде»: судебные приставы Кузбасса приняли участие во всероссийских хоккейных соревнованиях среди силовиков

Врач-офтальмолог Элина Санторо: как выбрать идеальные солнцезащитные очки

Росгвардейцы из Чеченской Республики стали победителями и призерами чемпионата Северо-Кавказского округа Росгвардии по комплексному единоборству


На озере в Красноармейском округе пропала женщина

В Городском округе Пушкинский в образовательных комплексах полным ходом идёт подготовка к новому учебному году

Москва. Красота Храма Василия Блаженного

Юрист Хаминский назвал возможных наследников режиссёра Юрия Мороза


Минниханов о победе Кудерметовой на Уимблдоне: мы гордимся!

Подмосковный теннисист стал призером юниорского Уимблдона

Синнер завоевал титул на Уимблдоне, победив Алькараса.

Тарпищев объяснил причины неудачного выступления Анисимовой против Швентек.


В Подмосковье за один вечер молнии три раза ударили в дома

Юрист Хаминский назвал возможных наследников режиссёра Юрия Мороза

ЛДПР предложила установить минимальные закупочные цены на говядину и баранину

Красные арки, синяя подсветка. В Москве строят новые пешеходные мосты


Музыкальные новости

Во славу Игоря Стравинского: Большой и Мариинский театры показали вечер балетных реконструкций

Музыканты поделились чувствами после прощального концерта Оззи Осборна

Суд Петербурга начал административное дело против группы «Порнофильмы»

Создание Ремикса. Создание ремикса музыки. Создание хитовых ремиксов музыки.


Косметолог Наталья Рябинова: в чем разница между эстетическим и медицинским трихологом

Врач-офтальмолог Элина Санторо: как выбрать идеальные солнцезащитные очки

Пора пригласить певца A.SERGIO для участия в теле- и радиопрограммах, подкастах и шоу!

Вот билет на контент, на эксплойт билетов нет


Ремикс Песни. Создание ремикса Песни. Создание Хитового ремикса песни.

Правительство РФ спишет задолженность по бюджетным кредитам еще 25 регионам на общую сумму 43 млрд рублей, сообщил премьер-министр Михаил Мишустин на совещании с вице-премьерами

У пятилетнего Макара вторая степень тугоухости

Кабинет Артиста в Яндекс. Кабинет Артиста в Яндекс Музыке.


Вскрытие без последствий – сервис «Спас-замков»

КАМАЗ-4280 начал тестовую эксплуатацию на маршруте в Подмосковье

В Москве мужчина ограбил магазин на АЗС, угрожая пистолетом

Красные арки, синяя подсветка. В Москве строят новые пешеходные мосты


В РФ раскрыли замысел Трампа после его попыток шантажировать Путина

Посол Акира Муто: Япония будет приветствовать возможную встречу Путина и Трампа

В США сделали смелое заявление в отношении Путина.

"Пока Путин не заметит это безобразие": Пономарев резко высказался о легионерах в РПЛ




Косметолог Наталья Рябинова: в чем разница между эстетическим и медицинским трихологом

Клинический психолог Юлия Тарибо: каким типам личностей сложно было вместе

Травмированного на репетиции в цирке Москвы акробата выписали из больницы

Врач-трихолог Мадина Осман: как часто можно делать пересадку волос


ВСУ атаковали дронами женщин под Сумами: Били за надпись "Мы русские"


"Пока Путин не заметит это безобразие": Пономарев резко высказался о легионерах в РПЛ

Травмированного на репетиции в цирке Москвы акробата выписали из больницы

Росгвардейцы из Чеченской Республики стали победителями и призерами чемпионата Северо-Кавказского округа Росгвардии по комплексному единоборству

Раскрыто расписание Олимпийских игр 2028 года в Лос-Анджелесе.


Лукашенко предложил Петербургу ремонтировать всю белорусскую технику

«Нам в Минске надо учиться». Лукашенко похвалил Беглова за зимнюю уборку Петербурга

Петербургская делегация провела переговоры с президентом Беларуси в Минске

Лукашенко заявил о необходимости проверки чиновников за манипуляции с ценами.


Сергей Собянин: роботы и электромашины на страже московских улиц

Сергей Собянин: В Москве появятся три новых пешеходных моста к 2027 году


Губернатор Андрей Бочаров принимает участие в образовательной программе Сбера

Позднякова: температура в Москве останется выше климатической нормы

ГК «АСНА» внедрила систему продвинутой аналитики «Дельта BI»

РЭО проведет акселератор для экоцентров на базе Плехановского университета


Ливень, гроза, град и ветер: москвичей предупредили о непогоде до утра вторника

«Динамо» ведёт переговоры о переходе Рубенса из «Атлетико Минейро»

Красные арки, синяя подсветка. В Москве строят новые пешеходные мосты

«Сила в команде»: судебные приставы Кузбасса приняли участие во всероссийских хоккейных соревнованиях среди силовиков


Беспроводной сканер штрих-кодов SAOTRON P05i промышленного класса

Фестиваль духовых оркестров пройдет в трех городах Поморья по случаю Дня ВМФ

Алтайский край оказался в числе регионов-аутсайдеров по доступности вторичного жилья

В городе Барнауле стартовал третий этап смотра-конкурса на звание "Лучшее звено газодымозащитной службы" среди Главных управлений МЧС России


Крыму и еще 24 регионам России спишут долги на миллиарды рублей

Под Симферополем горят десятки гектаров леса

Симферополь частично остался без света утром 14 июля

Феодосия получила 150 миллионов на ремонты дворов - где начнут работы


Татарстан вошел в число лидеров по количеству заявок на конкурс брендов «Знай наших»

Многим рискует: юрист сказал, как сидит «золотой» экс-полковник Захарченко

В Городском округе Пушкинский в образовательных комплексах полным ходом идёт подготовка к новому учебному году

Γpуɜинcκий пοлитиκ: Βce ɜдpaвοмыcлящиe xοтят вepнутьcя в eдинοe пpοcтpaнcтвο c Ροccиeй














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *