Добавить новость
smi24.net
News in English
Апрель
2024

AI giants like OpenAI and Anthropic are scrambling to get their hands on enough data to train models

0
AI giants like OpenAI and Anthropic struggle to find high-quality training data for their AI models, the Journal reported.
  • OpenAI, Anthropic, and other AI firms are running out of quality data for training their models.
  • The could impede AI development as companies race to build the best products in the booming space.
  • Companies are now exploring other ways to train AI, like using synthetic data, per the Journal. 

Companies like OpenAI and Anthropic are scrambling to get their hands on one of AI's most valuable resources: reliable data. That deficit could hinder the development of large language models that power their chatbots as the race to build the best products in the growing sector intensifies.

Typically, OpenAI's ChatGPT and its chatbot competitors are trained on troves of information like scientific papers, news articles, and Wikipedia posts scraped from the web to generate human-like responses. The higher the quality and greater the trustworthiness of the data these models use, the more capable they are of producing accurate, desirable outputs, or so the theory goes.

Based on that, a shortage could make it harder for companies to make their AI products smarter. And there's more than a 50% chance that the demand for high-quality data will surpass the supply of available training material by 2028, Pablo Villalobos, an AI expert at research firm Epoch, told the Wall Street Journal.

So, why do tech firms appear to be scrambling for reliable information?

Firstly, only a slice of online data is generally suitable for AI training. That's because most public information on the web contains sentence fragments and other textual flaws that can prevent AI from producing conversational responses. The lack of usable data is compounded by the slew of already AI-generated text on the internet that can pollute a model with nonsense — a process experts call "model collapse."

On top of that, major news outlets, social-media platforms, and other public sources of information have restricted access to their content for training AI over concerns around copyright, privacy, and fair compensation. People, too, don't seem keen on making their iMessage conversations and other private text data accessible for training purposes.

That's leaving companies scrambling to find new data sources to beef up their tools. OpenAI, for instance, is discussing training GPT-5, which would be its most advanced model, on YouTube video transcripts, sources told the Journal.

OpenAI has also discussed creating a data market where providers can get paid for content that the company considers valuable for model training, sources familiar with the matter told the Journal. Google is reportedly considering a similar method, per the Journal, though researchers have yet to build a system to carry it out properly.

Other firms are experimenting with what they call synthetic data to further their models. Anthropic has fed internally generated data into its AI chatbot family Claude, Jared Kaplan, chief scientist at the startup, said in an October 2023 Bloomberg interview. OpenAI, which created ChatGPT, is also looking into that tactic, a spokesperson told the Journal.

Concerns around data scarcity come as users complain about the quality of AI chatbots.

Some users of GPT-4, OpenAI's most advanced model behind ChatGPT, claim they've encountered problems getting the bot to follow instructions and respond to queries. Google paused its AI image generation feature on its model Gemini after users complained it produced historically inaccurate pictures of US presidents. AI models are generally prone to hallucinating false information they deem accurate.

While companies figure out how to continue training their models, some seem open to limiting the size of their AI in the meantime.

"I think we're at the end of the era where it's going to be these giant, giant models," Sam Altman, the CEO of OpenAI, said at an MIT conference event in 2023. "And we'll make them better in other ways."

OpenAI and Google didn't immediately respond to a request for comment from Business Insider before publication. Anthropic declined to comment.

Read the original article on Business Insider







Из 90-х в люкс: Татьяна Буланова подняла гонорар до 2 миллионов из-за любви зумеров

Когда профессионализм равно безопасность: сеть клиник «Будь Здоров» оказала поддержку участникам «Суворовского трейла»

Летние каникулы в духе патриотизма

Вы никогда не постареете, если научитесь носить эти вещи правильно


Son Of British Boxing Legend Retires From The Sport Aged Just 24: “Won’t Be Fighting Again”

Trump's cuts force Texas food banks to ration supplies for flood survivors

First confirmed death during Trump ICE raid is a farmworkers at a California cannabis facility

Dow futures sink as Trump keeps pushing tariffs while White House suggests Powell’s job could be at risk


Каршеринг BelkaCar запустил новый сезон проекта «Умные путешествия»

В Курской области мужчину осудили за угрозу убийством матери

Клинический психолог Юлия Тарибо: каким типам личностей сложно было вместе

«Искуситель», «Актриса» и «Пиковая дама»: топ 3 спектаклей сентября


Гайд на Fuqiu из Etheria Restart: навыки, PvE-билд, расклад в PvP и дубликаты

I've swapped modern live service games for a browser game that's been running since 2009

MMORPG Lord Nine: Infinite Class выпустят в Юго-Восточной Азии 31 июля

Those shadow giants in the distance in Elden Ring Nightreign are over 2 miles tall⁠—almost as big as the Erdtree⁠—and nobody even mentions them in the game



Врач-офтальмолог Элина Санторо: как выбрать идеальные солнцезащитные очки

Клинический психолог Юлия Тарибо: каким типам личностей сложно было вместе

Ольга Романив: как вести себя с мужчиной, который нравится

Косметолог Наталья Рябинова: в чем разница между эстетическим и медицинским трихологом


«Турбозавры» поучаствовали в Дне московского транспорта

Жители Прикамья активно покупают билеты на транспорт в отделениях Почты России

Врач-офтальмолог Элина Санторо: как выбрать идеальные солнцезащитные очки

В Крыму в шестой раз прошел фестиваль семейного кино "ВОТЭТОФИЛЬМ"


Франция предупредила о риске крупного конфликта в Европе к 2030 году

В Подмосковье за один вечер молнии три раза ударили в дома

«Сила в команде»: судебные приставы Кузбасса приняли участие во всероссийских хоккейных соревнованиях среди силовиков

АвтоВАЗ отгружает Lada Iskra дилерам. Цены объявят на этой неделе


«Гордимся!»: Рустам Минниханов отметил успех Вероники Кудерметовой на Уимблдоне

Минниханов о победе Кудерметовой на Уимблдоне: мы гордимся!

Медведев стал обладателем Кубка короля в Испании.

Теннистка Кудерметова впервые в карьере выиграла Уимблдон в парном разряде


Франция предупредила о риске крупного конфликта в Европе к 2030 году

АвтоВАЗ отгружает Lada Iskra дилерам. Цены объявят на этой неделе

«Союз-Аполлон» — вторая встреча над Эльбой. А можем повторить?

Проверить стыковку и показать «разрядку»: полвека назад началась советско-американская миссия «Союз» — «Аполлон»


Музыкальные новости

Жена Басты унизила поклонницу мужа, которой не понравился его концерт: «К цифровой проституции отношусь плохо»

Волочкова отказалась выступать с Штурм: «Я балерина, а не певица»

Эксперт оценил стоимость американской недвижимости Орбакайте: миллионы долларов

Жена Басты жёстко ответила недовольной фанатке


Клинический психолог Юлия Тарибо: каким типам личностей сложно было вместе

Врач-офтальмолог Элина Санторо: как выбрать идеальные солнцезащитные очки

Ольга Романив: как вести себя с мужчиной, который нравится

Косметолог Наталья Рябинова: в чем разница между эстетическим и медицинским трихологом


КАМАЗ-4280 начал тестовую эксплуатацию на маршруте в Подмосковье

Конкурс юных певцов Елены Образцовой объявил победителей

«Спартак» продлил контракт с люксембургским футболистом Мартинсом

«Вас ждут драки с эффектными падениями и вылеты из машин». Криминальная экшн-комедия «Инкассаторы» выходит на ТНТ уже сегодня


Красные арки, синяя подсветка. В Москве строят новые пешеходные мосты

Вскрытие без последствий – сервис «Спас-замков»

КАМАЗ-4280 начал тестовую эксплуатацию на маршруте в Подмосковье

СМИ: Байкер разбился насмерть в ДТП с машиной на Раменской пойме в Подмосковье


"Пока Путин не заметит это безобразие": Пономарев резко высказался о легионерах в РПЛ

В РФ раскрыли замысел Трампа после его попыток шантажировать Путина

В США сделали смелое заявление в отношении Путина.

Посол Акира Муто: Япония будет приветствовать возможную встречу Путина и Трампа




Клинический психолог Юлия Тарибо: каким типам личностей сложно было вместе

Травмированного на репетиции в цирке Москвы акробата выписали из больницы

Косметолог Наталья Рябинова: в чем разница между эстетическим и медицинским трихологом

Врач-трихолог Мадина Осман: как часто можно делать пересадку волос


ВСУ атаковали дронами женщин под Сумами: Били за надпись "Мы русские"


"Пока Путин не заметит это безобразие": Пономарев резко высказался о легионерах в РПЛ

Росгвардейцы из Чеченской Республики стали победителями и призерами чемпионата Северо-Кавказского округа Росгвардии по комплексному единоборству

Раскрыто расписание Олимпийских игр 2028 года в Лос-Анджелесе.

Травмированного на репетиции в цирке Москвы акробата выписали из больницы


«Нам в Минске надо учиться». Лукашенко похвалил Беглова за зимнюю уборку Петербурга

Петербургская делегация провела переговоры с президентом Беларуси в Минске

Лукашенко заявил о необходимости проверки чиновников за манипуляции с ценами.

Лукашенко встретился в Минске с делегацией Петербурга для обсуждения сотрудничества


Собянин встретился с новоселами дома по реновации в Хорошево-Мневниках

Сергей Собянин: Взяли курс на развитие высокотехнологичного сектора

Сергей Собянин: В Москве появятся три новых пешеходных моста к 2027 году

Сергей Собянин: роботы и электромашины на страже московских улиц


Spark.ru - экосистема, объединяющая представителей бизнеса, экспертов и инвесторов

РЭО запускает акселератор для экологических центров на базе Плехановского университета

РЭО проведет акселератор для экоцентров на базе Плехановского университета

Платформа Spark.ru - полезное пространство для представителей малого и среднего бизнеса


Франция предупредила о риске крупного конфликта в Европе к 2030 году

В Подмосковье за один вечер молнии три раза ударили в дома

АвтоВАЗ отгружает Lada Iskra дилерам. Цены объявят на этой неделе

В Москве мужчина ограбил магазин на АЗС, угрожая пистолетом


Фестиваль духовых оркестров пройдет в трех городах Поморья по случаю Дня ВМФ

Защищённый планшет Saotron RT-W11J на базе ОС Windows10

Беспроводной сканер штрих-кодов SAOTRON P05i промышленного класса

Алтайский край оказался в числе регионов-аутсайдеров по доступности вторичного жилья


Под Симферополем горят десятки гектаров леса

Симферополь частично остался без света утром 14 июля

Десятки улиц Симферополя остались без света 14 июля

Феодосия получила 150 миллионов на ремонты дворов - где начнут работы


Франция предупредила о риске крупного конфликта в Европе к 2030 году

Апелляция: Экс-замминистра обороны Иванов и растрата 3,9 млрд рублей

«Турбозавры» поучаствовали в Дне московского транспорта

АвтоВАЗ отгружает Lada Iskra дилерам. Цены объявят на этой неделе














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *