Добавить новость
smi24.net
News in English
Сентябрь
2024

Like digital locusts, OpenAI and Anthropic AI bots cause havoc and raise costs for websites

0
  • Edd Coates' Game UI Database was crippled by traffic from an OpenAI IP address.
  • AI companies are aggressively crawling the web, causing disruptions.
  • Website owners see cloud bills spike due to AI botnet traffic.

Edd Coates knew something was wrong. His online database was under attack.

Coates is a game designer and the creator of the Game UI Database. It's a labor of love for which he spent five years cataloging more than 56,000 screenshots of video game user interfaces. If you want to know what the health bar looks like in Fallout 3 and compare that to the inventory screen in Breath of the Wild, Coates has you covered.

A few weeks ago, he says, the website slowed to a crawl. It was taking 3 times as long to load pages, users were getting 502 Bad Gateway Errors, and the homepage was being reloaded 200 times a second.

"I assumed it was some sort of petty DDoS attack," Coates told Business Insider.

But when he checked the system logs, he realized the flood of traffic was coming from a single IP address owned by OpenAI.

In the race to build the world's most advanced AI, tech companies have fanned out across the web, releasing botnets like a plague of digital locusts to scour sites for anything they can use to fuel their voracious models.

It's often high quality training data they're after, but also other information that may help AI models understand the world. The race is on to collect as much information as possible before it runs out, or the rules change on what's acceptable.

One study estimated that the world's supply of usable AI training data could be depleted by 2032. The entire online corpus of recorded human experience may soon be inadequate to keep ChatGPT up to date.

A resource like the Game UI Database, where a human has already done the painstaking labor of cleaning and categorizing images, must have looked like an all-you-can-eat-buffet.

Bigger cloud bills

For small website owners with limited resources, the costs of playing host to swarm of hungry bots can present a significant burden.

"Within a space of 10 minutes we were transferring around 60 to 70 gigabytes of data," said Jay Peet, a fellow game designer who manages the servers that host the Coates' database. "Based on Amazon's on-demand bandwidth pricing that would cost $850 per day."

Coates makes no money from the Game UI Database and in fact operates the site at a loss, but he worries that the actions of giant AI companies may endanger independent creators who rely on their websites to make a living.

"The fact that OpenAI's behavior has crippled my website to the point where it stopped functioning is just the cherry on top," he said.

An OpenAI spokesperson said the company's bot was querying Coates' website roughly twice per second. The representative also stressed that OpenAI was crawling the site as part of an effort to understand the web's structure. It wasn't there to scrape data.

"We make it easy for web publishers to opt out of our ecosystem and express their preferences on how their sites and content work with our products," the spokesperson added. "We've also built systems to detect and moderate site load to be courteous and considerate web participants."

Planetary problems

Joshua Gross, founder of digital product studio Planetary, told BI that he encountered a similar problem after redesigning a website for one of his clients. Shortly after launch, traffic jumped and the client saw their cloud computing costs double from previous months.

"An audit of traffic logs revealed a significant amount of traffic from scraping bots," Gross said. "The problem was primarily Anthropic driving an overwhelming amount of nonsense traffic," he added, referring to repeated requests all resulting in 404 errors.

Jennifer Martinez, a spokesperson for Anthropic said the company strives to make sure its data-collection efforts are transparent and not intrusive or disruptive.

Eventually, Gross said, he was able to stem the deluge of traffic by updating the site's robots.txt code. Robots.txt is protocol, in use since the late 1990s, that lets bot crawlers know where they can and can't go. It is widely accepted as one of the unofficial rules of the web.

Blocking AI bots

Robots.txt restrictions aimed at AI companies have skyrocketed. One study found that between April 2023 and April 2024, nearly 5% of all online data and about 25% of the highest quality data added robots.txt restrictions for AI botnets.

The same study found that 25.9% of such restrictions were for OpenAI, compared to 13.3% for Anthropic, and 9.8% for Google. The authors also found that many data owners banned crawling in their Terms of Service, but did not have robots.txt restrictions in place. That has left them vulnerable to unwanted crawling from bots that rely solely on robots.txt.

OpenAI and Anthropic have said their bots respect robots.txt but BI has reported instances in the recent past in which both companies have bypassed the restrictions.

Key metrics polluted

David Senecal, a principal product architect for fraud and abuse at networking giant Akamai, says his firm tracks AI training botnets managed by Google, Microsoft, OpenAI, Anthropic, and others. He says among Akamai's users the bots are controversial.

"Website owners are generally fine with having their data indexed by web search engines like Googlebot or Bingbot," Senecal said, "however, some do not like the idea of their data being used to train a model."

He says some users complain about increased cloud costs or stability issues from the increased traffic. Others worry the botnets present intellectual property issues or will "pollute key metrics" like conversion rates.

When an AI bot is swarming your website over and over, your traffic metrics will likely be out of whack with reality. That's causes problems for sites that advertise online and need to track how effective this marketing is.

Senecal says robots.txt is still the best way to manage unwanted crawling and scraping, though it's an imperfect solution. It requires domain creators to know the specific names of every single bot they want to block, and it requires the bot operators to comply voluntarily. On top of that, Senecal says Akamai tracks various "impersonator" bots that parade as Anthropic or OpenAI web crawlers, making the task of parsing through them even harder.

In some cases, Senecal says, botnets will crawl an entire website every day just to see what's changed, a blunt approach that results in massive amounts of duplicated data.

"This way of collecting data is very wasteful," he said, "but until the mindset on data sharing changes and a more evolved and mature way to share data exists, scraping will remain the status quo."

"We are not Google"

Roberto Di Cosmo is the director of Software Heritage, a non-profit database created to "collect, preserve and share all publicly available source code for the benefit of society."

Di Cosmo says this past summer he saw an unprecedented surge in AI botnets scraping the online database, causing the website to become unresponsive for some users. His engineers spent hours identifying and blacklisting thousands of IP addresses that were driving the traffic, diverting resources away from other important tasks.

"We are not Google, we have a limited amount of resources to run this operation," Di Cosmo said.

He's an evangelist for open access, and not in theory opposed to AI companies using the database to train models. Software Heritage already has a partnership with Hugging Face, which used the database to help train its AI model StarCoder2.

"Developing machine-learning models that encompass these digital commons can democratize software creation, enabling a wider audience to benefit from the digital revolution, a goal that aligns with our values," Di Cosmo said, "but it must be done in a responsible way."

Software Heritage has published a set of principles governing how and when it agrees to share its data. All models created using the database must be open-source and not "monopolized for private gain." And the creators of the underlying code must be able to opt out if they wish.

"Sometimes, these people get the data anyway," Di Cosmo said, referring to botnets that scrape hundreds of billions of web pages one by one.

Getting taken offline

"We have been taken offline a couple of times due to AI bots," said Tania Cohen, chief executive of 360Giving, a non-profit database of grants and charitable giving opportunities.

Cohen says that as a small charity with no in-house technical team, the surges in traffic have been highly disruptive. What's even more frustrating, she says, is that much of the information is easily downloadable in other ways and doesn't need to be crawled.

But hungry AI botnets scrape first, ask questions later.

"Utterly sick"

Coates says his Game UI Database is back up and running and he continues to add to it. There are millions of people out there like Coates, obsessive about some tiny corner of the world, compelled to sink thousands of hours into a pursuit that no one else on Earth could find meaning in. It's one of the reasons to love the internet.

And it's yet another area of society buffeted by the ripple effects of the AI revolution. The server costs of a small-fry database operator may seem not worth mentioning. But Coates' story is emblematic of a bigger question: When AI comes to change the world, who bears the cost?

Coates says he maintains the database as a source of reference material for fellow game designers. He worries that generative AI, which depends on the work of human creators, will inevitably replace those very same creators.

"To find that my work is not only being stolen by a large organization, but used to hurt the very people I'm trying to help, makes me feel utterly sick," Coates said.

Read the original article on Business Insider







Только смелым покоряются моря

В ОДКБ им. Н.Н. Силищевой появилось новое оборудование в МРТ-кабинете

Исторические фантазии и реалии. Часть 5

UNOde50 представил коллекцию осень-зима 2025/26 (FW-2025/26): украшения как путь к себе


Nvidia’s Jensen Huang hauled before China’s cyber cops to explain ‘backdoor safety risks’ in H20 chips

All the news from Nintendo’s July 2025 Direct showcase

AI and robots can help the world grow more food—even if they’re still not quite as good as a human farmer

'Not ready for prime time': Trump, Republicans slam GOP leader's stock trade ban bill


Торжок ..

На Московской столкнулись автобус и легковушка. Пострадала женщина

Где живут и на чем ездят самые аварийные водители России?

Японский кроссовер с хорошим оснащением продают в РФ дешевле 2 млн рублей


If you'd like to see Meta's AI gunk purged from WhatsApp, a new antitrust investigation in Italy might just do the trick

Color Maze Adventure 2.0.0

Разработчики The Seven Deadly Sins: Origin ответили на частые вопросы игроков

«Деньги не пахнут»: Как Blox World наживается на доверии игроков Roblox



В Корпоративном университете «ЛокоТех» за первое полугодие 2025 года обучено более 2500 человек и создано 8 новых программ

Забайкальский филиал "ЛокоТех-Сервис" показал уверенный рост в первом полугодии

BMW: важна каждая деталь

Сооружения сервисного участка «Свердловск-Пассажирский» стали арт-объектом


АКСИОМА ВЫСШЕЙ АКАДЕМИИ: ВСЁ УПОРЯДЧЕННОЕ УПОРЯДОЧЕНО. КЕМ? ПРОГРАММНЫЕ ИНТЕЛЛЕКТЫ ДАВНО УПРАВЛЯЮТ ВСЕМИ ЦИВИЛИЗАЦИЯМИ! Россия, США, Европа могут улучшить отношения и здоровье общества!

Начальник филиала «Трансэнерго» арестован за мошенничество

В Корпоративном университете «ЛокоТех» за первое полугодие 2025 года обучено более 2500 человек и создано 8 новых программ

Москва благоустроит 700 улиц: замена асфальта и новые остановки


Это порождает вседозволенность мигрантов — Никита Михалков жёстко рассказал о проблеме миграции (ВИДЕО)

Человек упал на пути на «фиолетовой» ветке метро Москвы

DM: пожилая британка умерла от септического шока после общения с собакой

Врачи Москвы спасли женщину, случайно проглотившую зубную щётку


Рублев обыграл Гастона и вышел и третий круг турнира в Торонто

Рублев и Хачанов не смогли пройти первый круг парного разряда теннисного турнира в Торонто

Новак Джокович вошел в число инвесторов футбольного клуба

Андреева проиграла первый матч после Уимблдона. Мирра падала и плакала, ей вызывали врача


Врачи Москвы спасли женщину, случайно проглотившую зубную щётку

Теракт в "Крокус Сити Холле": террористу перевели 2 млн рублей перед атакой

2 августа: какой сегодня день

Это порождает вседозволенность мигрантов — Никита Михалков жёстко рассказал о проблеме миграции (ВИДЕО)


Музыкальные новости

Ремикс Песни. Создание ремикса Песни. Создание Хитового ремикса песни.

Мать Тимати Симона Юнусова вышла на публику с внучкой Алисой

Daily Mirror: Оззи Осборна похоронили в саду особняка

Менеджер Артиста. Менеджер по работе с артистами.


«ЛокоТех» проводит комплексную оценку знаний специалистов службы качества

Забайкальский филиал "ЛокоТех-Сервис" показал уверенный рост в первом полугодии

Сооружения сервисного участка «Свердловск-Пассажирский» стали арт-объектом

В Корпоративном университете «ЛокоТех» за первое полугодие 2025 года обучено более 2500 человек и создано 8 новых программ


Фанаты устроили давку на концерте Дженнифер Лопес в Египте

Сооружения сервисного участка «Свердловск-Пассажирский» стали арт-объектом

Андрей Рюмин обсудил с руководством дочерних обществ повышение операционной эффективности

Новую книгу Симоньян раскупили в Москве за 10 минут


В Подмосковье на видео сняли, как мужчины пытались перевернуть авто после ДТП

BMW: важна каждая деталь

Женщина-пешеход погибла при столкновении двух машин в Ясенево

В Москве росгвардейцы задержали курьера, подозреваемого в краже техники


В Севастополе кинотеатр "Россия" превратят в филиал Национального центра по поручению Путина

Народный депутат призвал к действиям после встречи Путина с Лукашенко

Путин выразил приветствие участникам фестиваля «Таврида-АРТ»

Трамп встречает Иванку, Не Москва, 1987


NYT сообщает, что ЕК не сохранила переписку фон дер Ляйен с руководством Pfizer

Руководитель РФПИ охарактеризовал переписку фон дер Ляйен с Pfizer как позорный инцидент

Исследование показывает зависимость между темпами развития COVID-19 и уровнем смертности



Пластический хирург Софья Абдулаева: как используют собственный жир для омоложения лица

Врач-косметолог Зухра Балакеримова: какие косметологические процедуры стоит сделать именно летом

Объявлена процедура получения налогового вычета за медицинские услуги

Олеся Шергина из Екатеринбурга взошла на Эльбрус: история смелости, вдохновения и преодоления девушки с протезом


Число погибших из-за удара России по Киеву возросло до 31 – власти

Огромный забор и бомбоубежища: что известно о резиденции Зеленского под Киевом

Президент Польши Навроцкий потребовал от Зеленского изменить историческую политику Киева

Путин: если Киев считает, что сейчас не время для переговоров, Москва готова ждать


В Москве встретили фехтовальщиц сборной РФ, вернувшихся с чемпионата мира

Сотрудники Минпросвещения и «Артека», педагоги, наставники и тренеры отмечены высокими наградами

Точно в цель – топ-3 гольф-клубов в окружении «Москва-Сити»

Мероприятия в рамках акции «Каникулы с Росгвардией» проходят в регионах Центральной России


Путин и Лукашенко встретятся для переговоров на Валааме

Лукашенко прокомментировал ситуацию с БПЛА в Минске

Путин и Лукашенко соберутся на неформальные переговоры

Путин и Лукашенко беседуют в окружении белорусского шпица


Собянин поздравил победителей конкурса «Большая перемена»

Собянин: 220 тыс. москвичей получили жилье или готовятся к переезду по реновации

Сергей Собянин. Главное за день

Собянин: 220 тыс. семей переезжают в новые дома по программе реновации Москвы


Климатологи прогнозируют изменение климата в Москве в сторону субтропиков

Жители Первомайского района «одобрили» строительство мусорного завода, хотя власти все еще в «раздумьях»

В России за сутки ликвидировано 66 лесных пожаров

Московский зоопарк ищет неродственную "невесту" для манула Тимоши


Военкор Стешин: интерес к Волге — тревожный звонок для России из Средней Азии

Экспортная пошлина на пшеницу из России поднимется до 19,4 рубля за тонну

DM: пожилая британка умерла от септического шока после общения с собакой

Говырин рассказал, на какую пенсию можно рассчитывать, если не работать


В администрации муниципального образования «Городской округ «Город Нарьян-Мар» выявлены нарушения законодательства о противодействии коррупции

Еще немного. Мэр Собянин запустил проходку тоннеля от «Липовой рощи»

Заболевание клещевым энцефалитом в Подмосковье: 10,5 тыс. случаев укусов

В Красногорске дали старт строительству тоннеля от будущей станции метро «Липовая роща»


Инфраструктура новостроек: что важно для комфортной жизни

Крыму и еще 27 регионам списали долги по бюджетным кредитам на 58 млрд

Цены на новостройки в июле 2025 года: Севастополь лидирует, Симферополь чуть отстаёт

Правительство РФ планирует приватизировать известные ликеро-водочные заводы


РИА: вылет 23 рейсов из Шереметьево задерживается на фоне грозы в Москве

Говырин рассказал, на какую пенсию можно рассчитывать, если не работать

Военкор Стешин: интерес к Волге — тревожный звонок для России из Средней Азии

Врачи Москвы спасли женщину, случайно проглотившую зубную щётку














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *