Добавить новость
smi24.net
News in English
Июль
2024

Crawlers And Agents And Bots, Oh My: Time To Clarify Robots.txt

0

Perplexity is an up-and-coming AI company that has broad ambition to compete with Google in the search market by providing answers to user queries with AI as its core technology. 

They’ve been in the news because their news feature repurposed content published on the Forbes website in an investigative article, which severely annoyed the Forbes editorial staff and media community (never a good idea) and led to accusations from Forbes’ legal team of willful copyright infringement. Now Wired is reporting that Perplexity’s web hosting provider (AWS) is investigating their practices, focused on whether they respect robots.txt, the standard governing the behavior of web crawlers (Or is it all robots? More on that later.)

We don’t know everything about how Perplexity actually works under the hood, and I have no relationship to the company or special knowledge. The facts are still somewhat murky, and as with any dispute over the ethics or legality of digital copying, the technical details will matter. I worked on copyright policy for years at Google, and have seen this pattern play out enough times to not pass judgment too quickly.

Based on what we know today from press reports, it seems plausible to me that the fundamental issue at root here, i.e. what is driving Perplexity to dig its heels in, and where much of the reporting seems to cite as Perplexity’s fundamental ethical failing, is what counts as a “crawler” for the purposes of robots.txt.

This is an ambiguity that will likely need to be addressed in years to come regardless of Perplexity’s practices, so it seems worth unpacking a little bit. (In fact similar questions are floating around Quora’s chatbot Poe.)

Why do I think this is the core issue? This snippet from today’s Wired article was instructive (Platnick is a Perplexity spokesperson):

“When a user prompts with a specific URL, that doesn’t trigger crawling behavior,” Platnick says. “The agent acts on the user’s behalf to retrieve the URL. It works the same way as if the user went to a page themselves, copied the text of the article, and then pasted it into the system.”

This description of Perplexity’s functionality confirms WIRED’s findings that its chatbot is ignoring robots.txt in certain instances.

The phrase “ignoring robots.txt in certain instances” sounds bad. There is the ethical conversation of what Perplexity is doing with news content of course, which is likely to be an ongoing and vigorous debate. The claim is that Perplexity is ignoring the wishes of news publishers, as expressed in robots.txt.

But we tend to codify norms and ethics into rules, and a reasonable question is: What does the robots.txt standard have to say? When is a technical system expected to comply with it, or ignore it? Could this be rooted in different interpretations of the standard?

First a very quick history of robots.txt: In the late 80s and early 90s, it was a lot more expensive to run a web server. They also tended to be very prone to breaking under high loads. As companies began to crawl the web to build things like search engines (which requires accessing a lot of the website), stuff started to break, and the blessed nerds who kept the web working came up with an informal standard in the mid 90s that allowed webmasters to put up road signs to direct crawlers away from certain areas. Most crawlers respected this relatively informal arrangement, and still do.

Thus, “crawlers” has for decades been understood to refer to systems that access URLs in bulk, systems that pick which URLs to access next based on a predetermined method written in code (presumably why it’s described as “crawling”). And the motivating issue was mainly a coordination problem: how to enable useful services like search engines, that are good for everyone including web publishers, without breaking things.

It took nearly two decades but robots.txt was eventually codified and adopted as the Robots Exclusion Protocol, or RFC 9309, by the Internet Engineering Task Force (IETF), part of the aforementioned blessed nerd community who maintain the technical standards of the internet.

RFC 9309 does not define “crawler” or “robot” in the way a lawyer might expect a contract or statute to define a term. It says simply that “crawlers are automatic clients” with the rest left up to context clues. Most of those context clues refer to issues posed by bulk access of URIs:

It may be inconvenient for service owners if crawlers visit the entirety of their URI space. This document specifies the rules […] that crawlers are requested to honor when accessing URIs.

Every year the web’s social footprint expands and we increase the pressures put on robots.txt. It’s begun to solve a broader set of challenges, beyond protecting webmasters from the technical inconveniences of bulk access. It now increasingly arbitrates massive economic interests, and now the social and ethical questions AI has inspired in recent years. Google, whose staff are the listed authors of RFC 9309, has already started thinking about what’s next.

And the technology landscape is shifting. Automated systems are accessing web content with a broader set of underlying intentions. We’re seeing the emergence of AI agents that actually do things on behalf of users and at their direction, intermediated by AI companies using large language models. As OpenAI says, AI agents may “substantially expand the helpful uses of AI systems, and introduce a range of new technical and social challenges.”

Automatic clients will continue to access web content. The user-agent might even reasonably have “Bot” in the name. But is it a crawler? It won’t be for the same purpose as a search engine crawler, and not at the same scale and depth required for search. The ethical, economic, technical, and legal landscape for automatic AI agents will look completely different than for crawlers.

It may very well be sensible to expand RFC 9309 to apply to things like AI agents directed by users, or any method of automated access of web content where the user-agent isn’t directly a user’s browser. And then we would think about the cascading implications of the robots.txt standard and its requirements. Or maybe we need a new set of norms and rules to govern that activity separate from RFC 9309.

Either way, disputes like this are an opportunity to consider improving and updating the rules and standards that guide actors on the web. To the extent this disagreement really is about the interpretation of “crawler” in RFC 9309, i.e. what counts as a robot or crawler and therefore what must respect listed disallows in the robots.txt file, that seems like a reasonable place to start thinking about solutions.

Alex Kozak is a tech policy consultant with Proteus Strategies, formerly gov’t affairs and regulatory strategy at Google X, global copyright policy lead at Google, and open licensing advocate at Creative Commons.








Marins Park Hotel Екатеринбург – место спокойного и уютного отдыха

Летнее путешествие для всей семьи по Ростову-на-Дону

К доктору – без страха: сеть клиник «Будь Здоров» представила VR-решения для детского здоровья

Вывод песни для продвижения в Импульсе Яндекс Музыка.


Jovic set for new opportunity after leaving Milan as free agent

£39m United star shouldn't be starting vs Arsenal, was gifting possession to Everton

Ricky Hatton Names The Best British Fighter Of All Time And It’s Not Lennox Lewis

The 5 biggest global business rivalries to watch, and how their outcomes will shape the future


Bluetooth-сканер штрих-кодов SAOTRON P04 на базе CMOS-матрицы

Попади на концерт FEDUK с Like FM

Представители НПС доложили губернатору Подмосковья о ходе строительства моста в Дмитрове

Пасмурный октябрь


Обзор на мобильную версию A Game About Digging A Hole

Android-игроки раскритиковали сурвайвл-хоррор Jericho: Survival

Black Hole io 1.5.1

Раскрой потенциал Мистера Террифика из DC Worlds Collide с этим гайдом



В Москве прошла седьмая премия в области здоровья и красоты THE MEDICAL STARS & BEAUTY AWARDS

Россияне готовы покупать акции своего работодателя. Какие риски это несет

Энергоэффективность в цифрах: в среднем новые ЖК могут экономить более 20% всех ресурсов, но есть нюанс по платежкам

В России появилась универсальная методология нагрузочного тестирования ERP-систем


Самым продаваемым жилым кварталом премиум-класса Москвы вновь стал «Прайм Парк»

Как в «Жанетт» снизили брак обуви из ЭВА и вышли на новый уровень качества

Велоспорт для всех: начни вместе с ENERGY

Энергоэффективность в цифрах: в среднем новые ЖК могут экономить более 20% всех ресурсов, но есть нюанс по платежкам


Международный детский инклюзивный футбольный турнир «Под флагом добра» состоялся в Москве на стадионе «Сапсан Арена»

Россияне готовы покупать акции своего работодателя. Какие риски это несет

Вывод песни для продвижения в Импульсе Яндекс Музыка.

Как в «Жанетт» снизили брак обуви из ЭВА и вышли на новый уровень качества


Осака: Мечтаю о еще одной победе на турнире «Большого шлема»

Киз обыграла Мухову и пробилась в четвертьфинал «Мастерса» в Монреале

Рублев не достиг полуфинала турнира "Мастерс" в Торонто

В Книгу почета Казани внесут Веронику Кудерметову


В Москве рассматривают вариант значимого «подарка Трампу», но без прекращения СВО

Оживление кредитования: 780,7 млрд рублей выдано в России за июнь

Охранник столичного супермаркета зверски избил покупателя

Радимов - о предстоящем матче с Иорданией: «Это участник чемпионата мира, а не Бруней»


Музыкальные новости

Астраханский ТРЗ Желдорреммаша приступил к серийному капитальному ремонту тепловозов ТЭМ18ДМ

«Выходите из рабства»: Моргенштерн* поделился результатами лечения от зависимостей

Оркестр спецназа даст концерт в псковском парке 10 августа

Суд оставил в силе процедуру банкротства экс-супруги Баскова


Энергоэффективность в цифрах: в среднем новые ЖК могут экономить более 20% всех ресурсов, но есть нюанс по платежкам

Попади на концерт FEDUK с Like FM

Gayazov$ Brother$ в Зеленом театре ВДНХ! Like FM дарит билеты

В России появилась универсальная методология нагрузочного тестирования ERP-систем


45 лет назад в Москве состоялась церемония закрытия "Олимпиады-80"

Деменко одобрил переход Миранчука в «Динамо»

Москва превратится в Таиланд. Климатолог Клименко сделал прогноз на 10 лет

Сборная Удмуртской Республики выиграла Всероссийские соревнования по следж-хоккею среди ветеранов СВО «Кубок героев» в Туле


Дептранс Москвы рекомендовал использовать метро из-за ограничения движения

В Москве на видео сняли затопленные до крыши автомобили

Клиенты компании «Байкал Сервис» экономят на перевозке сезонных товаров

В Подмосковье на видео сняли разбитые в ДТП большегрузы, затруднившие движение


Во Франции высказались о визите Уиткоффа в Москву

Интриги Эрдогана и Зеленского. «Джокер» Путина. Активность над секретным полигоном: Главное к утру

Посол Израиля оценила отношения с РФ на фоне личного контакта Путина и Нетаньяху



В Москве задержаны четверо мужчин по делу о пожертвованиях организации «ФБК»

В Москве задержали четверых сторонников ФБК за пожертвования организации


К доктору – без страха: сеть клиник «Будь Здоров» представила VR-решения для детского здоровья

Клинический психолог Юлия Тарибо: что такое односторонняя дружба и стоит ли ее продолжать

В Москве прошла седьмая премия в области здоровья и красоты THE MEDICAL STARS & BEAUTY AWARDS

Алексей Тамаров – искусство пластической хирургии


Зеленский добивается визита Эрдогана в Киев


«Ты будешь моей…»: Николай Ерусланкин из Нижнего Новгорода удивил всех участников шоу «Погоня» на ТНТ

В депо «Вязьма» отметили профессиональный праздник соревнованиями по лазертагу

Профессиональные бои состоятся в Нижнем Новгороде 9 августа

Велоспорт для всех: начни вместе с ENERGY



Собянин сообщил о сокращении срока регистрации самоходной техники вдвое

Сергей Собянин: В Москве запущен 220-й электробусный маршрут

Собянин открыл новый МФЦ для самоходной техники

Собянин: Москвариум заботится о тысячах водных обитателей


Эксперт обсудил будущие возможности возобновляемых источников энергии в России

Частые осадки летом 2025-го являются последствием изменения климата

Мессенджер Max будут обязательно устанавливать на новые смартфоны с сентября

Энергоэффективность в цифрах: в среднем новые ЖК могут экономить более 20% всех ресурсов, но есть нюанс по платежкам


Уиткофф прибудет в Москву в среду и встретится с руководством РФ

Захарова назвала частным мнением слухи о развёртывании оружия России на Кубе

Охранник столичного супермаркета зверски избил покупателя

Радимов - о предстоящем матче с Иорданией: «Это участник чемпионата мира, а не Бруней»


Амурская область оказалась в числе аутсайдеров по качеству дорог

Аномальная жара: До +41 °С в Чечне и Ингушетии, +30 °С в Карелии и Архангельске

Защищённый планшет промышленного класса Saotron RT-W11

Алтайский край оказался одним из антилидеров по качеству автодорог


Компания «Гранд Сервис Экспресс» информирует об изменениях в курсировании некоторых поездов «Таврия» с осени 2025 года

До 100 метеоров в час: когда наблюдать пик звездопада Персеиды над Крымом

Провокация Британии против РФ и рекорд цен на бензин – главное за день

Прогноз погоды в Крыму на 6 августа


«Лес Массив» представил линейку мебельных щитов из ангарской сосны премиум-класса

Автозайм: Займы под залог авто – быстро и удобно

В России появилась универсальная методология нагрузочного тестирования ERP-систем

Карточка Артиста. Карточка артиста яндекс. Карточка артиста яндекс музыка.














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *