Добавить новость
smi24.net
News in English
Май
2024

GPT-4o’s Chinese token-training data is polluted by spam and porn websites

0

Soon after OpenAI released GPT-4o on Monday, May 13, some Chinese speakers started to notice that something seemed off about this newest version of the chatbot: the tokens it uses to parse text were full of spam and porn phrases.

On May 14, Tianle Cai, a PhD student at Princeton University studying inference efficiency in large language models like those that power such chatbots, accessed GPT-4o’s public token library and pulled a list of the 100 longest Chinese tokens the model uses to parse and compress Chinese prompts. 

Humans read in words, but LLMs read in tokens, which are distinct units in a sentence that have consistent and significant meanings. Besides dictionary words, they also include suffixes, common expressions, names, and more. The more tokens a model encodes, the faster the model can “read” a sentence and the less computing power it consumes, thus making the response cheaper.

Of the 100 results, only three of them are common enough to be used in everyday conversations; everything else consisted of words and expressions used specifically in the contexts of either gambling or pornography. The longest token, lasting 10.5 Chinese characters, literally means “_free Japanese porn video to watch.” Oops.

“This is sort of ridiculous,” Cai wrote, and he posted the list of tokens on GitHub.

OpenAI did not respond to questions sent by MIT Technology Review prior to publication.

GPT-4o is supposed to be better than its predecessors at handling multi-language tasks. In particular, the advances are achieved through a new tokenization tool that does a better job compressing texts in non-English languages.

But at least when it comes to the Chinese language, the new tokenizer used by GPT-4o has introduced a disproportionate number of meaningless phrases. Experts say that’s likely due to insufficient data cleaning and filtering before the tokenizer was trained. 

Because these tokens are not actual commonly spoken words or phrases, the chatbot can fail to grasp their meanings. Researchers have been able to leverage that and trick GPT-4o into hallucinating answers or even circumventing the safety guardrails OpenAI had put in place.

Why non-English tokens matter

The easiest way for a model to process text is character by character, but that’s obviously more time consuming and laborious than recognizing that a certain string of characters—like “c-r-y-p-t-o-c-u-r-r-e-n-c-y”—always means the same thing. These series of characters are encoded as “tokens” the model can use to process prompts. Including more and longer tokens usually means the LLMs are more efficient and affordable for users—who are often billed per token.

When OpenAI released GPT-4o on May 13, it also released a new tokenizer to replace the one it used in previous versions, GPT-3.5 and GPT-4. The new tokenizer especially adds support for non-English languages, according to OpenAI’s website.

The new tokenizer has 200,000 tokens in total, and about 25% are in non-English languages, says Deedy Das, an AI investor at Menlo Ventures. He used language filters to count the number of tokens in different languages, and the top languages, besides English, are Russian, Arabic, and Vietnamese.

“So the tokenizer’s main impact, in my opinion, is you get the cost down in these languages, not that the quality in these languages goes dramatically up,” Das says. When an LLM has better and longer tokens in non-English languages, it can analyze the prompts faster and charge users less for the same answer. With the new tokenizer, “you’re looking at almost four times cost reduction,” he says.

Das, who also speaks Hindi and Bengali, took a look at the longest tokens in those languages. The tokens reflect discussions happening in those languages, so they include words like “Narendra” or “Pakistan,” but common English terms like “Prime Minister,” “university,” and “internationalalso come up frequently. They also don’t exhibit the issues surrounding the Chinese tokens.

That likely reflects the training data in those languages, Das says: “My working theory is the websites in Hindi and Bengali are very rudimentary. It’s like [mostly] news articles. So I would expect this to be the case. There are not many spam bots and porn websites trying to happen in these languages. It’s mostly going to be in English.”

Polluted data and a lack of cleaning

However, things are drastically different in Chinese. According to multiple researchers who have looked into the new library of tokens used for GPT-4o, the longest tokens in Chinese are almost exclusively spam words used in pornography, gambling, and scamming contexts. Even shorter tokens, like three-character-long Chinese words, reflect those topics to a significant degree.

“The problem is clear: the corpus used to train [the tokenizer] is not clean. The English tokens seem fine, but the Chinese ones are not,” says Cai from Princeton University. It is not rare for a language model to crawl spam when collecting training data, but usually there will be significant effort taken to clean up the data before it’s used. “It’s possible that they didn’t do proper data clearing when it comes to Chinese,” he says.

The content of these Chinese tokens could suggest that they have been polluted by a specific phenomenon: websites hijacking unrelated content in Chinese or other languages to boost spam messages. 

These messages are often advertisements for pornography videos and gambling websites. They could be real businesses or merely scams. And the language is inserted into content farm websites or sometimes legitimate websites so they can be indexed by search engines, circumvent the spam filters, and come up in random searches. For example, Google indexed one search result page on a US National Institutes of Health website, which lists a porn site in Chinese. The same site name also appeared in at least five Chinese tokens in GPT-4o. 

Chinese users have reported that these spam sites appeared frequently in unrelated Google search results this year, including in comments made to Google Search’s support community. It’s likely that these websites also found their way into OpenAI’s training database for GPT-4o’s new tokenizer. 

The same issue didn’t exist with the previous-generation tokenizer and Chinese tokens used for GPT-3.5 and GPT-4, says Zhengyang Geng, a PhD student in computer science at Carnegie Mellon University. There, the longest Chinese tokens are common terms like “life cycles” or “auto-generation.” 

Das, who worked on the Google Search team for three years, says the prevalence of spam content is a known problem and isn’t that hard to fix. “Every spam problem has a solution. And you don’t need to cover everything in one technique,” he says. Even simple solutions like requesting an automatic translation of the content when detecting certain keywords could “get you 60% of the way there,” he adds.

But OpenAI likely didn’t clean the Chinese data set or the tokens before the release of GPT-4o, Das says:  “At the end of the day, I just don’t think they did the work in this case.”

It’s unclear whether any other languages are affected. One X user reported that a similar prevalence of porn and gambling content in Korean tokens.

The tokens can be used to jailbreak

Users have also found that these tokens can be used to break the LLM, either getting it to spew out completely unrelated answers or, in rare cases, to generate answers that are not allowed under OpenAI’s safety standards.

Geng of Carnegie Mellon University asked GPT-4o to translate some of the long Chinese tokens into English. The model then proceeded to translate words that were never included in the prompts, a typical result of LLM hallucinations.

He also succeeded in using the same tokens to “jailbreak” GPT-4o—that is, to get the model to generate things it shouldn’t. “It’s pretty easy to use these [rarely used] tokens to induce undefined behaviors from the models,” Geng says. “I did some personal red-teaming experiments … The simplest example is asking it to make a bomb. In a normal condition, it would decline it, but if you first use these rare words to jailbreak it, then it will start following your orders. Once it starts to follow your orders, you can ask it all kinds of questions.”

In his tests, which Geng chooses not to share with the public, he says he can see GPT-4o generating the answers line by line. But when it almost reaches the end, another safety mechanism kicks in, detects unsafe content, and blocks it from being shown to the user.

The phenomenon is not unusual in LLMs, says Sander Land, a machine-learning engineer at Cohere, a Canadian AI company. Land and his colleague Max Bartolo recently drafted a paper on how to detect the unusual tokens that can be used to cause models to glitch. One of the most famous examples was “_SolidGoldMagikarp,” a Reddit username that was found to get ChatGPT to generate unrelated, weird, and unsafe answers.

The problem lies in the fact that sometimes the tokenizer and the actual LLM are trained on different data sets, and what was prevalent in the tokenizer data set is not in the LLM data set for whatever reason. The result is that while the tokenizer picks up certain words that it sees frequently, the model is not sufficiently trained on them and never fully understands what these “under-trained” tokens mean. In the _SolidGoldMagikarp case, the username was likely included in the tokenizer training data but not in the actual GPT training data, leaving GPT at a loss about what to do with the token. “And if it has to say something … it gets kind of a random signal and can do really strange things,” Land says.

And different models could glitch differently in this situation. “Like, Llama 3 always gives back empty space but sometimes then talks about the empty space as if there was something there. With other models, I think Gemini, when you give it one of these tokens, it provides a beautiful essay about aluminum, and [the question] didn’t have anything to do with aluminum,” says Land.

To solve this problem, the data set used for training the tokenizer should well represent the data set for the LLM, he says, so there won’t be mismatches between them. If the actual model has gone through safety filters to clean out porn or spam content, the same filters should be applied to the tokenizer data. In reality, this is sometimes hard to do because training LLMs takes months and involves constant improvement, with spam content being filtered out, while token training is usually done at an early stage and may not involve the same level of filtering. 

While experts agree it’s not too difficult to solve the issue, it could get complicated as the result gets looped into multi-step intra-model processes, or when the polluted tokens and models get inherited in future iterations. For example, it’s not possible to publicly test GPT-4o’s video and audio functions yet, and it’s unclear whether they suffer from the same glitches that can be caused by these Chinese tokens.

“The robustness of visual input is worse than text input in multimodal models,” says Geng, whose research focus is on visual models. Filtering a text data set is relatively easy, but filtering visual elements will be even harder. “The same issue with these Chinese spam tokens could become bigger with visual tokens,” he says.








Тимати организовал вечеринку с Погребняк и Дубцовой в турецком Бодруме

Город Бакуракерт на полуострове Ланжерон

Marins Park Hotel Екатеринбург – место спокойного и уютного отдыха

Говорим о ВИЧ — в эфире, на улицах, в сети


The 5 biggest global business rivalries to watch, and how their outcomes will shape the future

Not even a 0% mortgage rate would make buying a house affordable in these 6 U.S. cities

Jovic set for new opportunity after leaving Milan as free agent

Ricky Hatton Names The Best British Fighter Of All Time And It’s Not Lennox Lewis


С особой требовательностью

Севастополь вошёл в десятку регионов-лидеров по количеству оформленных годовых полисов рейтинга РСА

Мигрантам хотят запретить предвыборную агитацию: но это «пехота». Надо бить по диаспорам

Hybrid подводит итоги первого полугодия 2025 года: переоценка планов, рост в performance-сегменте и ускоренные инвестиции в технологии


The next survival game from the developers of Green Hell plops you on an alien planet with atmospheric firestorms and a horde of giant spiders

Girl Rescue 1.0.3.3

Black Hole io 1.5.1

Обзор на мобильную версию A Game About Digging A Hole



Дептранс Москвы рекомендовал использовать метро из-за ограничения движения

«Турбозавры» на фестивале «Динозавры на каникулах» в ЦДМ на Лубянке

Концерты органной музыки в Москве: волшебство звуков в галерее Ильи Глазунова

Комитет Госдумы предложил создать рейтинг предприятий по их молодежной политике


Times Now: США боятся роста цен на нефть и согласны на поставки РФ Индии

Карпин о «Динамо»: «У нас нехватка кадров, так скажем. Говорить про “довольны”, “недовольны” — мне надо командой заниматься. А трансферная кампания — прерогатива клуба. Кто&nbs

Сахар на вес золота: как изобретение инсулина изменило медицину

В Казани подвели итоги чемпионата по профмастерству среди участников СВО «Абилимпикс»


С начала 2025 года в Татарстане построили 2,3 млн квадратных метров жилья

Сборная Удмуртской Республики выиграла Всероссийские соревнования по следж-хоккею среди ветеранов СВО «Кубок героев» в Туле

Нейросеть наводят на большую дорогу // Москва расширяет контроль за дорожными авариями, животными и мусором на проезжей части

Симферопольское шоссе блокировали арбузы с опрокинутой "Газели"


Киз обыграла Мухову и пробилась в четвертьфинал «Мастерса» в Монреале

В Книгу почета Казани внесут Веронику Кудерметову

Теннисист Хачанов обыграл Микельсена и вышел в полуфинал турнира ATP

Бублик честно высказался о провале Рублёва и Медведева


Как проверить качество получаемой медицинской помощи по ОМС...

Нейросеть наводят на большую дорогу // Москва расширяет контроль за дорожными авариями, животными и мусором на проезжей части

С начала 2025 года в Татарстане построили 2,3 млн квадратных метров жилья

Бурная акция: приговор Гуцул вызовет новые протесты в Молдавии


Музыкальные новости

The Sun: причиной смерти Оззи Осборна стали инфаркт миокарда и остановка сердца

«112»: Александр Розенбаум срочно госпитализирован в Москве с пневмонией

Фронтмен Black Sabbath Оззи Осборн умер в 76 лет от прогрессирующей болезни

Александра Розенбаума экстренно госпитализировали в Москве


Дептранс Москвы рекомендовал использовать метро из-за ограничения движения

«Турбозавры» на фестивале «Динозавры на каникулах» в ЦДМ на Лубянке

Комитет Госдумы предложил создать рейтинг предприятий по их молодежной политике

В Москве прошла премия «Триумф Года»


Путин анонсировал скоростную трассу Москва-Петербург к 2028 году

Доктора впервые заметили положительную динамику у впавшего в кому Кеосаяна

«Путину не сложно решить это одним звонком». Азербайджан объявил России войну топонимов – «даванет» ли Кремль запретом на прием самолетов?

Карпин о «Динамо»: «У нас нехватка кадров, так скажем. Говорить про “довольны”, “недовольны” — мне надо командой заниматься. А трансферная кампания — прерогатива клуба. Кто&nbs


Режиссер театра Виталий Лабутин устроил второй за полгода пьяный дебош в Москве

Автобус попал в ДТП на трассе М-4 под Тулой: что рассказали пассажиры

Дептранс Москвы рекомендовал использовать метро из-за ограничения движения

Два автобуса столкнулись на северо-востоке Москвы, движение перекрыто


Китаец через 25 лет поделился рассказом о знаменитом снимке с Путиным

Путин поручил Шувалову реализовать планы по технологическому развитию России

Сфотографировавшийся с Путиным мальчик из Китая обратился к нему спустя 25 лет

Малайзийский король посетил Россию с официальным визитом




Врач Харлов: отравление креветками может привести к летальному исходу

Врач-косметолог Зухра Балакеримова: какие процедуры стоит сделать в 30+

Врач-косметолог Мадина Осман: можно ли полностью избавиться от родимого пятна

Как проверить качество получаемой медицинской помощи по ОМС...


«Хоть в платье, хоть в парике»: слухи о побеге Зеленского распространяются в Киеве

Зеленский добивается визита Эрдогана в Киев


Электричка зацепила комментатора Гришина и протащила несколько метров

Палиенко покинул клуб «Урарту» из Армении

Кубок Посла Китая по Вэйци прошёл в Москве

Худайбердиева указала, что день смерти Гришина стал самым мрачным за последние годы


Лукашенко предупреждает: не стоит соревноваться с крупными государствами


Сергей Собянин: реставрация Большого Каменного моста завершена за 14 месяцев

Собянин открыл первый флагманский МФЦ для регистрации самоходной техники

Мэр Москвы рассказал о новой жизни Большого Каменного моста

Мэр Собянин поделился информацией о новорожденных животных в «Москвариуме»


Около 850 тысяч тонн вторсырья собрано в Москве за полгода

Объем российского добычи водных биоресурсов превысил три миллиона тонн

В Подмосковье объявили «оранжевый» уровень опасности из-за угрозы наводнения

Зачем нужна программная нормализация воды после очистки — объясняет Алексей Горшков


С начала 2025 года в Татарстане построили 2,3 млн квадратных метров жилья

Россия и Индия договорились углубить "особо привилегированное стратегическое партнерство" в обороне

Нейросеть наводят на большую дорогу // Москва расширяет контроль за дорожными авариями, животными и мусором на проезжей части

Как проверить качество получаемой медицинской помощи по ОМС...


Алтайский край оказался одним из антилидеров по качеству автодорог

Аномальная жара: До +41 °С в Чечне и Ингушетии, +30 °С в Карелии и Архангельске

В Архангельской области ищут работу москвичи и петербуржцы

Вильфанд предупредил об аномальной жаре в девяти регионах


Провокация Британии против РФ и рекорд цен на бензин – главное за день

До 100 метеоров в час: когда наблюдать пик звездопада Персеиды над Крымом

В Симферополе вспомнили крымскую писательницу, пережившую оккупацию ребенком: 100 лет Елене Криштоф

Поезда в Крым меняют маршруты и график


Бурная акция: приговор Гуцул вызовет новые протесты в Молдавии

Симферопольское шоссе блокировали арбузы с опрокинутой "Газели"

Россия и Индия договорились углубить "особо привилегированное стратегическое партнерство" в обороне

Москвичи проголосуют за одно из пяти названий для набережной в "Коломенском"














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *