Добавить новость
smi24.net
News in English
Сентябрь
2023

TW-BERT: End-to-end query term weighting and the future of Google Search

0

Search is hard, as Seth Godin wrote in 2005.

I mean, if we think SEO is hard (and it is) imagine if you were trying to build a search engine in a world where:

  • The users vary dramatically and change their preferences over time.
  • The technology they access search advances every day.
  • Competitors nipping at your heels constantly.

On top of that, you’re also dealing with pesky SEOs trying to game your algorithm gain insights into how best to optimize for your visitors.

That’s going to make it a lot harder.

Now imagine if the main technologies you need to lean on to advance came with their own limitations – and, perhaps worse, massive costs.

Well, if you’re one of the writers of the recently published paper, “End-to-End Query Term Weighting” you see this as an opportunity to shine.

What is end-to-end query term weighting?

End-to-end query term weighting refers to a method where the weight of each term in a query is determined as part of the overall model, without relying on manually programmed or traditional term weighting schemes or other independent models.

What does that look like?

Here we see an illustration of one of the key differentiators of the model outlined in the paper (Figure 1, specifically).

On the right side of the standard model (2) we see the same as we do with the proposed model (4), which is the corpus (full set of documents in the index), leading to the documents, leading to the terms. 

This illustrates the actual hierarchy into the system, but you can casually think of it in reverse, from the top down. We have terms. We look for documents with those terms. Those documents are in the corpus of all the documents we know about.

To the lower left (1) in the standard Information Retrieval (IR) architecture, you’ll notice that there is no BERT layer. The query used in their illustration (nike running shoes) enters the system, and the weights are computed independently of the model and passed to it.

In the illustration here, the weights are passing equally among the three words in the query. However, it does not have to be that way. It’s simply a default and good illustration. 

What is important to understand is that the weights are assigned from outside the model and entered it with the query. We’ll cover why this is important momentarily.

If we look at the term-weight version on the right side, you’ll see that the query “nike running shoes” enters BERT (Term Weighting BERT, or TW-BERT, to be specific) which is used to assign the weights that would be best applied to that query.

From there things follow a similar path for both, a scoring function is applied and documents are ranked. But there’s a key final step with the new model, that is really the point of it all, the ranking loss calculation.

This calculation, which I was referring to above, makes the weights being determined within the model so important. To understand this best, let’s take a quick aside to discuss loss functions, which is important to really understand what’s going on here.

What is a loss function?

In machine learning, a loss function is basically a calculation of how wrong a system is with said system trying to learn to get as close to a zero loss as possible.

Let’s take for example a model designed to determine house prices. If you entered in all the stats of your house and it came up with a value of $250,000, but your house sold for $260,000 the difference would be considered the loss (which is an absolute value).

Across a large number of examples, the model is taught to minimize the loss by assigning different weights to the parameters it is given until it gets the best result. A parameter, in this case, may include things like square feet, bedrooms, yard size, proximity to a school, etc.

Now, back to query term weighting

Looking back at the two examples above, what we need to focus on is the presence of a BERT model to provide the weighting to the terms down-funnel of the ranking loss calculation. 

To put it differently, in the traditional models, the weighting of the terms was done independent of the model itself and thus, could not respond to how the overall model performed. It could not learn how to improve in the weightings.

In the proposed system, this changes. The weighting is done from within the model itself and thus, as the model seeks to improve it’s performance and reduce the loss function, it has these extra dials to turn bringing term weighting into the equation. Literally.

ngrams

TW-BERT isn’t designed to operate in terms of words, but rather ngrams.

The authors of the paper illustrate well why they use ngrams instead of words when they point out that in the query “nike running shoes” if you simply weight the words then a page with mentions of the words nike, running and shoes could rank well even if it’s discussing “nike running socks” and “skate shoes”.

Traditional IR methods use query statistics and document statistics, and may surface pages with this or similar issues. Past attempts to address this focused on co-occurrence and ordering.

In this model, the ngrams are weighted as words were in our previous example, so we end up with something like:

On the left we see how the query would be weighted as uni-grams (1-word ngrams) and on the right, bi-grams (2-word ngrams).

The system, because the weighting is built into it, can train on all the permutations to determine the best ngrams and also the appropriate weight for each, as opposed to relying only on statistics like frequency.

Zero shot

An important feature of this model is its performance in zero-short tasks. The authors tested in on:

  • MS MARCO dataset – Microsoft dataset for document and passage ranking
  • TREC-COVID dataset – COVID articles and studies
  • Robust04 – News articles
  • Common Core – Educational articles and blog posts

They only had a small number of evaluation queries and used none for fine-tuning, making this a zero-shot test in that the model was not trained to rank documents on these domains specifically. The results were:

It outperformed in most tasks and performed best on shorter queries (1 to 10 words).

And it’s plug-and-play!

OK, that might be over-simplifying, but the authors write:

“Aligning TW-BERT with search engine scorers minimizes the changes needed to integrate it into existing production applications, whereas existing deep learning based search methods would require further infrastructure optimization and hardware requirements. The learned weights can be easily utilized by standard lexical retrievers and by other retrieval techniques such as query expansion.”

Because TW-BERT is designed to integrate into the current system, integration is far simpler and cheaper than other options.

What this all means for you

With machine learning models, it’s difficult to predict example what you as an SEO can do about it (apart from visible deployments like Bard or ChatGPT).

A permutation of this model will undoubtedly be deployed due to its improvements and ease of deployment (assuming the statements are accurate).

That said, this is a quality-of-life improvement at Google, that will improve rankings and zero-shot results with a low cost.

All we can really rely on is that if implemented, better results will more reliably surface. And that’s good news for SEO professionals.

The post TW-BERT: End-to-end query term weighting and the future of Google Search appeared first on Search Engine Land.








Секреты прошлого загородного комплекса «Тропикана Парк»

Сахар в жару скачет даже у здоровых: как климат влияет на инсулин и глюкозу рассказала доктор Филатова

Секреты прошлого загородного комплекса «Тропикана Парк»

«Я о слове “тарелочница” только в Москве узнал»: Камиль Зулфугаров расскажет о новых правилах свиданий в новом сезоне шоу Stand Up на ТНТ


At Last We Know Why Shemar Turner Fell To The 2nd Round

The anti-DEI movement has a new ally: The FCC

OpenAI warns that its new ChatGPT Agent has the ability to aid dangerous bioweapon development

Jerome Powell is gaining some key backing on Capitol Hill from GOP senators


Ученый с мировым именем никогда не прерывал связи с родным Арцахом. К 120-летию рождения академика Андроника Иосифьяна

Человек против нейросети — суд впервые вернул работу уволенной сотруднице

Объявлена стоимость проезда по новой дороге от Москвы до Екатеринбурга

В России создадут дыхательный тест для ранней диагностики рака лёгких


В демоверсию Silver Palace можно будет поиграть 3 августа в Китае

The origin of 'AI Appreciation Day' isn't what you think: It was started by an Elon Musk admirer who camped outside of SpaceX Starbase for a year hoping to talk to the billionaire about AI regulation

Destiny 2 Phoneutria Fera god roll guide: Best perks, barrels, and magazines

As the Nintendo eShop fails to protect from 'eslop', indie devs reflect on how it affects their work and why Steam is just better: 'Their algorithm will more or less naturally bury AI slop'



Аэропорт Пулково будет принимать авиарейсы из Москвы на фоне ограничений

В Москве пенсионер засудил юристов на полмиллиона рублей

Овечкин раздал автографы на "коробке" своего детства в Москве

Аэропорт Пулково сообщил о приеме перенаправленных из Москвы рейсов


Московское «Динамо» потеряло очки в первом матче сезона с новичком РПЛ

Почему Татьяна Буланова стала популярной у молодежи и сколько стоит ее выступление

Из Петербурга запустят еще один «Сапсан» из-за отмены полетов в Москву

Транспортная прокуратура открыла приёмную в Пулково на фоне отмены авиарейсов


Прогнозист Кваша рассказал, как вычислил дату окончания СВО

В Беларуси вспоминают первую инаугурацию Лукашенко в 1994 году

Москвич 8 лет ищет девушку Наташу, которую встретил у храма

В Госдуме назвали попытку Обамы демонизировать Россию подлой выходкой


Шаповалов одержал победу на теннисном турнире в Лос-Кабосе.

Буассон завоевала свой первый титул в WTA

Раис Татарстана встретился с чемпионкой Уимблдона Вероникой Кудерметовой

Бублик стал победителем турнира в Гштаде.


Станет доступнее, но, к сожалению, не для всех: новая льгота по ЖКХ ждет россиян с 21 июля

Прогнозист Кваша рассказал, как вычислил дату окончания СВО

Отдых на Черном море знатно подешевел: россияне дерутся за билеты — сколько теперь стоят туры на шикарные курорты

От трех до восьми часов: из-за обломков БПЛА в Крыму задерживаются 15 поездов


Музыкальные новости

Менеджер Песни. Менеджер Релиза Песни. Менеджер вышедшей песни.

"Уж лучше Шуру тогда": Новосибирцы против присвоения Элджею звания почётного жителя

«Я люблю Патриаршие пруды»: Любовь Успенская рассказал, что ей нравится в Москве

Metallica спасла Tomorrowland: фестиваль в Бельгии состоится, несмотря на пожар на главной сцене


Овечкин раздал автографы на "коробке" своего детства в Москве

Аэропорт Пулково сообщил о приеме перенаправленных из Москвы рейсов

В Москве пенсионер засудил юристов на полмиллиона рублей

Интересные каналы в Telegram. Лучшие каналы в Telegram.


"Динамо" и "Балтика" сыграли вничью в матче-открытии нового сезона РПЛ

Концертный Директор в тарифе Lait для Артистов, Музыкантов.

Аэропорт Пулково будет принимать авиарейсы из Москвы на фоне ограничений

Клипмейкер. Лучший Клипмейкер. Клипмейкер в Москве.


Один человек погиб и несколько пострадали в аварии с BMW и "Газелью" в Москве

Алексей Тузов для китайские-автомобили.рф: Китайская рулетка – выбери авто, потеряющее в первый год эксплуатации 20%, а не 40%

Один человек погиб и четверо пострадали в ДТП с «Газелью» и BMW в Москве

Один человек погиб и четверо пострадали в результате ДТП в Москве


Путин поделился мерами поддержки для российского автопрома.

Путин поделился новостями о развитии производства на "АвтоВАЗе"

Путин заявил, что восстановление автомобильной промышленности свидетельствует о жизнеспособности экономики.

Путин встретился с главным советником иранского верховного руководителя в Кремле.




В московской клинике нашли камеру у гинекологического кресла

Медик предупреждает о рисках солнечных ожогов для детей.

За жизнь пострадавшего при атаке ВСУ 17-летнего воронежца врачи боролись 10 часов

"Сапсан" отрезал ногу: зацепер стал инвалидом из-за опасного хобби


"Неприятно об этом говорить": Кличко сделал заявление о Зеленском

Зеленский назвал сумму, которую планирует взыскать с России

НОВОСТИ РЕН ТВ в 8:30 — Выпуск от 19 июля 2025 года

Кличко заявил о неприязни к разговорам о Зеленском


Ветеран "Динамо" Дьяков не верит в конкурентоспособность ЦСКА в РПЛ

Овечкин раздал автографы на "коробке" своего детства в Москве

Овечкин рассказал об открытии в Москве музея в честь своего рекорда в НХЛ

Собянин: Более 2,3 тысячи шахматных кружков работают в Москве



Собянин: пресечена пятая за вечер попытка атаки беспилотника на Москву

Собянин сообщил о сбитых силами ПВО 15 летевших на Москву дронах ВСУ

Собянин: силами ПВО Минобороны уничтожен еще один БПЛА, летевший на Москву

Собянин: Более 2,3 тысячи шахматных кружков работают в Москве


Максим Ликсутов: Московская промышленность ...

Вильфанд связал приход тропических ливней в Москву с изменением климата

Вильфанд раскрыл причины тропических ливней в столице

Эксперт объяснил последствия проглатывания осы.


Перед Крымским мостом образовалась рекордная пробка длиной 22 км из 1700 машин

Москвич 8 лет ищет девушку Наташу, которую встретил у храма

Дроны ВСУ запущены по Москве: Генерал Попов допустил работу "спящей ячейки"

НОВОСТИ РЕН ТВ в 16:30 — Выпуск от 20 июля 2025 года


Собянин: Первый участок Рублево-Архангельской линии метро полностью пройден

Органами прокуратуры в сфере надзора за исполнением законодательства при реализации национальных проектов в первом полугодии 2025 года выявлено более тысячи нарушений

Архангельская область - не самое перспективное место для трудоустройства

Прокуратура подсчитала риски нацпроектов в Архангельской области


Информация о задержке поездов в Крым и обратно

Гранд Сервис Экспресс: задерживаются пять поездов в Крым и семь из Крыма

Уважаемые пассажиры!. Сегодня в пути следования задерживаются поезда

"Гранд сервис экспресс" сообщил о задержках 16 поездов в Крым и из Крыма


SHAMAN презентовал клип на песню к Интервидению-2025

Прогнозист Кваша рассказал, как вычислил дату окончания СВО

Москвич 8 лет ищет девушку Наташу, которую встретил у храма

Станет доступнее, но, к сожалению, не для всех: новая льгота по ЖКХ ждет россиян с 21 июля














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *