Добавить новость
smi24.net
News in English
Март
2024

There’s a New King of the Chatbots, and It’s Not ChatGPT

0

If you asked the general public what the best AI model was, chances are good most people would respond with ChatGPT. While there are many players on the scene in 2024, OpenAI's LLM is the one that really broke through and introduced powerful generative AI to the masses. And as it would happen, ChatGPT's Large Language Model (LLM), GPT, has consistently ranked as the top performer among its peers, from the introduction of GPT-3.5, to GPT-4, and currently, GPT-4 Turbo.

But the tide seems to be turning: This week, Claude 3 Opus, Anthropic's LLM, overtook GPT-4 on Chatbot Arena for the first time, prompting app developer Nick Dobos to declare, "The king is dead." If you check the leaderboard as of the time of this writing, Claude still has the edge over GPT: Claude 3 Opus has an Arena Elo ranking of 1253, while GPT-4-1106-preview has a ranking of 1251, followed closely by GPT-4-0125-preview, with a ranking of 1248.

For what's it's worth, Chatbot Arena ranks all three of these LLMs in first place, but Claude 3 Opus does have the slight advantage.

Anthropic's other LLMs are performing well, too. Claude 3 Sonnet ranks fifth on the list, just below Google's Gemini Pro (both are ranked in fourth place), while Claude 3 Haiku, Anthropic's lower-end LLM for efficient processing, ranks just below a version 0613 of GPT-4, but just above version 0613 of GPT-4.

How Chatbot Arena ranks LLMs

To rank the various LLMs that currently available, Chatbot Arena asks users to enter a prompt and judge how two different, unnamed models respond. Users can continue chatting to evaluate the difference between the two, until they decide on which model they think performed better. Users don't know which models they're comparing (you could be pitting Claude vs. ChatGPT, Gemini vs. Meta's Llama, etc.), which eliminates any bias due to brand preference.

Unlike other types of benchmarking, however, there is no true rubric for users to rate their anonymous models against. Users can simply decide for themselves which LLM performs better, based on whatever metrics they themselves care about. As AI researcher Simon Willison tells Ars Technica, much of what makes LLMs perform better in the eyes of users is more about "vibes" than anything else. If you like the way Claude responds more than ChatGPT, that's all that really matters.

Above all, it's a testament to how powerful these LLMs have become. If you offered this same test years ago, you would likely be looking for more standardized data to identify which LLM was stronger, whether that was speed, accuracy, or coherence. Now, Claude, ChatGPT, and Gemini are getting so good, they're almost interchangeable, at least as far as general generative AI use goes.

While it's impressive that Claude has surpassed OpenAI's LLM for the first time, it's arguably more impressive that GPT-4 held out this long. The LLM itself is a year old, minus iterative updates like GPT-4 Turbo, while Claude 3 launched this month. Who knows what will happen when OpenAI rolls out GPT-5, which, at least according to one anonymous CEO, is, "...really good, like materially better." For now, there are multiple generative AI models, each just about as effective as each other.

Chatbot Arena has amassed over 400,000 human votes to rank these LLMs. You can try out the test for yourself and add your voice to the rankings.








Письмо с душой из Marins Park Hotel Екатеринбург

Друг ведущего Дроздова рассказал о курсе уколов, который тот проходит

Группа компаний «ДИАКОН» провела успешную ежегодную конференцию для партнеров в Москве

Бизнесу усиливают защиту: двойной канал связи для безопасности


Dow futures sink as Trump keeps pushing tariffs while White House suggests Powell’s job could be at risk

Son Of British Boxing Legend Retires From The Sport Aged Just 24: “Won’t Be Fighting Again”

Trump's cuts force Texas food banks to ration supplies for flood survivors

ICE is 'supercharging detention' with 'flagrantly unlawful' policy: lawyers


Мобильный терминал сбора данных с ридером RFID тегов Saotron RT41G

Чилим на позитиве...

Врач-офтальмолог Элина Санторо: как выбрать идеальные солнцезащитные очки

В Курской области установился 3-й класс пожарной опасности


Гайд на Fuqiu из Etheria Restart: навыки, PvE-билд, расклад в PvP и дубликаты

Those shadow giants in the distance in Elden Ring Nightreign are over 2 miles tall⁠—almost as big as the Erdtree⁠—and nobody even mentions them in the game

The Expanse RPG's developers are 'humbled' by comparisons to BioWare's heyday, but don't expect it to be a straight Mass Effect clone: 'We make our story a little bit differently'

MMORPG Lord Nine: Infinite Class выпустят в Юго-Восточной Азии 31 июля



Врач-офтальмолог Элина Санторо: как выбрать идеальные солнцезащитные очки

Пора пригласить певца A.SERGIO для участия в теле- и радиопрограммах, подкастах и шоу!

Косметолог Наталья Рябинова: в чем разница между эстетическим и медицинским трихологом

Росгвардейцы из Чеченской Республики стали победителями и призерами чемпионата Северо-Кавказского округа Росгвардии по комплексному единоборству


Вторичное жилье начало дешеветь

Росгвардейцы из Чеченской Республики стали победителями и призерами чемпионата Северо-Кавказского округа Росгвардии по комплексному единоборству

Татарстан вошел в число лидеров по количеству заявок на конкурс брендов «Знай наших»

«Сила в команде»: судебные приставы Кузбасса приняли участие во всероссийских хоккейных соревнованиях среди силовиков


Юрист Хаминский назвал возможных наследников режиссёра Юрия Мороза

Эту одежду многие уже давно выкинули, а зря: топ-7 стильных в 2025 году вещей, которые и через 100 лет будут в моде

Москва. Красота Храма Василия Блаженного

В Подмосковье за один вечер молнии три раза ударили в дома


Кудерметова завоевала свой первый титул Уимблдона в парном разряде.

Синнер завоевал титул на Уимблдоне, победив Алькараса.

Синнер впервые стал победителем Уимблдона

Российская теннисистка Вероника Кудерметова выиграла Уимблдон в парном разряде, а итальянец Янник Синнер – в одиночном


Замоскворецкая линия метро: отсутствие движения между «Белорусской» и «Театральной»

Молния убила трех человек на пляже в России

Москвичам сообщили о надвигающейся грозе с порывистым ветром.

Проверить стыковку и показать «разрядку»: полвека назад началась советско-американская миссия «Союз» — «Аполлон»


Музыкальные новости

Певица МакSим посетила Иволгинский дацан

Суд в Петербурге может признать экстремистской одну из песен группы «Порнофильмы»

Жена Басты сцепилась с Onlyfans-моделью Eva Bogut: подробности скандала

Создание Модели голоса. Создание Модели своего голоса. Создание AI модели голоса.


Вот билет на контент, на эксплойт билетов нет

Косметолог Наталья Рябинова: в чем разница между эстетическим и медицинским трихологом

Пора пригласить певца A.SERGIO для участия в теле- и радиопрограммах, подкастах и шоу!

Росгвардейцы из Чеченской Республики стали победителями и призерами чемпионата Северо-Кавказского округа Росгвардии по комплексному единоборству


«Авито Спецтехника» поддержала команду «КАМАЗ-мастер» на ралли «Шелковый путь»

Ремикс Песни. Создание ремикса Песни. Создание Хитового ремикса песни.

«Спартак» Москва — «Спартак» Суботица. Онлайн, прямая трансляция

Ким Чен Ын: позиции РФ и КНДР «по всем стратегическим вопросам» совпадают


Мобильный интернет перестанут массово отключать в России

КАМАЗ-4280 начал тестовую эксплуатацию на маршруте в Подмосковье

В Москве мужчина ограбил магазин на АЗС, угрожая пистолетом

Вскрытие без последствий – сервис «Спас-замков»


В РФ раскрыли замысел Трампа после его попыток шантажировать Путина

Посол Акира Муто: Япония будет приветствовать возможную встречу Путина и Трампа

В США сделали смелое заявление в отношении Путина.

Путин отметил успех школьников на Международной химической олимпиаде.




Клинический психолог Юлия Тарибо: каким типам личностей сложно было вместе

Врач-офтальмолог Элина Санторо: как выбрать идеальные солнцезащитные очки

Врач-трихолог Мадина Осман: как часто можно делать пересадку волос

Косметолог Наталья Рябинова: в чем разница между эстетическим и медицинским трихологом


ВСУ атаковали дронами женщин под Сумами: Били за надпись "Мы русские"


«Турбозавры» поучаствовали в Дне московского транспорта

Раскрыто расписание Олимпийских игр 2028 года в Лос-Анджелесе.

Травмированного на репетиции в цирке Москвы акробата выписали из больницы

"Пока Путин не заметит это безобразие": Пономарев резко высказался о легионерах в РПЛ


Лукашенко предложил Петербургу ремонтировать всю белорусскую технику

Лукашенко встретился в Минске с делегацией Петербурга для обсуждения сотрудничества

Лукашенко заявил о необходимости проверки чиновников за манипуляции с ценами.

«Нам в Минске надо учиться». Лукашенко похвалил Беглова за зимнюю уборку Петербурга


Сергей Собянин: В Москве появятся три новых пешеходных моста к 2027 году

Сергей Собянин: роботы и электромашины на страже московских улиц


Губернатор Андрей Бочаров принимает участие в образовательной программе Сбера

ГК «АСНА» внедрила систему продвинутой аналитики «Дельта BI»

РЭО проведет акселератор для экоцентров на базе Плехановского университета

Позднякова: температура в Москве останется выше климатической нормы


Многим рискует: юрист сказал, как сидит «золотой» экс-полковник Захарченко

Γpуɜинcκий пοлитиκ: Βce ɜдpaвοмыcлящиe xοтят вepнутьcя в eдинοe пpοcтpaнcтвο c Ροccиeй

Москва прощается с жарой: жителей столицы предупредили о ливнях и грозах

Проверить стыковку и показать «разрядку»: полвека назад началась советско-американская миссия «Союз» — «Аполлон»


Защищённый планшет Saotron RT-W11J на базе ОС Windows10

Алтайский край оказался в числе регионов-аутсайдеров по доступности вторичного жилья

Беспроводной сканер штрих-кодов SAOTRON P05i промышленного класса

В городе Барнауле стартовал третий этап смотра-конкурса на звание "Лучшее звено газодымозащитной службы" среди Главных управлений МЧС России


Крыму и еще 24 регионам России спишут долги на миллиарды рублей

Феодосия получила 150 миллионов на ремонты дворов - где начнут работы

Десятки улиц Симферополя остались без света 14 июля

Под Симферополем горят десятки гектаров леса


Из трёх музеев Томской области томичи отправили по почте 500 «тёплых открыток»

Раскрыто расписание Олимпийских игр 2028 года в Лос-Анджелесе.

(НЕ)СЕКРЕТНУЮ СЛУЖБУ США ПОДОЗРЕВАЮТ В ПОСТАНОВКЕ СЦЕНЫ ПОКУШЕНИЯ НА ТРАМПА. СЕНСАЦИЯ! Новости. В.В. Путин, Дональд Трамп. Россия, США, Европа могут улучшить отношения и здоровье общества!

Татарстан вошел в число лидеров по количеству заявок на конкурс брендов «Знай наших»














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *