Добавить новость
smi24.net
News in English
Март
2023

GPT-4 answers are mostly better than GPT-3's (but not always)

0

Good news for generative AI fans, and bad news for those who fear an age of cheap, procedurally-generated content: OpenAI's GPT-4 is a better language model than GPT-3, the model that powered ChatGPT, the chatbot that went viral late last year.

According to OpenAI's own reports, the differences are stark. For instance, OpenAI claims GPT-3 tanked a "simulated bar exam," with disastrous scores in the bottom ten percent, and that GPT-4 crushed that same exam, scoring in the top ten percent. Having never taken this "simulated bar exam," most people just need to see this model in action to be impressed.

And in side-by-side tests, the new model is impressive, but not as impressive as its test scores seem to imply. In fact, in our tests, sometimes GPT-3 gave the more useful answer.

To be clear, not all the features touted by OpenAI at yesterday's launch are available for public evaluation. Notably (and rather astonishingly) it accepts images as inputs, and outputs text — meaning it's theoretically capable of answering questions like "Where on this screengrab from Google Earth should I build my house?" But we have not been able to test that out.

Here's what we were able to test:

GPT-4 hallucinates less than GPT-3

The best way to sum up GPT-4 as compared to GPT-3 might be this: Its bad answers are less bad.

When asked a point-blank factual question, GPT-4 is shaky, but considerably better at not simply lying to you than GPT-3. In this example, you can see the model struggle with a question about bridges between countries currently at war. This question was designed to be hard in several ways. Language models are bad at answering questions about anything "current," wars are hard to define, and geography questions like this are deceptively sludgy and hard to answer clearly, even for a human trivia buff.

Neither model gave an A+ answer.

Left: GPT-3 Credit: OpenAI / Screengrab
Right: GPT-4 Credit: OpenAI / Screengrab

GPT-3, as always, loves to hallucinate. It fudges geography quite a bit to make wrong answers sound correct. For instance, the symbolic bridge it mentions in the Koreas is near North Korea, but both sides of it are in South Korea.

GPT-4 was more careful, disclaimed its ignorance of the present, and provided a much shorter list, which was also somewhat inaccurate. The strained relations between the states GPT-4 mentions aren't exactly all-out war, and opinions differ on whether the line on a map between Gaza and Israel even qualifies as a national border, but GPT-4's answer is nonetheless more useful than GPT-3's.

GPT-3 falls into other logical traps that GPT-4 successfully sidestepped in my tests. For instance, here's a question in which I'm asking which movies are watched by French children. I'm not asking for a list of kid-friendly French movies, but I know a bot informed by listicles and Reddit posts might read my question that way. While I don't know any French children, GPT-4's answer makes more intuitive sense than GPT-3's:

Left: GPT-3 Credit: OpenAI / Screengrab
Right: GPT-4 Credit: OpenAI / Screengrab

GPT-4 picks up on subtext better than GPT-3

Humans are tricky. Sometimes we'll ask for something without asking for it, and sometimes in response to a request like that, we'll give what was asked for without really giving it. For instance, when I asked for a limerick about a "real estate tycoon from Queens," GPT-3 did not seem to notice I was winking. GPT-4, however, picked up on my wink, and winked back.

Left: GPT-3 Credit: OpenAI / Screengrab
Right: GPT-4 Credit: OpenAI / Screengrab

Is Melania Trump "golden-haired"? Never mind because the next allusion to a color, "And turned the whole world tangerine!" is a downright lovely punchline for this limerick. Which brings me to my next point...

GPT-4 writes slightly less painful poetry than GPT-3

When humans write poetry, let's face it: most of it is horrific. That's why criticizing GPT-3's famously bad poetry wasn't really a knock on the technology itself, given that it's supposed to imitate humans. Having said that, reading GPT-4's doggerel is noticeably less excruciating than reading GPT-3's.

Case in point: these two sonnets about Comic Con that I willed into existence in a fit of masochism. GPT-3's is a monstrosity. GPT-4's is just bad.

Left: Gpt-3 Credit: OpenAI / Screengrab
Right: GPT-4 Credit: OpenAI / Screengrab

GPT-4 is sometimes worse than GPT-3

There's no sugar coating it: GPT-4 mangled its answer to this tricky question about rock history. I gather GPT-3 had been trained on the most famous two answers to this question: The Jimi Hendrix Experience and The Ramones (although some members of the Ramones who joined after the original lineup are still alive), but also got lost in the woods, listing famously dead lead singers of bands with surviving members. GPT-4, meanwhile, was just lost.

Left: GPT-3 Credit: OpenAI / Screengrab
Right: GPT-4 Credit: OpenAI / Screengrab

GPT-4 hasn't mastered inclusiveness

I gave both models another rock history question to see if either of them could remember that rock n' roll was once an almost entirely Black genre of music. For the most part, neither did.

Left: GPT-3 Credit: OpenAI / Screengrab
Right: GPT-4 Credit: OpenAI / Screengrab

With all due respect to the legend Clarence Clemons, does a list like this really need to include him multiple times as a member of a mostly white band? Should it maybe make room for songs that are deep in the marrow of American music culture like "Blueberry Hill" by Fats Domino, or "Long Tall Sally" by Little Richard?

Overall, GPT-4 is a subtle step up that still needs work. Its reports about passing tests that GPT-3 bombed may make seem like the difference between the two models is night-and-day, but in my tests the difference is more like twilight versus dusk.








Когда профессионализм равно безопасность: сеть клиник «Будь Здоров» оказала поддержку участникам «Суворовского трейла»

Клинический психолог Юлия Тарибо: каким типам личностей сложно было вместе

Коллекция Marc Jacobs осень-зима 2025/26

Marins Park Hotel Ростов – это больше, чем просто отель


Son Of British Boxing Legend Retires From The Sport Aged Just 24: “Won’t Be Fighting Again”

First confirmed death during Trump ICE raid is a farmworkers at a California cannabis facility

Trump's cuts force Texas food banks to ration supplies for flood survivors

Dow futures sink as Trump keeps pushing tariffs while White House suggests Powell’s job could be at risk


Смертельное ДТП на Вольской. Водитель "Чангана" оказался злостным нарушителем ПДД

«Мне ничего не будет»: кавказцы устроили стрельбу возле ЗАГСа в Санкт-Петербурге

В Курской области молодой человек осужден за угрозу убийством в ходе пьяной ссоры

Каршеринг BelkaCar запустил новый сезон проекта «Умные путешествия»


Those shadow giants in the distance in Elden Ring Nightreign are over 2 miles tall⁠—almost as big as the Erdtree⁠—and nobody even mentions them in the game

Гайд на Fuqiu из Etheria Restart: навыки, PvE-билд, расклад в PvP и дубликаты

The Expanse RPG's developers are 'humbled' by comparisons to BioWare's heyday, but don't expect it to be a straight Mass Effect clone: 'We make our story a little bit differently'

MMORPG Lord Nine: Infinite Class выпустят в Юго-Восточной Азии 31 июля



«Турбозавры» поучаствовали в Дне московского транспорта

Ремикс Песни. Создание ремикса Песни. Создание Хитового ремикса песни.

Москва прощается с жарой: жителей столицы предупредили о ливнях и грозах

«Искуситель», «Актриса» и «Пиковая дама»: топ 3 спектаклей сентября


«Турбозавры» поучаствовали в Дне московского транспорта

Москва прощается с жарой: жителей столицы предупредили о ливнях и грозах

Жители Прикамья активно покупают билеты на транспорт в отделениях Почты России

Проверить стыковку и показать «разрядку»: полвека назад началась советско-американская миссия «Союз» — «Аполлон»


«Сила в команде»: судебные приставы Кузбасса приняли участие во всероссийских хоккейных соревнованиях среди силовиков

(НЕ)СЕКРЕТНУЮ СЛУЖБУ США ПОДОЗРЕВАЮТ В ПОСТАНОВКЕ СЦЕНЫ ПОКУШЕНИЯ НА ТРАМПА. СЕНСАЦИЯ! Новости. В.В. Путин, Дональд Трамп. Россия, США, Европа могут улучшить отношения и здоровье общества!

Жители Прикамья активно покупают билеты на транспорт в отделениях Почты России

«Союз-Аполлон» — вторая встреча над Эльбой. А можем повторить?


Российская теннисистка Вероника Кудерметова выиграла Уимблдон в парном разряде, а итальянец Янник Синнер – в одиночном

Байопик Эша стал ближе к экрану

Медведев стал обладателем Кубка короля в Испании.

Синнер впервые стал победителем Уимблдона


(НЕ)СЕКРЕТНУЮ СЛУЖБУ США ПОДОЗРЕВАЮТ В ПОСТАНОВКЕ СЦЕНЫ ПОКУШЕНИЯ НА ТРАМПА. СЕНСАЦИЯ! Новости. В.В. Путин, Дональд Трамп. Россия, США, Европа могут улучшить отношения и здоровье общества!

В Подмосковье за один вечер молнии три раза ударили в дома

АвтоВАЗ отгружает Lada Iskra дилерам. Цены объявят на этой неделе

Жители Прикамья активно покупают билеты на транспорт в отделениях Почты России


Музыкальные новости

Певица МакSим посетила Иволгинский дацан

К новой подружке Тимати подбивали клинья Крид и Тарзан

Алгоритмы Яндекс Музыки. Алгоритмы продвижения в Яндекс Музыка.

Катя Гордон сравнила мужа Леры Кудрявцевой с Анастасией Волочковой


«Искуситель», «Актриса» и «Пиковая дама»: топ 3 спектаклей сентября

Ремикс Песни. Создание ремикса Песни. Создание Хитового ремикса песни.

В Подмосковье за один вечер молнии три раза ударили в дома

Клинический психолог Юлия Тарибо: каким типам личностей сложно было вместе


Создание Ремикса. Создание ремикса музыки. Создание хитовых ремиксов музыки.

Сделка против Путина: Что предложила Канада Пригожину за снятие санкций. Правду скрывали годами

Правительство спишет долги 25 регионов по бюджетным кредитам на 43 миллиарда рублей – Мишустин

ФК «Спартак» продлил контракт с полузащитником Мартинсом


СМИ: Байкер разбился насмерть в ДТП с машиной на Раменской пойме в Подмосковье

Красные арки, синяя подсветка. В Москве строят новые пешеходные мосты

В Москве мужчина ограбил магазин на АЗС, угрожая пистолетом

КАМАЗ-4280 начал тестовую эксплуатацию на маршруте в Подмосковье


Путин отметил успех школьников на Международной химической олимпиаде.

Подведение итогов года семьи: Путин обсудил демографические и медицинские вопросы.

"Пока Путин не заметит это безобразие": Пономарев резко высказался о легионерах в РПЛ

В РФ раскрыли замысел Трампа после его попыток шантажировать Путина




Группа компаний «ДИАКОН» провела успешную ежегодную конференцию для партнеров в Москве

Травмированного на репетиции в цирке Москвы акробата выписали из больницы

Клинический психолог Юлия Тарибо: каким типам личностей сложно было вместе

Врач-стоматолог клиники «Мегастом» Наталья Тышкевич: чем опасно самолечение


ВСУ атаковали дронами женщин под Сумами: Били за надпись "Мы русские"


«Спартак» продлил контракт с люксембургским футболистом Мартинсом

«Турбозавры» поучаствовали в Дне московского транспорта

ФК «Спартак» продлил контракт с полузащитником Мартинсом

Травмированного на репетиции в цирке Москвы акробата выписали из больницы


Лукашенко заявил о необходимости проверки чиновников за манипуляции с ценами.

Петербургская делегация провела переговоры с президентом Беларуси в Минске

Губернатор Петербурга Александр Беглов встретился с президентом Республики Беларусь Лукашенко

Лукашенко предложил Петербургу ремонтировать всю белорусскую технику


Собянин встретился с новоселами дома по реновации в Хорошево-Мневниках

Сергей Собянин: Взяли курс на развитие высокотехнологичного сектора

Собянин рассказал о предпрофессиональных каникулах для школьников

Сергей Собянин: В Москве появятся три новых пешеходных моста к 2027 году


РЭО запускает акселератор для экологических центров на базе Плехановского университета

РЭО проведет акселератор для экоцентров на базе Плехановского университета

Spark.ru - экосистема, объединяющая представителей бизнеса, экспертов и инвесторов

Платформа Spark.ru - полезное пространство для представителей малого и среднего бизнеса


АвтоВАЗ отгружает Lada Iskra дилерам. Цены объявят на этой неделе

«Сила в команде»: судебные приставы Кузбасса приняли участие во всероссийских хоккейных соревнованиях среди силовиков

В Подмосковье за один вечер молнии три раза ударили в дома

«Союз-Аполлон» — вторая встреча над Эльбой. А можем повторить?


В городе Барнауле стартовал третий этап смотра-конкурса на звание "Лучшее звено газодымозащитной службы" среди Главных управлений МЧС России

Фестиваль духовых оркестров пройдет в трех городах Поморья по случаю Дня ВМФ

Алтайский край оказался в числе регионов-аутсайдеров по доступности вторичного жилья

Беспроводной сканер штрих-кодов SAOTRON P05i промышленного класса


Крыму и еще 24 регионам России спишут долги на миллиарды рублей

Под Симферополем горят десятки гектаров леса

Прогноз погоды в Крыму на 13 июля

Симферополь частично остался без света утром 14 июля


АвтоВАЗ отгружает Lada Iskra дилерам. Цены объявят на этой неделе

Апелляция: Экс-замминистра обороны Иванов и растрата 3,9 млрд рублей

(НЕ)СЕКРЕТНУЮ СЛУЖБУ США ПОДОЗРЕВАЮТ В ПОСТАНОВКЕ СЦЕНЫ ПОКУШЕНИЯ НА ТРАМПА. СЕНСАЦИЯ! Новости. В.В. Путин, Дональд Трамп. Россия, США, Европа могут улучшить отношения и здоровье общества!

Жители Прикамья активно покупают билеты на транспорт в отделениях Почты России














СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *