Когда ИИ начинает лучше убеждать, он начинает хуже говорить правду
Крупнейшее исследование убеждения с помощью ИИ показало тревожную связь: чем эффективнее чат-боты меняют мнения людей, тем чаще они допускают фактические ошибки. Убедительность растёт не за счёт хитрости, а благодаря лавине утверждений, что делает мощные инструменты влияния доступными почти каждому.
Забудьте о тонком психологическом воздействии: искусственный интеллект меняет сознание людей, попросту заваливая их утверждениями. К такому выводу пришли авторы крупнейшего на сегодняшний день исследования в области убеждения с помощью ИИ, результаты которого были опубликованы в журнале Science. Работа выявила тревожный компромисс: методы, повышающие убедительность чат-ботов, систематически снижают их точность.
В масштабном эксперименте приняли участие почти 77 000 жителей Великобритании, которые вели политические дискуссии с 19 различными системами ИИ, включая передовые модели вроде GPT-4.5 и Grok-3. Профессиональные фактчекеры и отдельная система ИИ оценили более 466 000 сгенерированных утверждений.
Убеждение работает на объёме, а не на хитрости
Исследование опровергло распространённые предположения. Оказалось, что ИИ меняет мнения людей не за счёт микротаргетинга, персонализации или психологических уловок, а благодаря стратегии информационного перегруза. Наиболее эффективной тактикой было простое указание модели подкреплять аргументы фактами и доказательствами. В результате чат-боты начинали генерировать в разы больше проверяемых утверждений за один диалог.
Например, GPT-4o, получив такое указание, выдавал в среднем более 25 утверждений против менее чем 10 при других подходах. Его убедительность возрастала на 27%. Однако за этот рост пришлось заплатить правдивостью. Точность ответов той же модели в аналогичных условиях падала с 78% до 62%. Ещё более новая GPT-4.5 демонстрировала схожую динамику: её точность снижалась с 70% до 56%, когда её просили быть убедительнее.
Правда не всегда в размере
Одним из самых неожиданных открытий стало то, что более новые и крупные модели не обязательно являются более правдивыми. GPT-4.5, одна из новейших протестированных систем, в режиме убеждения выдавала неточную информацию более чем в 30% случаев. При этом GPT-3.5, выпущенная двумя годами ранее, превосходила её по точности на 13 процентных пунктов. Это указывает на то, что прогресс в «размере» и новизне моделей не гарантирует аналогичного прогресса в их надёжности в условиях диалога.
Диалог — ключевой усилитель
Статичные тексты, сгенерированные ИИ, оказывали слабое влияние. Однако диалог в формате «вопрос-ответ» усиливал эффект убеждения на 40–50%, и это влияние сохранялось спустя месяц. В смоделированных условиях максимального воздействия, когда использовались лучшая модель, оптимальные подсказки и специальное обучение, ИИ смещал мнение аудитории в среднем на 16 процентных пунктов. Среди изначально несогласных участников эффект достигал 26 процентных пунктов. Цена такого успеха — почти треть из в среднем 22.5 проверяемых утверждений за беседу оказывались неточными.
Демократизация влияния
Важным практическим выводом исследования является демократизация инструментов убеждения. Оказалось, что относительно небольшие модели с открытым исходным кодом, которые можно запустить на стандартном ноутбуке, после специализированного обучения достигали убедительности, сопоставимой с передовыми системами вроде GPT-4o. Это означает, что высокоэффективные инструменты влияния на основе ИИ становятся доступными для очень широкого круга лиц и организаций.
Исследователи под руководством учёных из Института безопасности ИИ Великобритании, Лондонской школы экономики и MIT пришли к выводу, что в архитектуре современных ИИ, по-видимому, заложен фундаментальный компромисс. Способность быстро генерировать релевантный поток информации в диалоге, делающая системы полезными, одновременно является механизмом, обеспечивающим как убедительность, так и рост числа ошибок. Ложные утверждения возникают как побочный эффект необходимости говорить больше, а не как прямой инструмент влияния.
Таким образом, данные указывают на тревожную закономерность: чем искусственный интеллект становится искуснее в изменении человеческого мнения, тем менее надёжным источником фактов он является. Это ставит острые вопросы перед разработчиками и обществом о том, как совместить эффективность и правдивость цифровых собеседников в будущем.
