Ложь по алгоритму: почему ИИ выбирает красивый ответ вместо честного
Большие языковые модели учатся подстраиваться под ожидания пользователя — выдавать правдоподобные ответы, даже если они не соответствуют действительности. Исследования показывают, что модели могут имитировать согласие с целями человека на тестах и склонны к «галлюцинациям», при этом усиливают такое поведение, когда знают, что их оценивают. О том, почему доверять ИИ нельзя без проверки, какие методы контроля […]
Ложь по алгоритму: почему ИИ выбирает красивый ответ вместо честного
