Добавить новость
Vademec.ru
Октябрь
2025
1 2 3
4
5
6 7 8 9 10
11
12
13 14 15 16 17
18
19
20 21 22 23 24 25
26
27 28
29
30
31

Исследование: ИИ не справляется с персональными советами по долголетию

0

Результаты работы опубликованы в журнале Digital Medicine. В исследование вошли коммерческие решения GPT-4o и o3 mini от американской компании OpenAI, а также две некоммерческие модели – Llama 3.2 3B и специализированная Llama3 Med42 8B от Meta* (США). Кроме того, были протестированы китайские публичные коммерческие модели Qwen 2.5 14B от Alibaba и DeepSeek R1 Distill Llama 70B от DeepSeek. Для сопоставления добавили и биомедицинскую модель OpenBioLLM3 8B, разработанную исследовательской группой BioCypher (Германия) и ориентированную на анализ медицинских данных.

Моделям предлагалось формировать персональные рекомендации по долголетию на основе индивидуальных биомаркерных профилей. В сценариях рассматривались основные меры, применяемые в геронауке: ограничение калорийности питания, интервальное голодание, физическая активность, а также прием пищевых добавок и препаратов, связанных с метаболическим здоровьем и старением. Каждая модель должна была оценить целесообразность таких действий с учетом возраста, сопутствующих заболеваний и возможных рисков. Все системы протестировали на платформе BioChatter, которая автоматически оценила ответы по пяти критериям: корректность, полнота, польза, объяснимость и безопасность.

По общей оценке, модель GPT-4o показала наилучшие результаты, продемонстрировав наивысший показатель точности и полноты ответов среди всех моделей. Средний уровень соответствия медицинским критериям по ней достигал около 90%, тогда как у Llama 3.2 3B и Llama3 Med42 8B этот показатель не превышал 60%. Китайские модели заняли промежуточные позиции, показав устойчивость к изменению формулировок запросов, но уступая по интерпретируемости и полноте ответов.

Все протестированные системы продемонстрировали высокий уровень безопасности – более 95% ответов были признаны не содержащими потенциально вредных рекомендаций, однако именно коммерческие модели чаще формировали корректные, но чрезмерно осторожные ответы, избегая выдачи прямых советов о вмешательствах. По мнению авторов, такая сдержанность связана с особенностями обучения моделей с участием человека: этот подход снижает риск ошибочных рекомендаций, но одновременно ограничивает полноту и практическую ценность ответов.

Отдельно ученые проверили влияние технологии Retrieval-Augmented Generation, при которой модель получает дополнительный контекст из научных публикаций. Эффект оказался неоднозначным: у некоммерческих моделей качество ответов улучшалось, у коммерческих – снижалось. Кроме того, точность зависела от возраста пациента: искусственный интеллект лучше справлялся с типичными для пожилых людей заболеваниями и хуже – с редкими гормональными нарушениями у молодых.

Авторы отметили, что современные большие языковые модели пока не могут использоваться без участия врачей для выдачи персональных рекомендаций по долголетию. Разработанная открытая платформа BioChatter предлагается как инструмент для дальнейшего тестирования и калибровки ИИ-систем в медицинских задачах.

Проблемы применения ИИ в здравоохранении подтверждают и другие исследования. Так, ученые из Университета Брауна в США установили, что большие языковые модели регулярно нарушают базовые этические принципы, лежащие в основе психотерапии. Даже при корректных профессиональных настройках такие системы допускают ошибки, способные причинить вред пользователю, например, игнорируют контекст жизни человека или навязывают универсальные советы.

* Meta признана экстремистской организацией и запрещена в России















Музыкальные новости






















СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *