Добавить новость
smi24.net
Разное на 123ru.net
Январь
2026
1 2 3 4 5 6 7 8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

Без языка человек видит мир иначе: доказано, что речь физически меняет работу зрительной коры

В когнитивной науке долго идет спор двух сторон. Одна сторона утверждает: зрение — это сугубо механический процесс, камера, передающая картинку в мозг. Другая (сторонники гипотезы Сепира-Уорфа) настаивает: язык, на котором мы говорим, меняет то, как мы видим мир.


Новое исследование, кажется, ставит точку в этом споре. Используя современные нейросети (вроде CLIP) и данные пациентов с повреждением мозга — ученые доказали: без языка мы видели бы мир совсем иначе.

Влияние речи на восприятие мира, абстрактная интерпретация
Автор: ИИ Copilot Designer//DALL·E 3
Методологический прорыв: синтез искусственного и биологического интеллекта

Для изучения процессов, происходящих в мозге, исследователи использовали глубокие нейронные сети в качестве математических моделей. Искусственные нейросети достигли того уровня сложности, который позволяет использовать их как суррогатные модели для проверки гипотез о работе биологических систем. Если активность искусственной сети при просмотре изображений схожа с активностью мозга человека, это позволяет сделать выводы о принципах кодирования информации в живой ткани.


В эксперименте сравнивались три архитектуры компьютерного зрения, принципиально различающиеся алгоритмами обучения:

  1. MoCo (Self-supervised learning): модель, обученная без учителя. Она анализирует миллионы изображений, выявляя закономерности в пикселях, текстурах и геометрии объектов, но не имеет доступа к текстовым меткам. Эта модель имитирует чистое зрение, лишенное языкового контекста.
  2. ResNet (Supervised classification): стандартная модель классификации, обученная сопоставлять изображение с конкретным словом-меткой (например, «автомобиль» или «яблоко»). Это имитирует уровень категоризации объектов.
  3. CLIP (Vision-Language model): мультимодальная система, которая обучается на парах «изображение — текстовое описание». В отличие от ResNet, она анализирует не просто ярлыки, а сложные семантические конструкции и отношения между объектами, выраженные в естественном языке.

Этап 1: Корреляционный анализ на здоровой выборке

На первом этапе исследования ученые проанализировали данные функциональной магнитно-резонансной томографии (фМРТ) здоровых добровольцев. Участникам демонстрировали различные визуальные стимулы, фиксируя активность в вентральной затылочно-височной коре (VOTC) — ключевой зоне, отвечающей за распознавание объектов.

Результаты показали устойчивую закономерность: активность зрительной коры человека наиболее точно предсказывалась моделью CLIP. Паттерны возбуждения нейронов при просмотре объектов статистически достоверно совпадали с тем, как кодирует информацию нейросеть, обладающая знаниями о структуре языка. Модели ResNet (знающая только слова-ярлыки) и MoCo (не знающая языка вовсе) показали значительно меньшее соответствие.

Этот факт позволил выдвинуть гипотезу: человеческая зрительная система не просто пассивно регистрирует визуальные признаки, но активно использует семантическую информацию (смыслы и описания) для построения визуальных репрезентаций. Однако наличие соотношения не являлось доказательством причинно-следственной связи. Существовал риск, что CLIP показывает лучшие результаты по иным техническим причинам, например, из-за большего объема обучающей выборки.

Обзор данных фМРТ, моделей зрения и схемы анализа. a. В таблице перечислены четыре использованных набора данных фМРТ (OPN95, SPN95, FV14 и THINGS), включая типы стимулов и задачи для участников. Важно отметить, что участники из набора FV14 служили контрольной группой здоровых людей для сравнения с пациентами во втором этапе исследования. b. Схема анализа для первого исследования. Мы сравнили, насколько точно три разные модели зрения соответствуют нейронным реакциям в вентральной затылочно-височной коре (VOTC). Использовались: Визуальный энкодер OpenAI CLIP (обучение на естественных текстах). ResNet-50 (обучение на метках категорий, созданных людьми). MoCo v3 (самообучение без учителя). У всех трех моделей одинаковая базовая архитектура (ResNet-50), разница лишь в способе обучения. И моделям, и людям показывали одни и те же изображения объектов. Для сравнения реакций мозга и ИИ использовали метод анализа репрезентативного сходства (RSA). В маске VOTC для каждого участка строили матрицы различий (RDMs), показывающие, как мозг воспринимает сходство между парами объектов. Затем рассчитывали частичную корреляцию Спирмена между матрицами мозга и матрицами моделей, чтобы выявить зоны, где активность мозга совпадает с предсказаниями нейросетей. Эффект «sentence description» (описание предложениями) показывает уникальный вклад модели CLIP (за вычетом влияния ResNet и MoCo), а эффект «verbal categorization» (словесная категоризация) отражает вклад ResNet (за вычетом MoCo).
Автор: Haoyang Chen et al. arXiv:2501.13628 [q-bio.NC] Источник: arxiv.org

Этап 2: Клиническая валидация через повреждения мозга

Для доказательства того, что именно языковая система модулирует зрение, авторы перешли к анализу данных пациентов с очаговыми поражениями мозга. В выборку вошли 33 пациента, перенесших ишемический инсульт.

Ключевым объектом исследования стали проводящие пути белого вещества — аксоны, физически соединяющие различные участки коры. Ученых интересовал конкретный тракт, связывающий зрительную кору (VOTC) с левой угловой извилиной (Angular Gyrus, AG). Левая угловая извилина является очень важным узлом языковой сети, отвечающим за интеграцию семантической информации и понимание сложных понятий.

Логика эксперимента была следующей: если преимущество модели CLIP в объяснении работы мозга действительно основано на взаимодействии зрения и языка, то физический разрыв связи между зрительной корой и языковым центром должен устранить этот эффект.

Результаты подтвердили гипотезу с высокой точностью:

  1. У пациентов, у которых структурная целостность путей между VOTC и левой угловой извилиной была сохранена, активность зрительной коры по-прежнему лучше всего описывалась моделью CLIP.
  2. У пациентов с повреждением этого тракта наблюдалось статистически значимое снижение соответствия модели CLIP.
  3. Самое важное: при нарушении связи с языковым центром активность зрительной коры начинала лучше коррелировать с моделью MoCo — алгоритмом, который опирается исключительно на визуальные характеристики низкого уровня.
Сравнение и визуализация внутренних представлений моделей зрения. a. График корреляции между матрицами различий (RDM) на каждом слое моделей CLIP, ResNet-50 и MoCo v3 (усреднено по всем наборам данных). Каждая точка — среднее значение. Слой «avgpool» (средний пулинг) показал самую низкую корреляцию между моделями — это означает, что именно на этом этапе «восприятие» мира у моделей различается сильнее всего, поэтому этот слой выбрали для дальнейшего анализа. b. Слева: визуализация матриц RDM для набора данных THINGS. Красный цвет — объекты не похожи, синий — максимально похожи. Также приведена матрица человеческого поведения (оценки сходства объектов реальными людьми). Справа: пары изображений, которые каждая модель считает наиболее похожими друг на друга (уникальный вклад каждой модели, очищенный от влияния двух других). Это наглядно показывает, что CLIP, ResNet и MoCo используют разные принципы для группировки объектов. c. График того, насколько каждая модель совпадает с человеческим восприятием. Высота столбцов показывает среднюю корреляцию Спирмена между RDM модели и поведением людей. Точки и пунктирные линии отражают разброс значений в конкретных наборах данных (OPN95, FV14, THINGS). Видно, что CLIP ближе всего к человеческой логике оценки сходства.
Автор: Haoyang Chen et al. arXiv:2501.13628 [q-bio.NC] Источник: arxiv.org
Латерализация и специфичность эффекта

Исследование выявило анатомическую специфичность. Эффект наблюдался только при повреждении связей в левом полушарии. Это критически важное наблюдение, поскольку у подавляющего большинства людей языковые функции распределены именно слева. Повреждение аналогичных путей в правом полушарии, соединяющих зрительную кору с правой угловой извилиной (которая не участвует в обработке языка), никак не влияло на точность предсказаний модели CLIP.

Это исключает возможность того, что изменения в работе зрительной коры были вызваны общим снижением когнитивных способностей или неспецифическим повреждением мозга. Влияние оказывал именно разрыв коммуникации с лингвистическим модулем.

Карты мозга, показывающие влияние языка на зрительную кору (VOTC) и распределение активности по полушариям. Черные контуры очерчивают границы VOTC — зоны зрительной коры, где проводился анализ. Верхний ряд: Усредненные карты активности для трех групп участников: слышащие (OPN95), глухие (SPN95) и здоровая контрольная группа (FV14). Синим цветом отмечен «эффект описания предложений» — зоны, где мозг работает подобно модели CLIP (учитывающей сложный языковой контекст). Оранжевым цветом отмечен «эффект словесной категоризации» — зоны, соответствующие модели ResNet (знающей только отдельные слова-ярлыки). Столбчатые диаграммы под картами показывают индекс латерализации (LIs) — то есть, насколько сильно активность смещена в левое или правое полушарие. Нижний ряд: Индивидуальные карты мозга трех конкретных участников из набора данных THINGS (показывают те же эффекты на уровне отдельных людей). Все карты отображены с учетом строгого порога статистической значимости.
Автор: Haoyang Chen et al. arXiv:2501.13628 [q-bio.NC] Источник: arxiv.org
Механизм семантической модуляции

Полученные данные позволяют пересмотреть архитектуру человеческого восприятия. Результаты свидетельствуют о том, что визуальная информация в мозге не обрабатывается изолированно. В процессе восприятия зрительная кора (VOTC) постоянно взаимодействует с языковой сетью через угловую извилину.

Этот процесс можно описать как динамическую модуляцию: языковая система предоставляет зрительной коре высокоуровневые семантические шаблоны («что это может быть» и «как это связано с другим объектами»), что позволяет зрительной системе более эффективно организовывать входящий поток визуальной информации.

Когда эта связь нарушается вследствие инсульта, зрительная кора не прекращает работу, но переходит в режим автономного функционирования. В этом состоянии она обрабатывает объекты, опираясь преимущественно на их форму, текстуру и физические параметры (подобно модели MoCo), теряя доступ к богатому контекстуальному слою, который обеспечивает язык.


Связь между целостностью путей белого вещества (WM) и работой зрительной коры у пациентов с повреждением мозга. a. Результаты регрессионного анализа. Столбцы показывают, насколько сильно сохранность различных путей белого вещества (между левой зрительной корой VOTC и языковыми зонами) зависит от того, как работает мозг пациента (по типу CLIP, ResNet или MoCo). Звездочка (*) над столбцом «left VOTC-AG» указывает на главную находку: именно целостность пути к левой угловой извилине (AG) критически важна. Уравнение регрессии показывает: чем лучше работает этот путь, тем сильнее мозг похож на CLIP и меньше — на MoCo. b. Графики корреляции для тракта VOTC-AG: Каждая точка — отдельный пациент. Левый график: чем выше целостность пути (FA values), тем сильнее выражен эффект CLIP (мозг использует язык). Правый график: при разрушении этого пути усиливается эффект MoCo (мозг переходит на «безъязыковое» восприятие). c. Проверочный анализ (валидация). Здесь проверяли связь с правой угловой извилиной (которая не отвечает за язык). Значимых связей не найдено. Это доказывает, что эффект специфичен именно для левого «языкового» полушария.
Автор: Haoyang Chen et al. arXiv:2501.13628 [q-bio.NC] Источник: arxiv.org
Значение для разработки искусственного интеллекта

Исследование полезно не только для медицины и нейробиологии, но и для сферы компьютерных наук. Оно эмпирически подтверждает, что для создания искусственного интеллекта, способного воспринимать мир подобно человеку, недостаточно увеличивать вычислительные мощности или объем визуальных данных.

Биологически правдоподобная модель компьютерного зрения должна быть мультимодальной. Обучение алгоритмов исключительно на изображениях (как в случае с MoCo) создает систему, которая эффективно различает текстуры, но фундаментально отличается от человеческого мозга в принципах организации информации. Внедрение языкового обучения в визуальные модели (как это реализовано в CLIP) приближает работу искусственных нейросетей к нейрофизиологическим стандартам.

Работа доказывает, что язык является неотъемлемым компонентом визуального опыта человека, действуя как активный участник процесса формирования зрительных образов.

Источник:arXiv















Музыкальные новости






















СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *