Новое исследование проливает свет на то, как мозг учится искать вознаграждение

14/12/2023

Лайнуть/Поделиться

Вознаграждение не просто подкрепляет конкретное действие — оно быстро меняет всю модель нашего поведения.

Представьте, что вы учите собаку играть в мяч. Вы бросаете мяч, собака бежит за ним, подхватывает его и бежит обратно. Затем вы награждаете своего запыхавшегося щенка лакомством. И теперь собака должна понять, какая часть последовательности действий принесла ей лакомство. Ученые называют это «проблемой предназначения похвалы» в мозге. Это фундаментальный вопрос о том, как понять, какие действия ответственны за положительные результаты, которые мы испытываем.

Известно, что дофамин, ключевой химический мессенджер в мозге, играет решающую роль в этом процессе. Но как именно мозг связывает конкретные действия с выбросом дофамина, до сих пор остается неясным.

Исследование, опубликованное вчера, 13.12.2023, в журнале Nature учеными из Института Аллена, Института поведения мозга Цукермана при Колумбийском университете, Центра Шампалимо и Детского научно-исследовательского института Сиэтла, проливает новый свет на эту загадку. Оно показывает, как дофамин не только сигнализирует о вознаграждении, но и помогает животным методом проб и ошибок выбирать конкретные модели поведения, которые приводят к этому вознаграждению.

Интригующе, но исследование также показывает, что система вознаграждения мозга может быстро и динамично изменять весь спектр движений и поведения животного. По словам старшего автора исследования Руи Коста, это говорит о сложной стратегии обучения, при которой поведение не просто подкрепляется, а активно формируется и настраивается в процессе опыта.

«Когда вы подкрепляете поведение, мы часто думаем, что это просто действие», — сказал Коста, президент и генеральный директор Института Аллена. «Но нет: вы меняете всю структуру поведения. И что действительно удивительно, так это то, насколько быстро это происходит».

Расшифровка того, как дофамин формирует обучение

Для того чтобы выяснить это, команда сотрудничала с инженерами и нейробиологами из Центра Шампалимо, чтобы разработать новую систему «замкнутого цикла», которая могла бы связать определенные действия мышей с высвобождением дофамина в режиме реального времени. Исследователи оснастили мышей беспроводными датчиками, чтобы отслеживать их перемещения в простом контролируемом пространстве. Затем они передали эти данные в алгоритм машинного обучения, который разделил эти действия на отдельные группы. Затем исследователи использовали оптогенетику — метод управления нейронами с помощью света — для стимуляции дофаминовых нейронов, когда мыши выполняли заранее определенные «целевые действия».

Они обнаружили, что мыши быстро меняли свое поведение в ответ на высвобождение дофамина. Сначала они увеличивали частоту не только целевых действий, но и сходных с ними, а также тех, которые происходили за несколько секунд до выброса дофамина. При этом частота действий, непохожих на целевые, быстро снижалась. Со временем это уточнение становилось все более точным, и мыши все чаще фокусировались именно на том действии, которое приводило к выбросу дофамина.

В исследовании также изучался процесс обучения мышей серии действий, что позволило выявить ключевой процесс, похожий на перемотку времени для понимания того, что приводит к вознаграждению. Когда действия, вызывающие выброс дофамина, происходили на большом расстоянии друг от друга, мыши учились медленнее. Это говорит о том, что при более длительных промежутках между действиями мышам сложнее связать последовательность действий с вознаграждением. По сути, действия, предшествующие вознаграждению, быстро усваиваются и совершенствуются, в то время как более ранние действия совершенствуются постепенно. Этот процесс «перемотки» закрепляет поведение и помогает мышам постепенно определить, какие именно действия и последовательности приносят награду.

По словам ведущего автора Джонатана Танга (Jonathan Tang), доктора философии, доцента Медицинского института Университета Вашингтона по педиатрии и Детского научно-исследовательского института Сиэтла, полученные результаты могут повлиять на такие области, как образование и искусственный интеллект (ИИ). Например, возможность исследования, ошибок и постепенного совершенствования в классе может больше соответствовать врожденным процессам обучения нашего мозга.

В искусственном интеллекте эти знания могут привести к созданию более сложных и эффективных систем обучения. Более точно воспроизведя биологические процессы обучения, мы сможем создать ИИ, который будет лучше адаптироваться к новым данным и ситуациям.

Это исследование позволяет глубже понять, как наш мозг учится и адаптируется путем проб и ошибок — будь вы ученый или школьник.

«Мы считаем само собой разумеющимися многие вещи, включая предназначение похвалы», — говорит Танг, который начал исследование вместе с Костой во время учебы в Колумбийском университете. «Но когда вы действительно начинаете погружаться внутрь, вы осознаете всю сложность. Именно поэтому люди занимаются наукой: чтобы докопаться до истины».

Исследование(закрытое): Tang, J.C.Y., Paixao, V., Carvalho, F. et al. Dynamic behaviour restructuring mediates dopamine-dependent credit assignment. Nature (2023). https://doi.org/10.1038/s41586-023-06941-5

Вознаградить админа можно по этим реквизитам:

PayPal/BinancePay: maximleo2@gmail.com
USDT (TRC 20): TLwprbnDEfh89GW75NbM7diPLDXXWLQsRh
ETH: 0x0f3caa9e1e69aae0e23fb039e74b5093c3427d75
BTC: 1LSvFymP9hANhiQ1VfeCFn1udLwETczfgq
Номер карты МоноБанки: 5375411204212299

Редакция

Следующая статья Что скрывает в себе рот пингвина? »

Предыдущая статья « Украина потеряла 18% ученых из-за войны

Метки: поведение

14/12/2023

Нейрохирурги могут вызывать электродом как механический смех, так и «искреннюю» радость
Исследователи могут вызвать конкретный тип смеха точечным разрядом тока. Когда мы искренне хохочем над отличной…
Ученые близки к декодированию визуального воображения из-за схожести его нейронного кода со зрительным восприятием
Этот прорыв, по сути, показывает, что человеческий мозг действует как генеративная модель. Мозг не просто…
Живот управляет мозгом. В буквальном смысле, движение мозга вызывается сокращениями мышц брюшной полости
Каждый раз, когда вы напрягаете мышцы туловища, чтобы встать со стула, подтягиваете живот перед тем,…

Недавние публикации

Общество

Каннабис может улучшить распознавание эмоций по лицу, но может и ухудшить, в зависимости от соотношения в нем фитоканнабиноидов

48 человек, регулярно курящих каннабис, участвовали в двойном слепом плацебо-контролируемом эксперименте с четырьмя разными дозами,… Читать далее

25/07/2026

Общество

Мужчины смотрят прямо перед собой, а женщины осматривают периферию поля зрения?

Женщины во время ходьбы в темноте активнее сканируют обстановку вокруг. По мнению исследователей, такое внимание… Читать далее

08/07/2026

«Передозировка» плацебо потребовала неотложной медицинской помощи

Это случай из клинической практики про эффект ноцебо. 26-летний мужчина обратился в регистратуру отделения неотложной… Читать далее

08/07/2026

Нейрохирурги могут вызывать электродом как механический смех, так и «искреннюю» радость

Исследователи могут вызвать конкретный тип смеха точечным разрядом тока. Когда мы искренне хохочем над отличной… Читать далее

26/06/2026

Медицина

Одна из самых частых операций на колене не улучшает исходы при дегенеративных заболеваниях коленного сустава

Артроскопия коленного сустава при дегенеративных заболеваниях коленного сустава считается одной из самых распространённых ортопедических операций.… Читать далее

18/06/2026

Биология

Мышцы растут не потому что вы их повреждаете, а потому что вы их напрягаете

Популярная идея о том, что микротравмы ответственны за рост мышц, появилась не на пустом месте.… Читать далее

07/06/2026