Вознаграждение не просто подкрепляет конкретное действие – оно быстро меняет всю модель нашего поведения.
Представьте, что вы учите собаку играть в мяч. Вы бросаете мяч, собака бежит за ним, подхватывает его и бежит обратно. Затем вы награждаете своего запыхавшегося щенка лакомством. И теперь собака должна понять, какая часть последовательности действий принесла ей лакомство. Ученые называют это “проблемой предназначения похвалы” в мозге. Это фундаментальный вопрос о том, как понять, какие действия ответственны за положительные результаты, которые мы испытываем.
Известно, что дофамин, ключевой химический мессенджер в мозге, играет решающую роль в этом процессе. Но как именно мозг связывает конкретные действия с выбросом дофамина, до сих пор остается неясным.
Исследование, опубликованное вчера, 13.12.2023, в журнале Nature учеными из Института Аллена, Института поведения мозга Цукермана при Колумбийском университете, Центра Шампалимо и Детского научно-исследовательского института Сиэтла, проливает новый свет на эту загадку. Оно показывает, как дофамин не только сигнализирует о вознаграждении, но и помогает животным методом проб и ошибок выбирать конкретные модели поведения, которые приводят к этому вознаграждению.
Интригующе, но исследование также показывает, что система вознаграждения мозга может быстро и динамично изменять весь спектр движений и поведения животного. По словам старшего автора исследования Руи Коста, это говорит о сложной стратегии обучения, при которой поведение не просто подкрепляется, а активно формируется и настраивается в процессе опыта.
“Когда вы подкрепляете поведение, мы часто думаем, что это просто действие”, – сказал Коста, президент и генеральный директор Института Аллена. “Но нет: вы меняете всю структуру поведения. И что действительно удивительно, так это то, насколько быстро это происходит”.
Для того чтобы выяснить это, команда сотрудничала с инженерами и нейробиологами из Центра Шампалимо, чтобы разработать новую систему “замкнутого цикла”, которая могла бы связать определенные действия мышей с высвобождением дофамина в режиме реального времени. Исследователи оснастили мышей беспроводными датчиками, чтобы отслеживать их перемещения в простом контролируемом пространстве. Затем они передали эти данные в алгоритм машинного обучения, который разделил эти действия на отдельные группы. Затем исследователи использовали оптогенетику – метод управления нейронами с помощью света – для стимуляции дофаминовых нейронов, когда мыши выполняли заранее определенные “целевые действия”.
Они обнаружили, что мыши быстро меняли свое поведение в ответ на высвобождение дофамина. Сначала они увеличивали частоту не только целевых действий, но и сходных с ними, а также тех, которые происходили за несколько секунд до выброса дофамина. При этом частота действий, непохожих на целевые, быстро снижалась. Со временем это уточнение становилось все более точным, и мыши все чаще фокусировались именно на том действии, которое приводило к выбросу дофамина.
В исследовании также изучался процесс обучения мышей серии действий, что позволило выявить ключевой процесс, похожий на перемотку времени для понимания того, что приводит к вознаграждению. Когда действия, вызывающие выброс дофамина, происходили на большом расстоянии друг от друга, мыши учились медленнее. Это говорит о том, что при более длительных промежутках между действиями мышам сложнее связать последовательность действий с вознаграждением. По сути, действия, предшествующие вознаграждению, быстро усваиваются и совершенствуются, в то время как более ранние действия совершенствуются постепенно. Этот процесс “перемотки” закрепляет поведение и помогает мышам постепенно определить, какие именно действия и последовательности приносят награду.
По словам ведущего автора Джонатана Танга (Jonathan Tang), доктора философии, доцента Медицинского института Университета Вашингтона по педиатрии и Детского научно-исследовательского института Сиэтла, полученные результаты могут повлиять на такие области, как образование и искусственный интеллект (ИИ). Например, возможность исследования, ошибок и постепенного совершенствования в классе может больше соответствовать врожденным процессам обучения нашего мозга.
В искусственном интеллекте эти знания могут привести к созданию более сложных и эффективных систем обучения. Более точно воспроизведя биологические процессы обучения, мы сможем создать ИИ, который будет лучше адаптироваться к новым данным и ситуациям.
Это исследование позволяет глубже понять, как наш мозг учится и адаптируется путем проб и ошибок – будь вы ученый или школьник.
“Мы считаем само собой разумеющимися многие вещи, включая предназначение похвалы”, – говорит Танг, который начал исследование вместе с Костой во время учебы в Колумбийском университете. “Но когда вы действительно начинаете погружаться внутрь, вы осознаете всю сложность. Именно поэтому люди занимаются наукой: чтобы докопаться до истины”.
Исследование(закрытое): Tang, J.C.Y., Paixao, V., Carvalho, F. et al. Dynamic behaviour restructuring mediates dopamine-dependent credit assignment. Nature (2023). https://doi.org/10.1038/s41586-023-06941-5
Вознаградить админа можно по этим реквизитам:
Молекула, придающая конопле цитрусовый запах, может сделать ТГК менее тревожным. В правильной дозе каннабис оказывает… Читать далее
Исследование, проведенное учеными Принстонского университета, рассказывает, почему авиапассажиры так раздражительны в наши дни. Исследование под… Читать далее
Исследователи обнаружили, что стволовые клетки человека и модели эмбрионов можно заставить войти в состояние обратимого… Читать далее
Согласно новому исследованию Центра политики и экономики здравоохранения Университета Южной Калифорнии имени Шеффера, сельские жители… Читать далее
Не можете перестать проверять телефон, даже если не ждете никаких важных сообщений? Вините свой мозг.… Читать далее
Работа, опубликованная недавно в журнале Cannabis and Cannabinoid Research, посвященная влиянию употребления каннабиса на индекс… Читать далее