最新研究揭示了大脑中的多巴胺如何引导动物识别和改进行为,从而获得奖励。这项研究将特定行为与多巴胺释放联系起来,对改善教育和人工智能领域的学习过程具有重要意义。
奖励不仅能强化特定行为,还能迅速改变我们行为的整体模式。
想象一下,你正在教一只狗玩捡球游戏。你扔出一个球,你的狗在后面冲刺,捡起球,然后跑回来。然后,你给气喘吁吁的小狗一个奖赏。但现在对你的狗狗来说,真正的诀窍来了:找出是哪个环节获得了奖赏。科学家将此称为大脑中的"信用分配问题"。这是一个根本性的问题,它关系到我们能否理解哪些行为会带来积极的结果。
多巴胺是大脑中的一种关键化学信使,在这一过程中起着至关重要的作用。但大脑究竟是如何将特定行为与多巴胺的释放联系起来的,至今仍不清楚。
12月13日,艾伦研究所、哥伦比亚大学祖克曼心智脑行为研究所、尚巴利莫德未知中心和西雅图儿童研究所的科学家在《自然》杂志上发表了一项研究,揭开了这一谜团。该研究揭示了多巴胺如何不仅发出奖励信号,而且还引导动物通过不断尝试和犯错,找到获得奖励的特定行为。
耐人寻味的是,研究还表明,大脑的奖励系统可以迅速、动态地改变动物的所有动作和行为。这项研究的资深作者、医学博士鲁伊-科斯塔(Rui Costa)说,这凸显了一种复杂的学习策略,在这种策略中,行为不仅仅是被强化的,而且是通过经验积极塑造和微调的。
艾伦研究所(Allen Institute)总裁兼首席执行官科斯塔说:"当你强化行为时,我们通常认为这只是一个动作,但事实上是你正在改变整个行为结构。而真正令人惊讶的是,这种改变是如此迅速。"
解码多巴胺如何影响学习
为了揭示这些见解,研究小组与香巴里莫德未知中心的工程师和神经科学家合作,开发出一种新型"闭环"系统,可以将小鼠的特定行为与多巴胺的实时释放联系起来。研究人员给小鼠安装了无线传感器,以跟踪它们在一个简单可控空间内的行动。然后,他们将这些数据输入机器学习算法,该算法将这些动作分为不同的组别。然后,研究人员使用光遗传学(一种用光控制神经元的方法),在小鼠执行预定义的"目标动作"时刺激多巴胺神经元。
他们发现,小鼠在多巴胺释放后迅速改变了自己的行为。起初,它们不仅增加了目标动作的频率,还增加了类似动作和多巴胺释放前几秒钟发生的动作的频率。与此同时,与目标不相似的动作则迅速减少。随着时间的推移,这种细化变得越来越精确,小鼠越来越专注于导致多巴胺释放的确切动作。
研究还考察了小鼠是如何学习一系列动作的,揭示了一个类似于时间倒退的关键过程,以了解是什么导致了奖励。当触发多巴胺的动作间隔较长时,小鼠的学习速度较慢。这表明,动作之间的等待时间越长,小鼠就越难将动作序列与奖励联系起来。从本质上讲,奖励前的动作会很快被掌握和改进,而之前的动作则会逐渐完善。这种"倒带"过程强化了小鼠的行为,并帮助它们逐步确定哪些精确的动作和序列能产生奖励。
对教育和人工智能的更广泛影响
这项研究的主要作者、华盛顿大学医学-儿科、西雅图儿童研究所助理教授乔纳森-唐(Jonathan Tang)博士说,这些发现可能会对教育和人工智能(AI)等不同领域产生影响。例如,在课堂上允许探索、犯错和逐步完善可能更符合我们大脑与生俱来的学习过程。
在人工智能领域,这些见解可能会带来更复杂、更高效的学习系统。通过更好地复制生物学习过程,我们可以创造出更善于适应新数据和新情况的人工智能。
这项研究让我们更深入地了解了我们的大脑是如何通过试验和错误来学习和适应的--无论你是科学家还是幼崽。
唐说:"对于事物如何运作,我们认为很多东西都是理所当然的,包括学分分配。但当你真正开始深入研究时,你才会意识到其中的复杂性。这就是人们从事科学研究的原因:探寻事情的真相。"
编译来源:ScitechDaily