联系我们

强化学习

深心发现了也可以在我们大脑中起作用的AI训练技术

mm

已发表

 on

深心 just recently 发表了一篇论文 详细介绍新开发的 强化学习 可以潜在地解释人脑内的奖励途径如何运作。 据NewScientist报道机器学习 训练方法称为分布强化学习,其背后的机制似乎可以合理地解释大脑中神经元如何释放多巴胺。

神经科学和计算机科学在一起有着悠久的历史。早在1951年,马文·明克斯(Marvin Minksy)就使用了奖惩系统来创建能够解决迷宫问题的计算机程序。 Minksy的灵感来自生理学家Ivan Pavlov的工作,他证明了狗可以通过一系列奖励和惩罚来学习。 Deepmind的新论文通过应用一种强化学习来深入了解多巴胺神经元的功能,从而增加了神经科学和计算机科学的交织历史。

每当一个人或动物即将执行某项动作时,大脑中负责释放多巴胺的神经元的集合就可以预测该动作的奖励程度。一旦采取了行动,并且该行动的后果(回报)显而易见,大脑就会释放多巴胺。但是,这种多巴胺释放是根据预测误差的大小来缩放的。如果奖励比预期更大/更好,则会触发多巴胺激增。相反,较差的报酬导致更少的多巴胺释放。多巴胺可作为一种纠正功能,使神经元调整其预测,直到它们收敛于所获得的实际奖励。这与强化学习算法的操作非常相似。

2017年,DeepMind研究人员发布了常用强化学习算法的增强版,这种出色的学习方法能够提高许多强化学习任务的性能。 DeepMind小组认为,新算法背后的机制可以用来更好地解释人脑中多巴胺神经元的运作方式。

与旧的强化学习算法相比,DeepMind的新算法将奖励表示为分布。较旧的强化学习方法将估计的奖励表示为仅代表平均预期结果的一个数字。这一更改使模型可以更准确地表示可能的奖励并因此表现更好。新训练方法的优越性能促使DeepMind研究人员研究人脑中的多巴胺神经元是否以相似的方式工作。

为了研究多巴胺神经元的功能,DeepMind与哈佛大学合作研究了小鼠多巴胺神经元的活性。研究人员让老鼠执行各种任务,并根据骰子的掷骰奖励他们,记录他们的多巴胺神经元的发射方式。不同的神经元似乎预测不同的潜在结果,释放出不同量的多巴胺。一些神经元预测低于实际奖励,而一些预测奖励高于实际奖励。在绘制出奖励预测的分布图之后,研究人员发现预测的分布与真实的奖励分布相当接近。这表明在进行预测和调整预测以更好地匹配现实时,大脑确实利用了分布系统。

该研究可以为神经科学和计算机科学提供参考。该研究支持使用分布强化学习作为创建更高级AI模型的方法。除此之外,它还可能影响我们关于奖励系统的大脑工作原理的理论。如果多巴胺神经元分布并且某些比其他人更悲观或乐观,那么理解这些分布可能会改变我们处理心理学方面的方式,例如心理健康和动机。

正如MIT Technology View报道的那样深心神经科学研究主管Matt Botvinik在新闻发布会上解释了这一发现的重要性。博特维尼克说:

“如果大脑正在使用它,那可能是个好主意。它告诉我们这是一种可以在实际情况下扩展的计算技术。它很适合其他计算过程。它为我们提供了新的视角’在我们的大脑中不断发展”