联系我们

强化学习

深心创建可重现海马等回忆的AI

mm

更新

 on

人脑经常会无提示地回忆过去的记忆(貌似)。当我们一整天都在生活时,会自发地产生回忆。长期以来,神经科学家一直对这种自发的记忆联想感到兴趣,但AI研究公司DeepMind最近 发表了一篇论文 详细介绍他们的AI如何复制这种奇怪的召回方式。

大脑记忆的回忆,神经重播与大脑的记忆息息相关。 海马。海马是大脑中属于边缘系统的海马形结构,它与新记忆的形成以及记忆所激发的情绪有关。关于海马体作用的最新理论(大脑的每个半球都有一个)指出海马体的不同区域负责处理不同类型的记忆。例如,空间记忆被认为是在海马的后部区域进行的。

根据耶稣·罗德里格斯(Jesus Rodriguez)的报道,  约翰·奥基夫博士 对我们对海马(包括海马)的理解做出了许多贡献 “放置”细胞。 在特定环境中,海马中的位置细胞是由刺激触发的。例如,在大鼠上进行的实验表明,当大鼠穿过轨道的某些部分时,特定的神经元会激发。研究人员甚至在大鼠休息时也继续对其进行监视,他们发现,虽然它们以加速的速度射击,但表示迷宫一部分的神经元的相同模式也会被触发。老鼠似乎正在回忆他们脑海中迷宫的回忆。

在人类中,回忆是学习过程的重要组成部分,但是当试图使AI学习时,很难再现这种现象。

深心团队着手尝试使用来重现召回现象 强化学习。强化学习算法的工作原理是从与周围环境的交互中获得反馈,每当他们采取使他们更接近预期目标的行动时就获得奖励。在这种情况下,强化学习代理会记录事件,然后在以后的时间回放它们,并增强系统以提高其有效地回忆过去的经历的效率。

深心使用重播缓冲区将体验的重播添加到强化学习算法中,该重播缓冲区将在特定时间将内存/记录的体验重播到系统中。系统的某些版本具有按随机顺序播放的体验,而其他型号则具有预先选择的播放顺序。研究人员尝试了增强剂的播放顺序,同时他们还尝试了不同的方法来重播体验。

有两种主要方法可用于为增强算法提供回忆的经验。这些方法是想象力重播方法和电影重播方法。 DeepMind论文使用一个类比来描述这两种策略:

“假设您回家,令您感到惊讶和沮丧的是,您发现美丽的木地板上积水。走进餐厅,您会发现一个破花瓶。然后你会听到一声嘶哑,然后瞥了一眼露台门,发现狗狗很内very。”

根据罗德里格斯(Rodriguez)的报道,想象力重放方法不会按照事件的发生顺序记录事件。相反,可以推断出事件之间的可能原因。根据代理推断事件’对世界的了解。同时,电影重播方法按事件发生的顺序存储内存,并重播刺激序列–“洒水,破花瓶,狗”。事件的时间顺序得以保留。

来自神经科学领域的研究表明,电影回放方法对于概念之间的关联以及事件之间的神经元连接的创建是不可或缺的。然而,想象力重播方法可以帮助代理在通过类比推理时创建新的序列。例如,代理人可能认为,如果桶要倒油,而花瓶要倒水,则桶可能由工厂的机器人而不是狗泼倒了。的确,当DeepMind进一步探索想象力重播方法的可能性时,他们发现他们的学习代理能够通过考虑以前的经验来创建令人印象深刻的创新序列。

尽管研究人员最近开始在想象力策略上取得进步,但在强化学习记忆方面目前所取得的大部分进展都是通过电影策略来实现的。对这两种AI记忆方法的研究不仅可以使强化学习代理获得更好的性能,而且还可以帮助我们获得关于人类思维方式的新见解。