联系我们

强化学习

深心和Google Brain旨在创建方法来提高强化学习的效率

mm

更新

 on

强化学习 系统可以强大而强大,能够通过数千次培训来执行极其复杂的任务。强化学习算法能够实现复杂的行为(有时甚至是令人惊讶的行为),但它们需要花费很长时间进行训练,并需要大量数据。这些因素使强化学习技术的效率相当低下,最近,Alphabet DeepMind和Google Brain的研究团队努力寻找创建强化学习系统的更有效方法。

据VentureBeat报道,联合研究小组最近提出了使强化学习训练更有效的方法。提出的改进之一是称为自适应行为策略共享(ABPS)的算法,而另一改进是称为通用值函数近似器(UVFA)的框架。 ABPS使AI代理池共享其自适应选择的体验,而UVFA使这些AI同时研究定向勘探策略。

ABPS旨在在训练模型时加快超参数的自定义。通过允许具有不同超参数的多个不同代理共享其行为策略经验,ABPS可以更快地找到最佳超参数。更准确地说,ABPS允许强化学习代理从策略认为可以的行动中选择行动,然后再执行’根据以下状态获得了奖励和观察。

AI增强剂通过可能的超参数的各种组合进行训练,例如衰减率和学习率。训练模型时,目标是使模型收敛于超参数的组合上,从而获得最佳性能,在这种情况下,还可以提高数据效率。通过一次训练许多代理并选择在下一个时间步骤中仅部署一个代理的行为来提高效率。目标代理具有的策略用于对操作进行采样。然后,将转换记录在共享空间中,并不断评估该空间,因此不必经常选择策略。在培训结束时,将选择一组代理,然后选择性能最高的代理进行最终部署。

就UVFA而言,它试图解决强化学习的常见问题之一,即强化弱的代理商通常不学习任务。 UVFA试图通过让代理同时了解一套单独的开发和勘探政策来解决该问题。分离任务会创建一个框架,该框架允许探索性策略继续探索环境,而利用策略继续尝试并最大化当前任务的回报。 UVFA的探索性政策可作为基准体系结构,即使找不到自然的回报,该体系也将继续改善。在这种情况下,近似于对应于内在奖励的函数,这迫使代理人探索环境中的所有状态,即使它们经常返回熟悉的状态。

正如VentureBeat解释的那样,当使用UVFA框架时,系统的内在奖励将直接作为输入提供给代理。然后,代理会跟踪给定情节中所有输入(例如奖励,动作和状态)的表示。结果是奖励会随着时间的流逝而保留下来,并且代理商的政策在任何时候都至少在某种程度上受到告知。

这是通过利用“新颖性”和“终生新颖性”模块来实现的。第一个模块的功能是保存当前的情景记忆并将当前的发现映射到前面提到的表示形式,让代理为训练的每个步骤确定内在的情景奖励。然后,将与当前观察值链接的状态添加到内存中。同时,终生的新颖性模块负责影响代理在许多事件中探索的频率。

根据Alphabet / Google团队的说法,新的培训技术已经显示出在培训强化学习系统时可以进行实质性改进的潜力。 UVFA能够使玩过各种Atari游戏的某些基础特工的性能翻倍。同时,ABPS能够在某些相同的Atari游戏中提高性能,从而使表现最佳的代理商之间的差异降低了约25%。 UVFA训练的算法本身能够在Pitfall中获得高分,而缺少人类演示的任何工程设计功能。