联系我们

AI 101

什么是深度强化学习?

mm

更新

 on

什么是深度强化学习?

随着无人值守 机器学习监督学习,另一种常见的AI创作形式是 强化学习。超越常规 强化学习, 深度强化学习 由于它结合了两者的最佳方面,因此可以带来惊人的令人印象深刻的结果 深度学习 和强化学习。让我们看一下强化学习的运作方式。

在我们深入学习强化学习之前,最好让自己重新学习常规 强化学习 作品。在强化学习中,通过反复试验的过程来设计面向目标的算法,针对导致最佳结果的动作/获得最大“奖励”的动作进行优化。训练强化学习算法后,会获得“奖励”或“惩罚”,这些奖励会影响他们将来会采取的行动。算法试图找到一组动作,这些动作将为系统提供最大的回报,同时平衡即时和未来的回报。

强化学习算法非常强大,因为它们可以应用于几乎所有任务,并且能够灵活,动态地从环境中学习并发现可能的动作。

深度强化学习概述

Photo: Megajuice via Wikimedia Commons, CC 1.0 (//commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

当涉及深度强化学习时,通常用图像表示环境。图像是在特定时间点捕获的环境。代理必须分析图像并从图像中提取相关信息,并使用该信息来告知它们应采取的措施。深度强化学习通常使用两种不同技术之一进行:基于价值的学习和基于策略的学习。

基于价值的学习技术利用了卷积神经网络和 深度Q网络。这些算法通过将图像转换为灰度并裁剪掉图像的不必要部分来进行操作。之后,图像经过各种卷积和合并操作,提取出图像中最相关的部分。然后,将图像的重要部分用于计算代理可以采取的不同操作的Q值。 Q值用于确定代理的最佳操作过程。在计算初始Q值之后,进行反向传播,以便可以确定最准确的Q值。

当代理可以采取的行动数量非常多时(通常在实际情况下就是这种情况),将使用基于策略的方法。此类情况需要采用不同的方法,因为计算所有单个动作的Q值并不实用。基于策略的方法无需计算单个操作的功能值即可运行。相反,他们通常通过称为“策略梯度”的技术直接学习策略来采用策略。

策略梯度通过接收状态并根据代理的先前经验计算操作的概率来进行操作。然后选择最可能的动作。重复此过程,直到评估期结束,并将奖励给予代理商。代理商收到奖励后,网络的参数会通过反向传播进行更新。

什么是Q学习?

因为 Q学习 这是深度强化学习过程的很大一部分,让我们花点时间真正了解Q学习系统的工作原理。

马尔可夫决策过程

A markov decision process. Photo: waldoalvarez via Pixabay, Pixbay License (//commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

为了使AI代理执行一系列任务并达到目标,该代理必须能够处理一系列状态和事件。代理将以一个状态开始,并且必须采取一系列操作才能达到结束状态,并且在开始状态和结束状态之间可能存在大量状态。存储有关每个状态的信息是不切实际或不可能的,因此系统必须找到一种方法来仅保留最相关的状态信息。这是通过使用 马尔可夫决策过程,仅保留有关当前状态和先前状态的信息。每个状态都遵循Markov属性,该属性跟踪代理如何从先前状态更改为当前状态。

深度Q学习

一旦模型可以访问有关学习环境状态的信息,就可以计算Q值。 Q值是在一系列操作结束时给予代理的总奖励。

Q值是通过一系列奖励来计算的。有即时奖励,根据当前状态并根据当前操作计算得出。还计算随后状态的Q值,以及此后状态的Q值,依此类推,直到计算出不同状态的所有Q值为止。还有一个Gamma参数,用于控制将来的奖励对代理人的行为有多大的权重。通常通过随机初始化Q值并使模型在训练过程中朝最佳Q值收敛来计算策略。

深度Q网络

涉及的基本问题之一 使用Q学习 对于强化学习,存储数据所需的内存量会随着状态数量的增加而迅速扩展。深度Q网络通过将神经网络模型与Q值相结合来解决此问题,使代理能够从经验中学习并合理地猜测要采取的最佳措施。通过深度Q学习,可以使用神经网络估计Q值函数。神经网络将状态作为输入数据,并且网络输出代理可能采取的所有不同可能动作的Q值。

通过将所有过去的经验存储在内存中,计算Q网络的最大输出,然后使用损失函数来计算当前值与理论上可能的最高值之​​间的差,从而完成深度Q学习。

深度强化学习与深度学习

深度强化学习和常规深度学习之间的一个重要区别是,在前者的情况下,输入不断变化,而在传统深度学习中则并非如此。学习模型如何解释不断变化的输入和输出?

本质上,要考虑预测值和目标值之间的差异,可以使用两个神经网络代替一个。一个网络估计目标值,而另一个网络负责预测。经过选定次数的训练迭代后,随着模型学习,目标网络的参数会更新。然后将各个网络的输出连接在一起以确定差异。

基于政策的学习

基于政策的学习 方法与基于Q值的方法的操作方式不同。尽管Q值方法创建了一个预测状态和动作的报酬的价值函数,但是基于策略的方法确定了将状态映射到动作的策略。换句话说,为操作选择的策略功能是直接优化的,而与价值功能无关。

政策梯度

深度强化学习的策略属于以下两种类别之一:随机的或确定性的。确定性策略是一种将状态映射到操作的策略,这意味着在向策略提供有关状态的信息时,将返回操作。同时,随机策略返回操作的概率分布,而不是单个离散操作。

当不确定可以采取的行动的结果时,使用确定性策略。换句话说,当环境本身是确定性的时。相反,随机政策输出适用于行动结果不确定的环境。通常,强化学习方案涉及一定程度的不确定性,因此使用了随机策略。

政策梯度 与Q学习方法相比,这些方法有一些优点,也有一些缺点。在优势方面,基于策略的方法可以更快,更可靠地收敛于最佳参数。可以遵循策略梯度,直到确定最佳参数为止,而使用基于值的方法时,估计动作值的细微变化可能导致动作及其相关参数的较大变化。

策略梯度对于高维操作空间也更有效。当要采取的动作数量非常多时,深入的Q学习变得不切实际,因为它必须为所有时间步长的每个可能动作分配分数,这在计算上可能是不可能的。但是,使用基于策略的方法,可以随着时间调整参数,并且随着模型的收敛,可能的最佳参数数量会迅速减少。

与基于价值的策略不同,策略梯度还能够实现随机策略。由于随机策略会产生概率分布,因此无需执行勘探/开发折衷方案。

就劣势而言,策略梯度的主要劣势在于,它们在搜索最优参数时可能会卡住,仅专注于狭窄的局部最优值集,而不是全局最优值。

政策评分功能

用于优化模型性能目标的政策 最大化得分功能 – J(θ)。如果J(θ)来衡量我们的政策对于实现预期目标的良好程度,我们可以找到“θ”这给了我们最好的政策。首先,我们需要计算预期的政策奖励。我们估算政策回报,因此我们有一个目标,需要朝着这个目标优化。策略评分功能是我们计算预期策略奖励的方式,并且通常使用不同的策略评分功能,例如:情景环境的初始值,连续环境的平均值以及每时间步长的平均奖励。

政策梯度上升

Gradient ascent aims to move the parameters until they are at the place where the score is highest. Photo: Public Domain (//commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

使用所需的策略得分功能并计算出预期的策略奖励后,我们可以找到参数“θ”,以最大化得分功能。为了最大化得分函数J(θ),一种称为“梯度上升“ 用来。梯度上升在概念上类似于 梯度下降 在深度学习中,但我们正在针对最大幅度的增加而不是减少进行优化。这是因为我们的分数不是“错误”,就像许多深度学习问题一样。我们的分数是我们想要最大化的。称为策略梯度定理的表达式用于估算相对于策略“θ”。

深度强化学习摘要

总之,深度强化学习结合了强化学习和深度神经网络的各个方面。深度强化学习是通过两种不同的技术完成的:深度Q学习和策略梯度。

深入的Q学习方法旨在预测在给定状态下采取的某些行动将遵循哪些奖励,而策略梯度方法旨在优化行动空间,预测行动本身。基于策略的深度强化学习方法本质上是确定性的或随机的。确定性策略将状态直接映射到操作,而随机策略则为操作生成概率分布。

专门从事以下工作的Blogger和程序员 机器学习 深度学习 话题。 Daniel希望帮助他人将AI的力量用于社会公益。