联系我们

AI 101.

什么是深度加强学习?

mm

更新

 on

什么是深度加强学习?

与无人监督一起机器学习监督学习,另一种常见形式的AI创造是加强学习。超越常规加强学习,深增强学习由于它结合了两者的最佳方面,可以导致令人惊讶的结果。深度学习和加强学习。让我们看一下精确加强学习如何运作。

在我们潜入深度加强学习之前,这可能是一个好主意,以定期刷新自己加强学习作品。在钢筋学习中,面向目标的算法是通过试验和错误的过程设计的,优化导致最佳结果/获得最大“奖励”的动作的动作。当培训加固学习算法时,它们会被赋予“奖励”或“惩罚”,这些行为将来会采取的。算法尝试找到一组动作,这些操作将提供最奖励的系统,平衡即时和未来的奖励。

强化学习算法非常强大,因为它们可以应用于几乎任何任务,能够灵活地从环境中汲取灵活性,并发现可能的动作。

深度加固学习概述

Photo: Megajuice via Wikimedia Commons, CC 1.0 (//commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

当涉及深度增强学习时,环境通常用图像表示。图像是特定时间点的环境捕获。代理必须使用这些信息来分析图像并从中提取相关信息,通知他们应该采取的行动。深度加强学习通常用两种不同的技术之一进行:基于价值的学习和基于策略的学习。

基于价值的学习技巧利用诸如卷积神经网络等算法和架构深Q网络。这些算法通过将图像转换为灰度和裁剪图像的不必要部分来操作。之后,图像经历各种卷积和汇集操作,提取图像的最相关部分。然后使用图像的重要部分来计算代理可以采用的不同动作的Q值。 Q值用于确定代理的最佳行动方案。在计算初始Q值之后,执行BackPropagation,以便可以确定最精确的Q值。

当代理可以采取的可能操作的数量非常高时,使用基于策略的方法,这通常是真实情景中的情况。这样的情况需要不同的方法,因为计算所有单独操作的Q值并不是语用。基于策略的方法在不计算各个操作的情况下运行,而无需计算函数值。相反,他们通过直接学习政策来采用政策,通常通过称为政策梯度的技术。

政策梯度通过接收基于代理的先前体验的状态和计算概率来运行。然后选择最可能的动作。重复该过程直到评估期结束,并且给予代理商。在奖励处理代理后,网络的参数将使用BackProjagation更新。

什么是Q-Learning?

因为Q-Learning.是这么大的深度加强学习过程,让我们花了一些时间来真正了解Q学习系统的工作原理。

马尔可夫决策过程

A markov decision process. Photo: waldoalvarez via Pixabay, Pixbay License (//commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

为了使AI代理执行一系列任务并达到目标,代理商必须能够处理一系列状态和事件。代理将从一个州开始,它必须采取一系列动作来达到最终状态,并且在开始和结束状态之间存在大量的状态。存储有关每个状态的信息是不切实际或不可能的,因此系统必须找到一种方法来保留最相关的状态信息。这是通过使用a完成的马尔可夫决策过程,它只是关于当前状态和前一个状态的信息。每个州都遵循Markov属性,该属性跟踪代理从前一个状态的转换为当前状态。

深度Q学习

一旦模型可以访问有关学习环境的状态的信息,就可以计算Q值。 Q值是在一系列动作结束时给代理的总奖励。

Q值用一系列奖励计算。立即奖励,在当前状态计算,并根据当前操作。还计算后续状态的Q值,以及之后的状态的Q值,依此类推,直到已经计算了不同状态的所有Q值。还有一个伽玛参数,用于控制未来未来奖励对代理的操作有多少。通常通过随机初始化Q值来计算策略,并让模型在训练过程中朝向最佳Q值趋同。

深Q网络

涉及的基本问题之一使用Q-Learning对于钢筋学习,即将数据存储所需的内存量快速扩展,因为状态的数量增加。深度Q网络通过将神经网络模型与Q值组合来解决这个问题,使代理商能够从经验中学习并合理地猜测最好的行动。通过深度Q-Learne,Q值函数估计了神经网络。神经网络将状态作为输入数据,并且网络输出代理可能需要的所有不同可能的操作的Q值。

深度Q学习是通过存储在内存中的所有过去的体验,计算Q-Network的最大输出,然后使用损失功能来计算当前值与理论最高可能值之间的差异。

深度加强学习与深度学习

深度加强学习与常规深度学习之间的一个重要区别是,在前者的情况下,投入不断变化,在传统的深度学习中不是这种情况。学习模型如何占不断转移的输入和输出?

基本上,为了考虑预测值和目标值之间的发散,可以使用两个神经网络而不是一个神经网络。一个网络估计目标值,而另一个网络负责预测。在选择的训练迭代次数通过后,将更新目标网络的参数随着模型学习而更新。然后将各个网络的输出连接在一起以确定差异。

基于政策的学习

基于政策的学习方法与基于Q值的方法不同。 Q-Value方法创建一个值函数,该值函数预测状态和操作的奖励,基于策略的方法决定了将状态映射到操作的策略。换句话说,在不考虑值函数的情况下直接优化选择操作的策略函数。

政策梯度

深度加强学习的政策落入两类中的一个:随机或确定性。确定性策略是状态映射到动作的策略,这意味着当策略时给出有关状态的信息,返回一个操作。同时,随机政策返回概率分布,而不是单个离散的动作。

当没有关于可以采取的行动结果的不确定性时使用确定性政策。换句话说,当环境本身是确定性的。相比之下,随机政策产出适用于行动结果不确定的环境。通常,加强学习情景涉及一定程度的不确定性,因此使用随机策略。

政策梯度方法与Q学习方法以及一些缺点有一些优势。在优势方面,基于策略的方法可以更快,更可靠地收敛于最佳参数。刚才可以遵循策略梯度,直到确定最佳参数,而基于值的方法估计动作值的小变化可能会导致操作的大变化及其相关参数。

政策梯度也适用于高维行动空间。当存在极高数量的可能采取的动作时,深度Q-Learning变得不切实际,因为它必须为所有时间步长分配给每种可能动作的分数,这可能是不可能计算的。但是,通过基于策略的方法,随着时间的推移调整参数,并且可能的最佳参数的数量随着模型收敛而迅速缩小。

与基于价值的策略不同,政策梯度也能够实施随机策略。由于随机政策产生了概率分布,因此不需要实施勘探/剥削权衡。

在缺点方面,政策梯度的主要缺点是它们可以在寻找最佳参数的同时卡住,仅在窄,本地最佳值集中而不是全局最佳值。

政策得分功能

用于优化模型的性能目标的政策最大化得分功能 – J(θ)。如果j(θ)衡量我们的政策如何实现所需目标,我们可以找到“θ“这给了我们最好的政策。首先,我们需要计算预期的政策奖励。我们估计政策奖励,所以我们有一个客观,以优化的东西。策略得分函数是我们如何计算预期的策略奖励,并且存在不同的策略分数函数,这些功能通常使用,例如:epiSodic环境的起始值,连续环境的平均值,以及每个时间步骤的平均奖励。

政策梯度上升

Gradient ascent aims to move the parameters until they are at the place where the score is highest. Photo: Public Domain (//commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

使用所需的策略得分函数后,并计算了预期的策略奖励,我们可以找到参数的值“θ“最大化得分函数。为了最大化得分函数J(θ),一种称为“渐变上升“ 用来。渐变上升在概念中类似于 梯度下降在深度学习中,我们正在优化最陡的增加而不是减少。这是因为我们的分数不是“错误”,就像在许多深度学习问题中一样。我们的分数是我们想要最大化的东西。称为策略梯度定理的表达式用于估计级别的梯度“θ“。

深增强学习综述

总之,深增强学习结合了加强学习和深神经网络的方面。深度加强学习采用两种不同的技术完成:深度Q学习和政策梯度。

深度Q学习方法旨在预测哪些奖励将遵循在给定状态采取的某些行动,而政策梯度方法旨在优化动作空间,预测行动本身。基于政策的深度加强学习方法是确定性或随机性质的。确定性政策地将状态直接绘制到动作,而随机策略会产生动作的概率分布。

Blogger和Programmer有专业的机器学习深度学习话题。丹尼尔希望帮助别人利用AI的力量来社交。