联系我们

AI 101.

什么是加强学习?

mm

更新

 on

什么是加强学习?

简而言之,加固学习是一个机器学习涉及通过重复行动和相关奖励培训人工智能代理的技术。在环境中,在环境中进行加强学习代理实验,采取行动和奖励。随着时间的推移,代理商学会采取最大化奖励的行动。这是强化学习的快速定义,但仔细看看加强学习背后的概念将有助于您对其进行更好,更直观的理解。

“强化学习”一词适应了概念心理学强化。出于这个原因,让我们花点时间了解加强的心理概念。在心理学意义上,术语加强是指提高特定响应/行动将发生的可能性的东西。这种强化概念是由心理学家B.F. Skinner提出的操作性调节理论的核心思想。在这种情况下,加强是导致给定行为的频率增加的任何东西。如果我们考虑对人类的可能加固,这些可能是赞美,工作,糖果和有趣的活动。

在传统的心理意义上,有两种类型的加固。有积极的加固和负钢筋。积极的加强是增加一些增加行为的东西,就像在表现良好的时候给你的狗一样对待。负强化涉及去除刺激措施以引出行为,如关掉大声噪音,以哄骗一只香水猫。

积极的&负强化

正强化增加了行为的频率,而负强化降低频率。一般来说,积极的加固是加强学习中使用的最常见的加固类型,因为它有助于模型最大化给定任务的性能。不仅如此,而且积极的加强会导致模型做出更具可持续变化,这可能变得一致的模式,并且长时间持续存在。

相反,虽然负增强也使行为更容易发生,但它用于维持最小性能标准,而不是达到模型的最大性能。钢筋学习中的负钢筋可以帮助确保模型远离不良行动,但它无法真正使模型探索所需的行动。

培训钢筋代理

培训加固学习代理时,有四种不同的成分或者状态用于培训:初始状态(状态0),新状态(状态1),操作和奖励。

想象一下,我们正在培训一种强化代理商来演奏一个平台视频游戏,其中AI的目标是通过右移到屏幕上通过右移动来实现级别的结束。游戏的初始状态是从环境中汲取的,这意味着分析了游戏的第一帧并给出了模型。基于此信息,该模型必须决定动作。

在训练的初始阶段,这些行动是随机的,但随着模型的加强,某些行动将变得更加常见。在采取行动之后,更新游戏的环境,并创建新的状态或框架。如果代理所采取的行动产生了理想的结果,让我们说在这种情况下,代理人仍然活着,并且没有被敌人击中,给予代理人的一些奖励,它变得更有可能做同样的事情未来。

这个基本系统不断循环,一次又一次地发生,每次代理商都试图学习一点并最大化其奖励。

episodic与连续任务

强化学习任务通常可以放在两个不同的类别中的一个:eoisodic任务和持续任务。

epiSodic任务将进行学习/训练循环,并提高他们的性能,直到满足某些结束标准并终止培训。在游戏中,这可能是达到水平的结束或落入像尖峰这样的危险。相比之下,持续的任务没有终止标准,在工程师选择结束培训之前,基本上继续训练。

蒙特卡洛与时间差异

有两种主要的学习方式或培训,加强学习代理。在蒙特卡罗方法,奖励仅在培训集的末尾提供给代理(其分数)。要另一种方式,只有在命中终止条件时,模型会学会如何进行它的执行程度。然后,它可以使用此信息更新,并且当启动下一个培训轮时,它将根据新信息进行响应。

颞差法与蒙特卡罗方法不同,因为在训练集的过程中更新值估计或分数估计。一旦模型进入下次步骤,就会更新值。

探索与剥削

培训加强学习代理是一种平衡行为,涉及两种不同的指标的平衡:探索和剥削。

探索是收集有关周围环境的更多信息的行为,而探索正在使用已经知道环境的信息来获得奖励积分。如果代理仅探讨并从未利用环境,则永远不会执行所需的操作。另一方面,如果代理商只利用并从未探索,则代理商只会学会执行一个动作,并不会发现其他可能的盈利奖励策略。因此,在创建强化学习代理时,平衡勘探和开发是至关重要的。

用钢筋学习用例

增强学习可用于各种角色,最适合任务需要自动化的应用程序。

由工业机器人进行的任务自动化是强化学习证明有用的一个领域。强化学习也可以用于文本挖掘等问题,创建能够总结文本长体的模型。研究人员还在医疗领域使用加强学习,加强代理处理就像优化治疗政策的工作。增强学习也可用于为学生定制教育材料。

钢筋学习综述

强化学习是构建可导致令人印象深刻的AI代理的强大方法,有时令人惊讶的结果。通过强化学习培训代理人可以复杂,困难,因为它需要许多培训迭代和探索/利用二分法的微妙平衡。但是,如果成功,则以加强学习创建的代理商可以在各种不同环境下开展复杂任务。

Blogger和Programmer有专业的机器学习深度学习话题。丹尼尔希望帮助别人利用AI的力量来社交。