联系我们

AI 101

什么是强化学习?

mm

更新

 on

什么是强化学习?

简而言之,强化学习是一个 机器学习 该技术涉及通过重复动作和相关奖励来训练人工智能代理。强化学习代理会在环境中进行实验,采取行动并在采取正确的行动时得到奖励。随着时间的推移,代理商 学会采取使报酬最大化的行动。 这是强化学习的快速定义,但是仔细研究强化学习背后的概念将有助于您更好,更直观地理解强化学习。

“强化学习”一词是根据 加强心理学。 因此,让我们花点时间来理解强化的心理概念。从心理意义上讲,强化是指某种东西会增加发生特定反应/动作的可能性。强化的概念是操作员调​​节理论的中心思想,最初是由心理学家B.F. Skinner提出的。在这种情况下,强化是使给定行为的频率增加的任何事物。如果我们考虑对人类进行可能的加固,则可能是赞美,工作加薪,糖果和有趣的活动。

在传统的心理意义上,有两种强化。有正面和负面的强化。积极的强化是增加某种东西来增加行为的能力,例如在行为良好时给您的狗一种治疗。负强化包括消除刺激以诱发行为,例如关闭大声的声音哄骗一只猫狗。

正&负加固

正强化会增加行为的频率,而负强化会降低行为的频率。通常,正强化是强化学习中最常用的强化类型,因为它可以帮助模型使给定任务的性能最大化。不仅如此,积极的强化还可以使模型做出更可持续的变化,这些变化可以变成一致的模式并持续很长时间。

相反,虽然负加固也使行为更有可能发生,但它用于维持最低性能标准,而不是达到模型的最高性能。强化学习中的负强化可以帮助确保模型避免不良行为,但是并不能真正使模型探索所需的行为。

训练加固特工

当训练强化学习者时, 有四种不同的成分 要么 状态 在训练中使用:初始状态(状态0),新状态(状态1),动作和奖励。

想象一下,我们正在训练一名增强特工来玩一款平台化的视频游戏,而AI的目标是通过在屏幕上向右移动来使其达到水平。游戏的初始状态是从环境中提取的,这意味着将分析游戏的第一帧并将其提供给模型。基于此信息,模型必须决定一个动作。

在训练的初始阶段,这些动作是随机的,但是随着模型的增强,某些动作将变得更加普遍。采取行动后,将更新游戏环境,并创建新的状态或框架。如果代理人采取的行动产生了令人满意的结果,那么在这种情况下,假设代理人还活着并且没有被敌人击中,则可以给代理人一些奖励,并且在这种情况下更有可能这样做未来。

这个基本系统不断循环,一次又一次地发生,并且每次探员试图多学一点并最大化其报酬时。

情景与连续任务

强化学习任务通常可以分为以下两种类别之一: 情景任务和连续任务。

间歇性任务将执行学习/培训循环并提高其性能,直到满足某些最终标准并终止培训为止。在游戏中,这可能会达到关卡末尾或陷入尖峰之类的危险中。相反,连续任务没有终止标准,实质上是永远持续训练直到工程师选择结束训练为止。

蒙特卡洛vs时间差异

有两种主要的学习或培训方法,即强化学习代理。在 蒙特卡洛方法,仅在训练情节结束时才将奖励分发给代理(其分数已更新)。换句话说,只有在达到终止条件时,模型才能了解其性能。然后,它可以使用此信息进行更新,并且在下一轮培训开始时,它将根据新信息做出响应。

时差法 与蒙特卡洛方法的不同之处在于,在训练过程中会更新值估算值或分数估算值。当模型前进到下一个步骤时,将更新值。

探索与开发

培训强化学习代理是一种平衡行为,涉及两个不同指标的平衡: 勘探和开发。

探索是收集有关周围环境的更多信息的行为,而探索则是使用有关环境的已知信息来获得奖励积分。如果代理仅探索而不是利用环境,则将永远不会执行所需的操作。另一方面,如果代理商仅进行探索而从未进行探索,则代理商将只会学会执行一项操作,而不会发现其他可能的获得奖励的策略。因此,在创建强化学习代理时,平衡探索与开发至关重要。

强化学习用例

强化学习可用于多种角色,最适合需要自动化任务的应用。

工业机器人要执行的任务的自动化是增强学习被证明有用的领域。强化学习还可以用于诸如文本挖掘之类的问题,创建可以汇总较长文本正文的模型。研究人员还正在尝试在医疗保健领域使用强化学习,让强化剂处理诸如优化治疗策略之类的工作。强化学习也可以用于为学生定制教育材料。

强化学习总结

强化学习是构建AI代理的强大方法,可导致令人印象深刻甚至有时令人惊讶的结果。通过强化学习来训练代理人可能是复杂而困难的,因为它需要进行多次训练迭代以及探索/利用二分法的微妙平衡。但是,如果成功,通过强化学习创建的代理可以在各种各样的不同环境中执行复杂的任务。

专门从事以下工作的Blogger和程序员 机器学习 深度学习 话题。 Daniel希望帮助他人将AI的力量用于社会公益。