联系我们

AI 101

什么是合奏学习?

mm

更新

 on

最强大的之一 机器学习 技术是整体学习。 合奏 学习 是使用多个机器学习模型来提高预测的可靠性和准确性。但是,使用多种机器学习模型如何导致更准确的预测?什么样的技术可以用来创建整体学习模型?我们将探讨这些问题的答案,并研究使用集成模型的基本原理以及创建集成模型的主要方法。

什么是合奏学习?

简而言之,集成学习是训练多个机器学习模型并将其输出组合在一起的过程。不同的模型用作创建一个最佳预测模型的基础。组合各种不同的单独机器学习模型可以提高整体模型的稳定性,从而获得更准确的预测。集成学习模型通常比单个模型更可靠,因此,它们经常在许多机器学习竞赛中排名第一。

工程师可以使用多种技术来创建整体学习模型。简单的整体学习技术包括平均不同模型的输出之类的事情,同时还开发了更复杂的方法和算法,专门用于将许多基础学习者/模型的预测结合在一起。

为什么要使用合奏训练方法?

出于多种原因,机器学习模型可能会彼此不同。不同的机器学习模型可以对总体数据的不同样本进行操作,可以使用不同的建模技术,并且可以使用不同的假设。

想象一下,您正在与很多人一起玩琐事游戏。如果您是一个团队成员,那么肯定会有一些您知道的主题,而许多您都不知道。现在假设您正在和其他人一起玩。就像您一样,他们将对自己的专业有所了解,而对其他主题则一无所知。但是,如果将您的知识组合在一起,您将对更多领域有更准确的猜测,并且您的团队缺乏缩减知识的主题数量。这是集成学习基础的同一原理,结合了不同团队成员(单个模型)的预测以提高准确性并最大程度地减少错误。

统计学家已经证明 当一群人被要求猜测给定问题的正确答案以及一系列可能的答案时,他们所有的答案都形成了概率分布。真正知道正确答案的人将充满信心地选择正确的答案,而选择错误答案的人将在可能的错误答案范围内分布他们的猜测。回到琐事游戏的例子,如果您和您的两个朋友知道正确的答案是A,那么你们三个都将投票为A,而您团队中其他三个不知道答案的人可能会错误地投票结果是B,C,D或E。结果是A有3票,而其他答案最多只有1或2票。

所有型号都有一定程度的误差。一个模型的错误将不同于另一模型产生的错误,因为由于上述原因,模型本身是不同的。检查完所有错误后,它们不会聚集在一个或另一个答案周围,而会分散在周围。错误的猜测实际上散布在所有可能的错误答案中,彼此抵消。同时,来自不同模型的正确猜测将聚集在真实,正确的答案周围。当使用整体训练方法时, 正确答案的可靠性更高.

简单的合奏训练方法

简单的整体训练方法通常只涉及 统计汇总技术,例如确定一组预测的众数,均值或加权平均值。

模式是指一组数字中最频繁出现的元素。为了获得模式,各个学习模型返回其预测,并且将这些预测视为对最终预测的投票。只需通过计算预测的算术平均值并四舍五入到最接近的整数即可确定预测的平均值。最后,可以通过将不同的权重分配给用于创建预测的模型来计算加权平均值,其中权重代表该模型的感知重要性。将类别预测的数字表示与权重从0到1.0相乘,然后将各个加权的预测相加在一起,并将结果四舍五入到最接近的整数。

先进的合奏训练方法

有三种主要的高级集成训练技术,每种技术都旨在解决特定类型的机器学习问题。 “装袋”技术 用于减少模型预测的方差,方差指的是基于相同的观察结果时预测的结果相差多少。 “助推”技术 用于消除模型的偏见。最后, “堆叠” 通常用于改善预测。

整体学习方法本身通常可以分为两个不同的组之一:顺序方法和并行集合方法。

顺序集成方法的名称为“顺序”,因为基础学习器/模型是顺序生成的。在顺序方法的情况下,基本思想是利用基础学习者之间的依赖关系来获得更准确的预测。标签错误的示例将调整其权重,而标签正确的示例将保持相同的权重。每次生成新的学习者时,权重都会改变,准确性(希望如此)会提高。

与顺序集成模型相反,并行集成方法并行生成基本学习器。在进行并行合奏学习时,其思想是利用基础学习者具有独立性这一事实,因为可以通过平均各个学习者的预测来降低总体错误率。

整体训练方法在本质上可以是同质的或异质的。大多数集成学习方法是同类的,这意味着它们使用单​​一类型的基础学习模型/算法。相反,异类合奏使用不同的学习算法,使学习者多样化和变化,以确保准确性尽可能高。

集成学习算法的示例

Visualization of ensemble boosting. Photo: Sirakorn via Wikimedia Commons, CC BY SA 4.0, (//commons.wikimedia.org/wiki/File:Ensemble_Boosting.svg)

顺序集成方法的示例包括 AdaBoost , XGBoost 梯度树增强。这些都是增强模型。对于这些提升模型,目标是将表现欠佳的弱势学习者转变为功能强大的学习者。诸如AdaBoost和XGBoost之类的模型始于许多弱学习者,它们的表现比随机猜测略好。随着训练的继续,将权重应用于数据并进行调整。在早期的培训中被学习者错误分类的实例将获得更大的权重。在为所需的训练回合次数重复此过程之后,通过加权和(对于回归任务)和加权投票(对于分类任务)将预测合并在一起。

The bagging 学习 process. Photo: SeattleDataGuy via Wikimedia Commons, CC BY SA 4.0 (//commons.wikimedia.org/wiki/File:Bagging.png)

并行集成模型的一个示例是 随机森林 分类器,而“随机森林”也是套袋技术的一个示例。术语“装袋”来自“引导聚合”。使用称为“自举抽样”的抽样技术从总数据集中抽取样本,基础学习者使用这些技术进行预测。对于分类任务,基本模型的输出使用投票进行汇总,而对于回归任务则将它们平均在一起。随机森林使用单独的决策树作为基础学习者,并且集成中的每棵树都是使用数据集中的不同样本构建的。特征的随机子集也用于生成树。导致高度随机化的个体决策树,这些决策树全部组合在一起以提供可靠的预测。

Visualization of ensemble stacking. Photo: Supun Setunga via Wikimedia Commons, CC BY S.A 4.0 (//commons.wikimedia.org/wiki/File:Stacking.png)

在堆叠集成技术方面,多个回归或分类模型通过更高级别的元模型组合在一起。较低级别的基础模型通过馈入整个数据集进行训练。然后将基本模型的输出用作训练元模型的功能。本质上,堆叠集成模型通常是异构的。

专门从事以下工作的Blogger和程序员 机器学习 深度学习 话题。 Daniel希望帮助他人将AI的力量用于社会公益。