联系我们

AI 101

有监督与无监督学习

mm

更新

 on

机器学习,大多数任务可以很容易地分为两类:有监督的学习问题或无监督的学习问题。在监督学习中,数据具有附加的标签或类,而在非监督学习中,数据未标记。让我们仔细研究为什么这种区别很重要,并研究与每种学习类型相关的一些算法。

有监督与无监督学习

大多数机器学习任务都属于以下领域 监督学习。 在监督学习算法中,数据集中的各个实例/数据点具有分配给它们的类或标签。这意味着机器学习模型可以学习区分哪些特征与给定类别相关,并且机器学习工程师可以通过查看正确分类的实例数来检查模型的性能。只要数据用适当的类别标记,分类算法就可以用来识别许多复杂的模式。例如,机器学习算法可以学习基于“胡须”,“尾巴”,“爪”等特征来区分不同的动物。

与监督学习相反,无监督学习涉及创建一个模型,该模型能够从未标记的数据中提取模式。换句话说,计算机分析输入的特征并自行确定最重要的特征和模式是什么。无监督学习试图找到不同实例之间的内在相似性。如果有监督学习算法旨在将数据点放置到已知类中,则无监督学习算法将检查对象实例共有的特征,并根据这些特征将它们放置在组中,从而本质上创建自己的类。

监督学习算法的示例是 线性回归,逻辑回归, K近邻,决策树和 支持向量机.

同时,无监督学习算法的一些例子是主成分分析和K-Means聚类。

监督学习算法

线性回归 是一种算法,它具有两个特征并绘制出它们之间的关系。线性回归用于预测与其他数值变量有关的数值。线性回归方程为Y = a + bX,其中b是直线的斜率,而a是y与X轴交叉的位置。

逻辑回归 是二进制分类算法。该算法检查数值特征之间的关系,并找到将实例分类为两个不同类别之一的可能性。概率值被“压缩”为0或1。换句话说,强概率将接近0.99,而弱概率将接近0。

K最近邻居 根据训练集中某些选定数量的邻居的分配类别,为新数据点分配类别。该算法考虑的邻居数量很重要,并且太少或太多的邻居都会对点进行错误分类。

决策树 是一种分类和回归算法。一个 决策树 通过将数据集分成越来越小的部分进行操作,直到子集无法再进一步分裂,结果是一棵有节点和叶子的树。节点是使用不同的筛选标准做出有关数据点的决策的地方,而叶子是已分配了某些标签(已分类的数据点)的实例。决策树算法能够处理数字数据和分类数据。在树中针对特定变量/功能进行拆分。

支持向量机 是一种分类算法,通过绘制数据点之间的超平面或分隔线进行操作。数据点根据它们在超平面的哪一侧而分为几类。可以在一个平面上绘制多个超平面,从而将数据集分为多个类别。分类器将尝试使潜水超平面与平面任一侧上的点之间的距离最大化,并且线与点之间的距离越大,分类器就越有信心。

无监督学习算法

主成分分析 是一种用于降维的技术,这意味着以更简单的方式表示数据的维数或复杂性。主成分分析算法为正交数据找到新的维度。在减少数据的维数的同时,应尽可能保留数据之间的差异。实际上,这意味着它将数据集中的特征提取出来,然后将其提炼成更少的代表大部分数据的特征。

K均值聚类 是一种基于相似功能自动将数据点分组为群集的算法。分析数据集中的模式,然后根据这些模式将数据点分为几组。本质上,K-means根据未标记的数据创建自己的类。 K-Means算法的运行方式是将中心分配给聚类或质心,然后移动质心直到找到质心的最佳位置。最佳位置将是类别中质心到周围数据点之间的距离最小的位置。 K均值聚类中的“ K”是指选择了多少个质心。

概要

首先,让我们快速浏览一下之间的主要区别 有监督和无监督的学习。

如前所述,在有监督的学习任务中,输入数据被标记,并且类别数已知。同时,输入数据是无标签的,在无监督学习情况下,类的数量是未知的。无监督学习的计算复杂度较小,而无监督学习的计算复杂度较高。虽然有监督的学习结果趋向于高度准确,但无监督的学习结果趋于于较不准确/中度准确。

专门从事以下工作的Blogger和程序员 机器学习 深度学习 话题。 Daniel希望帮助他人将AI的力量用于社会公益。