联系我们

AI 101

什么是机器学习?

mm

更新

 on

机器学习是发展最快的技术领域之一,但是尽管经常使用“机器学习”一词,但准确理解机器学习还是很困难的。

机器学习 不仅仅指一件事,它’是一个总括性术语,可以应用于许多不同的概念和技术。了解机器学习意味着要熟悉不同形式的模型分析,变量和算法。让我们仔细研究一下机器学习,以更好地理解它所包含的内容。

什么是机器学习?

虽然术语机器学习可以应用于许多不同的事物,但通常来说,该术语是指使计算机能够执行任务而无需接收明确的逐行指令来执行此任务。机器学习专家不必写出解决问题的所有步骤,因为计算机能够通过分析数据中的模式并将这些模式概括为新数据来进行“学习”。

机器学习系统包含三个基本部分:

  • 输入项
  • 演算法
  • 产出

输入是输入到机器学习系统中的数据,输入数据可以分为标签和特征。特征是相关的变量,将对这些变量进行分析以学习模式并得出结论。同时,标签是为数据的各个实例提供的类/描述。

功能和标签可用于两种不同类型的机器学习问题: 监督学习无监督学习.

无监督与有监督的学习

监督学习,输入数据伴随着基本事实。监督学习问题具有正确的输出值作为数据集的一部分,因此预先知道了预期的类别。这使得数据科学家可以通过在测试数据集上测试数据并查看正确分类的项目百分比来检查算法的性能。

相反, 无监督学习 问题没有附加地面真理标签。经过训练可以执行无监督学习任务的机器学习算法必须能够为其自身推断数据中的相关模式。

监督学习算法通常用于分类问题,其中一个具有庞大的数据集,其中填充了实例,必须将这些实例分类为许多不同类之一。监督学习的另一种类型是回归任务,其中算法输出的值本质上是连续的而不是分类的。

同时,无监督学习算法用于密度估计,聚类和表示学习等任务。这三个任务需要机器学习模型来推断数据的结构,没有给模型提供预定义的类。

让我们简要介绍一下无监督学习和有监督学习中使用的一些最常见算法。

监督学习的类型

常见的监督学习算法包括:

支持向量机 是将数据集分为不同类别的算法。数据点通过画线将各类彼此分离,从而将其分组为簇。在线的一侧找到的点将属于一个类,而在线的另一侧找到的点将属于另一个类。支持向量机的目的是最大程度地增加线与在线的两边找到的点之间的距离,距离越大,分类器对点属于一个类别而不是另一个类别的信心就越大。

逻辑回归 是一种在二进制分类任务中使用的算法,当数据点需要分类为属于两个类别之一时。 Logistic回归通过将数据点标记为1或0来工作。如果数据点的感知值是0.49或以下,则将其分类为0,而如果它是0.5或以上,则将其分类为1。

决策树算法 通过将数据集分成越来越小的片段来进行操作。用来划分数据的确切标准取决于机器学习工程师,但目标是最终将数据划分为单个数据点,然后使用密钥对其进行分类。

随机森林算法本质上是很多单 决策树 分类器链接在一起,形成更强大的分类器。

朴素贝叶斯分类器 根据先前事件发生的概率,计算给定数据点已发生的概率。它基于 贝叶斯定理 并根据计算出的概率将数据点归类。实施朴素贝叶斯分类器时,假定所有预测变量对分类结果具有相同的影响。

一个 人工神经网络或多层感知器是受人脑结构和功能启发的机器学习算法。人工神经网络之所以得名,是因为它们由链接在一起的许多节点/神经元组成。每个神经元都使用数学函数来操纵数据。在人工神经网络中,存在输入层,隐藏层和输出层。

神经网络的隐藏层是实际解释和分析数据模式的地方。换句话说,这就是算法学习的地方。更多的神经元连接在一起构成了更复杂的网络,能够学习更复杂的模式。

无监督学习的类型

无监督学习算法包括:

  • K均值聚类
  • 自动编码器
  • 主成分分析

K均值聚类 这是一种无监督的分类技术,它通过根据数据点的特征将数据点分为簇或组来工作。 K-均值聚类分析了在数据点中找到的特征,并区分了其中的模式,这些模式使在给定类聚类中找到的数据点与包含其他数据点的聚类相比更加相似。为此,可以在数据图中放置聚类或质心的可能中心,然后重新分配质心的位置,直到找到一个位置,以使质心和属于该质心类别的点之间的距离最小化。研究人员可以指定所需的簇数。

主成分分析 是一种将大量特征/变量减少为较小特征空间/较少特征的技术。选择数据点的“主要成分”进行保存,而将其他特征压缩为较小的表示形式。原始数据部分之间的关​​系得以保留,但是由于数据点的复杂性更加简单,因此数据更易于量化和描述。

自动编码器 是可应用于无人监督学习任务的神经网络版本。自动编码器能够获取未标记的自由格式数据,并将其转换为神经网络能够使用的数据,基本上可以创建自己的标记训练数据。自动编码器的目标是转换输入数据并尽可能准确地重建它,因此它’激励网络确定最重要的功能并提取它们。

专门从事以下工作的Blogger和程序员 机器学习 深度学习 话题。 Daniel希望帮助他人将AI的力量用于社会公益。