联系我们

AI 101

生成与区分机器学习模型

mm

更新

 on

一些 机器学习 模型属于“生成型”或“区分型”模型类别。然而什么是 和...之间的不同 这两个类别的模型?模型具有区别性或生成性意味着什么?

简短的答案是,生成模型是那些包含数据集分布的模型,返回给定示例的概率。生成模型通常用于预测序列中接下来会发生什么。同时,判别模型用于分类或回归,并返回预测 基于条件 可能性。 让我们更详细地探讨生成模型和判别模型之间的差异,以便我们能够真正理解两种模型之间的区别以及何时使用每种模型。

生成模型与区分模型

有多种方法可以对机器学习模型进行分类。可以将模型归为不同的类别,例如:生成模型,判别模型,参数模型,非参数模型,基于树的模型,基于非树的模型。

本文将重点讨论生成模型和判别模型之间的差异。我们先定义生成模型和判别模型,然后再探讨每种模型的一些示例。

生成模型

生成模型 以数据集中类的分布为中心的那些。机器学习算法通常对数据点的分布建模。生成模型依赖于发现联合概率。创建同时存在给定输入要素和所需输出/标签的点。

生成模型通常用于估计概率和可能性,对数据点进行建模,并根据这些概率来区分类别。因为模型学习了数据集的概率分布,所以它可以引用该概率分布以生成新的数据实例。生成模型通常依赖 贝叶斯定理 找到联合概率,找到p(x,y)。本质上,生成模型对如何生成数据建模,请回答以下问题:

“此类或另一个类别生成此数据点/实例的可能性有多大?”

生成式机器学习模型的示例包括线性判别分析(LDA),隐马尔可夫模型和像朴素贝叶斯这样的贝叶斯网络。

判别模型

生成模型了解数据集的分布时, 判别模型 了解数据集中的类之间的边界。使用判别模型,目标是确定 决策边界 在类之间添加可靠的类标签到数据实例判别模型通过使用条件概率来分离数据集中的类,而不对单个数据点进行任何假设。

歧视性模型旨在回答以下问题:

“此实例位于决策边界的哪一边?”

机器学习中的判别模型的示例包括 支持向量机,逻辑回归,决策树和随机森林。

生成性和区分性之间的差异

简要介绍了生成模型和判别模型之间的主要差异。

生成模型:

  • 生成模型旨在捕获数据集中类的实际分布。
  • 生成模型预测联合概率分布– p(x,y) – utilizing 贝叶斯定理.
  • 与判别模型相比,生成模型在计算上昂贵。
  • 生成模型对于无人监督的机器学习任务很有用。
  • 生成模型对异常值的影响要大于判别模型。

判别模型:

  • 判别模型为数据集类的决策边界建模。
  • 判别模型学习条件概率– p(y|x).
  • 与生成模型相比,区分模型在计算上便宜。
  • 区分模型对于监督型机器学习任务很有用。
  • 与生成模型不同,区分模型的优点是对异常值更健壮。
  • 与生成模型相比,判别模型对异常值的鲁棒性更高。

现在,我们将简要探讨生成式和判别式机器学习模型的一些不同示例。

生成模型的例子

线性判别分析(LDA)

LDA模型 通过估计数据集中每个类别的数据的方差和均值来发挥作用。在计算完每个类别的均值和方差之后,可以通过估计给定输入集属于给定类别的概率来进行预测。

隐马尔可夫模型

马尔可夫链 可以认为是具有概率的图,这些概率表明我们从链中的一个点(一个“状态”)移动到另一个状态的可能性。马尔可夫链用于确定从状态j迁移到状态i的概率,可以表示为p(i,j)。这只是上面提到的联合概率。隐马尔可夫模型是使用不可见,不可观察的马尔可夫链的地方。将数据输入提供给模型,并使用当前状态和紧接其之前的状态的概率来计算最可能的结果。

贝叶斯网络

贝叶斯网络 是一种概率图形模型。它们表示变量之间的条件依赖性,如有向无环图所示。在贝叶斯网络中,图的每个边表示条件依赖性,每个节点对应一个唯一变量。图中唯一关系的条件独立性可用于确定变量的联合分布并计算联合概率。换句话说,贝叶斯网络捕获特定联合概率分布中独立关系的子集。

一旦在已知随机变量,条件关系和概率分布的情况下创建并正确定义了贝叶斯网络,就可以将其用于估计事件或结果的概率。

贝叶斯网络最常用的一种类型是朴素贝叶斯模型。朴素贝叶斯(Naive Bayes)模型通过将所有要素彼此独立对待,从而解决了计算具有多个参数/变量的数据集概率的挑战。

判别模型的示例

支持向量机

支持向量机 通过绘制数据点之间的决策边界,找到最能区分数据集中不同类别的决策边界来进行操作。 SVM算法分别为二维空间和3D空间绘制分隔点的线或超平面。 SVM会通过尝试最大化边距或线/超平面到最近点的距离,来找到最能区分类别的线/超平面。通过使用“内核技巧”来识别非线性决策边界,SVM模型还可以用于不可线性分离的数据集。

逻辑回归

逻辑回归 是一种使用对数(log-odds)函数确定输入处于两种状态之一的概率的算法。 S型函数用于将概率“压”为0或1,即是或否。大于0.50的概率假定为1类,而0.49或更低的概率假定为0。因此,在二元分类问题中通常使用逻辑回归。但是,逻辑回归可以通过使用“一对一”方法,针对每个类创建二进制分类模型并确定示例是数据集中的目标类或另一类的概率来应用于多类问题。

决策树

A 决策树 通过将数据集分成越来越小的部分来进行建模,一旦子集无法再进一步分裂,结果就是一棵有节点和叶子的树。决策树中的节点是使用不同的过滤标准做出有关数据点的决策的地方。决策树中的叶子是已分类的数据点。决策树算法可以处理数字和分类数据,并且树中的拆分基于特定的变量/功能。

随机森林

A 随机森林模型 基本上只是决策树的集合,其中对各个树的预测取平均值以得出最终决策。随机森林算法随机选择观测值和特征,并根据这些选择构建单个树。

本教程文章将探讨如何在Matplotlib中创建箱形图。箱形图用于可视化数据集的摘要统计信息,显示分布的属性,例如数据的范围和分布。

专门从事以下工作的Blogger和程序员 机器学习 深度学习 话题。 Daniel希望帮助他人将AI的力量用于社会公益。