联系我们

AI 101.

什么是决策树?

mm

更新

 on

什么是决策树?

A 决策树是一个有用的机器学习用于回归和分类任务的算法。该名称“决策树”来自算法将DataSet划分为较小且更小的部分,直到数据被分成单个实例,然后分类。如果您要显示算法的结果,则类别分割的方式将类似于树和许多叶子。

这是对决策树的快速定义,但让我们深入了解决策树的工作原理。更好地了解决策树如何运行以及它们的用例,可以帮助您知道何时在机器学习项目期间利用它们。

决策树的格式

决策树是很像流程图。要利用您在图表的起始点或root,然后基于如何应对您转移到下一个可能节点之一的启动节点的过滤标准的方法。重复该过程直到达到结束。

决策树以基本相同的方式运行,树中的每个内部节点都是某种测试/过滤标准。外部的节点是树的端点是有问题的数据点的标签,它们被称为“叶子”。从内部节点到下一个节点的分支是特征或功能的缀合。用于对DataPoints进行分类的规则是从根到叶子运行的路径。

决策树的算法

决策树在一种算法方法上运行,该方法基于不同的标准将数据集分成单独的数据点。这些拆分是用不同的变量或数据集的不同功能完成。例如,如果目标是通过输入特征确定狗或猫是否描述了狗或猫,则数据分割的变量可能是“爪子”和“吠叫”的东西。

那么用于实际算法将数据分成分支和叶子?有各种方法可以用来分开树木,但最常见的分裂方法可能是称为“递归二进制拆分“。执行该分裂方法时,该过程从根目录开始,数据集中的特征数表示可能的拆分数。函数用于确定每种可能的分裂的准确性如何成本,并且使用牺牲最低准确性的标准进行分割。该过程递归地执行,并且使用相同的一般策略形成子组。

为了确定分裂的成本,使用成本函数。不同的成本函数用于回归任务和分类任务。两种成本函数的目标是确定哪些分支具有最相似的响应值或最均匀的分支。考虑您希望测试某个类的数据以遵循某些路径,这使得这是直观的感觉。

就递归二进制分割的回归成本函数而言,用于计算成本的算法如下:

总和(Y.– prediction)^2

对特定数据点组的预测是该组训练数据的响应的含义。所有数据点都通过成本函数运行,以确定所有可能的分割的成本,并且选择具有最低成本的分割。

关于分类的成本函数,该函数如下:

g = sum(pk *(1– pk))

这是Gini评分,它是根据不同类别的实例在拆分中的组中的许多实例来测量分割的有效性。换句话说,它量化了分裂后的混合方式。最佳拆分是当由拆分产生的所有组仅包括一个类的输入。如果已创建最佳拆分,则“PK”值将为0或1,g将等于零。在二进制分类的情况下,您可以猜测最坏情况的拆分是拆分中的拆分中的50-50表示。在这种情况下,“PK”值为0.5,g也将为0.5。

当所有数据点被转化为叶子并分类时,拆分过程被终止。但是,您可能希望早期停止树的增长。大型复杂树易于过度装备,但是可以使用几种不同的方法来打击这一点。减少过度装备的一种方法是指定将用于创建叶子的最小数据点数。控制过度装备的另一种方法是将树限制为某个最大深度,该深度控制路径从根部伸展到叶子的长度。

另一个涉及决策树的进程修剪。修剪可以通过剥离包含具有很小预测功率/模型重要性的特征的分支来帮助提高决策树的性能。以这种方式,树的复杂性降低,它变得不太可能过度装备,并且增加了模型的预测效用。

当进行修剪时,该过程可以在树的顶部或树的底部开始。但是,最简单的修剪方法是从叶子开始,并尝试删除包含该叶子中最常见类的节点。如果模型的准确性在完成时不会恶化,则更改被保留。还有其他技术用于进行修剪,但是上述方法–减少误差修剪–可能是决策树修剪中最常见的方法。

使用决策树的考虑

决策树通常有用当需要进行分类但计算时间是一个主要约束。决策树可以清除所选择的数据集中的哪些功能,使其成为最预测的功率。此外,与用于对数据分类的规则进行分类的规则可能很难解释的规则不同,决策树可以呈现可解释规则。决策树还能够利用分类和连续变量,这意味着与只能处理这些变量类型之一的算法相比需要更少的预处理。

当用于确定连续属性的值时,决策树往往不会表现得很好。决策树的另一个限制是,在进行分类时,如果训练示例很少,但决策树的许多类往往是不准确的。

Blogger和Programmer有专业的机器学习深度学习话题。丹尼尔希望帮助别人利用AI的力量来社交。