联系我们

AI 101.

什么是混乱的矩阵?

mm

更新

 on

其中一个最强大的分析工具之一机器学习数据科学混乱矩阵。困惑矩阵能够给出研究人员关于如何在数据集中的目标类执行机器学习分类器的详细信息。混淆矩阵将显示已正确归类的显示实施例,其针对错误分类的例子。让我们深入了解混淆矩阵结构的结构以及如何解释。

什么是混乱的矩阵?

通过给出混淆矩阵的简单定义来开始。混淆矩阵是预测分析工具。具体而言,它是一个显示和比较模型的预测值的实际值的表。在机器学习的背景下,混淆矩阵用作指标,以分析如何在数据集上执行机器学习分类器。混淆矩阵产生精度,精度,特异性和召回等度量的可视化。

混淆矩阵特别有用的原因是,与其他类型的分类度量不同,例如简单的准确度,混淆矩阵会产生更完整的模型所执行的图像。只有使用等精度的度量可以导致模型完全且始终均不确定一个类的情况,但由于平均性能良好,它不会被注意。同时,混乱矩阵给出了不同价值观的比较像虚假的否定,真正的否定,误报和真实的积极。

让我们定义混淆矩阵表示的不同度量。

召回混乱的矩阵

召回是真正的正例的数量除以假阴性例子的数量和总阳性例子。换句话说,召回代表机器学习模型分类的真实积极示例的比例。召回作为正例的百分比,模型能够将其分类为数据集中包含的所有正示例。该值也可以称为“命中率”,相关值是“灵敏度“描述了召回的可能性,或真正阳性预测的速度。

精确在混乱的矩阵中

像回忆一样,精度是在正面示例分类方面跟踪模型性能的值。与召回不同,精度涉及有多少例子标记为阳性的模型真正为正。为了计算出来,真正的正例的数量除以假正示例的数量加上真正的阳性。

造成区别召回和精确清晰,精确旨在弄清楚标记为阳性的所有示例的百分比,该样的阳性是肯定的,而召回追踪模型可以识别的所有真正正例的百分比。

特异性在混乱的矩阵中

虽然召回和精确度是跟踪积极示例的值和真正的阳性率,特异性量化真正的负速率或模型定义为负面的示例数量真正为负。这是通过将分类为否定的示例的数量并将其除以真正的否定例子的误判示例的数量来计算。

了解混乱矩阵

Photo: Jackverr via Wikimedia Commons, (//commons.wikimedia.org/wiki/File:ConfusionMatrix.png), CC BY SA 3.0

混乱矩阵的例子

在定义精度,召回,灵敏度和特异性等必要条款后,我们可以检查这些不同的值如何在混淆矩阵中表示。在分类的情况下,在分类的情况下产生混淆矩阵,适用于有两个或多个类。生成的混淆矩阵可以与必要的一样高且宽,持有任何所需数量的类,但是为了简单起见,我们将检查一个2×2混淆矩阵以进行二进制分类任务。

作为示例,假设分类器用于确定患者是否具有疾病。该功能将被馈送到分类器中,并且分类器将返回两个不同的分类之一–患者无论是疾病还是他们都没有。

让我们从矩阵的左侧开始。混淆矩阵的左侧表示用于为各个类的分类器的预测。二进制分类任务在此处有两行。关于矩阵的顶部,它跟踪数据实例的真实值,实际类标签。

通过检查行和列相交的位置可以来解释混淆矩阵。检查模型的预测对模型的真实标签。在这种情况下,真正的阳性值,正确的正预测的数量位于左上角。误报在右上角,其中示例实际上是负的,但分类器将其标记为正。

网格的左下角显示分类器标记为负的实例,但真的是正面的。最后,混淆矩阵的右下角是找到真正的负值,或者真正的虚假示例的位置。

当数据集包含多个类以上时,矩阵会由许多类增长。例如,如果有三个类,则矩阵将是3×3矩阵。无论混淆矩阵的大小如何,解释它们的方法完全相同。左侧包含预测值,实际类标签跨越顶部。分类器已正确预测的实例从左上角到右下方对角线运行。通过查看矩阵,您可以辨别上面讨论的四个预测度量。

例如,您可以通过采用真正的阳性和假否定来计算调用,将它们添加在一起,并将它们除以真正的正示例的数量。同时,可以通过将误报与真正的阳性相结合来计算精度,然后将值除以真实阳性的总数。

虽然可以花费时间手动计算精度,回忆和特异性等度量,但这些指标如此常用,大多数机器学习库都有显示它们的方法。例如,对Python的Scikit-reash有一个函数生成混淆矩阵。

Blogger和Programmer有专业的机器学习深度学习话题。丹尼尔希望帮助别人利用AI的力量来社交。