联系我们

数据科学

弹性>准确性:为什么“模型弹性”应成为模型实施的真正指标

mm

已发表

 on

英戈·米尔斯瓦(Ingo Mierswa)创始人,总裁&首席数据科学家 RapidMiner .

数据科学 在过去的几年中取得了很大的进步,许多组织正在使用高级分析或 机器学习 模型以获取有关流程的更深刻见解,在某些情况下甚至可以预测未来的可能结果。对于其他“科学”来说,通常不清楚一个项目是否会成功,并且有报道说 多达87%的数据科学项目从未将其投入生产。虽然不能期望100%的成功率,但是数据科学项目中的某些模式导致成功率高于该领域应接受的水平。这些问题模式似乎独立于任何特定行业或用例而存在,这表明数据科学中存在必须解决的普遍问题。

衡量机器学习的成功

创建机器学习(ML)模型的数据科学家依靠定义明确的数学标准来衡量此类模型的性能。应用哪些准则主要取决于模型的类型。假设模型应该预测新情况的类别或类别 —例如,客户是否会流失。在这种情况下,数据科学家会使用诸如准确性(模型正确的频率)或精度(如果我们预测客户流失的情况下客户实际上会进行搅动的频率)之类的度量。

数据科学家需要这样的客观标准,因为他们的工作之一就是优化那些评估标准以产生最佳模型。实际上,除了准备好要进行建模的数据之外,这些模型的构建和调整是 数据科学家花费大部分时间的地方.

不利的一面是,数据科学家实际上并没有过多地专注于将这些模型投入生产,这是一个有多个原因的问题。首先,不能产生成功结果的模型不能用于为部署它们的组织产生业务影响。其次,由于这些组织花费了大量时间和金钱来开发,训练和操作模型,这些模型在针对“现实世界”数据运行时未能成功产生结果,因此他们更有可能认为ML和其他数据科学工具对他们的组织毫无用处并拒绝推进未来的数据科学计划。

事实是,数据科学家只是喜欢模型的调整,并为此花费了大量时间。但是,如果没有业务影响,这个时间就不会明智地花费,考虑到当今世界上资源数据科学家的匮乏,这尤其令人痛苦。

Netflix奖品和制作失败

近年来,我们已经看到了这种过度投资于模型构建而不是模型可操作性的现象。的 Netflix奖 公开了最佳协作过滤算法的公开竞赛,以预测电影的用户收视率。如果您要给一部新电影评级很高,那么您可能会喜欢这部电影-因此,使用此评级系统,Netflix会向您推荐某些标题,如果您喜欢推荐的内容,您作为Netflix的客户可能会停留更长时间。大奖的总金额为100万美元,奖励给能够将Netflix自己的算法提高至少10%的团队。

挑战始于2006年,在随后的三年中,全球40,000多个数据科学团队的贡献使标题推荐成功获得了令人印象深刻的10%以上的改进。但是,获胜团队的模型 从未实现。 Netflix说:“准确性的提高似乎不足以证明将这些模型投入生产所需的努力。”

为什么最优并不总是最优

长期以来,模型准确性和其他数据科学标准一直用作衡量模型成功与否的指标。如我们所见,许多模型甚至都没有达到这个阶段–无论是在能源还是时间上,这都是对资源的浪费。

但是,这种在模型调整中过度投资的文化存在更多问题。首先是对测试数据的过分拟合,这将导致模型对管理数据科学家来说看起来不错,但实际上一旦生产就表现不佳,有时甚至会造成危害。发生这种情况有两个原因:

  1. 测试错误与您将在生产中看到的之间存在众所周知的差异
  2. 业务影响和数据科学性能标准通常是相关的,但是“最佳”模型并不总是产生最大的影响

上面的第一点也称为“过度拟合测试集。”这是一个众所周知的现象,尤其是在来自 卡格勒 。对于这些竞赛,您可以看到在公共排行榜和私人排行榜之间已经出现了这种现象的更强形式。实际上,参与者可以在Kaggle竞赛中赢得公共排行榜,而无需 甚至读过数据。同样,私人排行榜的获胜者和整体比赛也可能没有建立能够在评估后的数据集上保持其表现的模型。

准确性不等于业务影响

我们接受这种做法的时间太长了,这导致模型适应测试数据集的速度变慢。结果,看起来最好的模型看起来平庸无奇:

  • 诸如预测准确性之类的度量通常不等于业务影响
  • 准确性提高1%不能转化为业务结果提高1%
  • 在某些情况下,就业务影响而言,绩效较低的模型要优于其他模型
  • 还必须考虑其他因素,例如维护,评分速度或抵抗随时间变化的稳定性(称为“弹性”)。

最后一点特别重要。最好的模型不仅会赢得竞争或在数据科学实验室中看起来不错,还将在生产中保持稳定并在各种测试集上表现良好。这些模型就是我们所说的弹性模型。

漂移和弹性的重要性

所有模型都会随着时间的流逝而恶化。唯一的问题是这种情况发生的速度有多快,以及模型在变化的环境下仍然表现良好。这种恶化的原因是世界不是一成不变的。因此,模型所应用的数据也会随时间变化。如果这些变化缓慢发生,我们称之为“概念漂移”。如果这些更改突然发生,我们称之为“概念转变”。例如,受趋势和/或营销的影响,客户可能会随着时间的流逝缓慢地改变其消费行为。倾向模型可能在某个时候不再起作用。在某些情况下,这些变化可以大大加快。例如,COVID-19推动了卫生纸和消毒剂等物品的销售—某些产品的意外急剧增加可能会使这种模型完全偏离正常轨道。

弹性模型可能不是基于诸如准确性或精度之类的度量的最佳模型,但在更广泛的数据集上将表现良好。因此,它在更长的时间内也会表现更好,因此能够更好地传递持续的业务影响。

线性模型和其他类型的简单模型通常更具弹性,因为将它们过度拟合到特定的测试集或特定时间点比较困难。可以并且应该将功能更强大的模型用作更简单模型的“挑战者”,从而使数据科学家可以查看它是否还能随着时间的推移而发展。但这应该在建模过程的终点而不是起点进行。

尽管尚未将正式的用于衡量弹性的KPI引入数据科学领域,但是数据科学家可以通过多种方式评估其模型的弹性:

  • 交叉验证运行中的标准偏差较小,这意味着模型性能对不同测试集的细节的依赖较少
  • 即使数据科学家没有执行完整的交叉验证,他们也可以使用两个不同的数据集进行测试和验证。测试和验证数据集的错误率之间较小的差异表明较高的弹性
  • 如果在生产中对模型进行了适当的监视,则随着时间的流逝可以看到错误率。随着时间的流逝,错误率的一致性是模型弹性的好兆头。
  • 如果选择的模型监视解决方案考虑了漂移,那么数据科学家还应注意输入漂移对模型的影响程度。

改变数据科学的文化

在操作阶段部署模型后,仍然存在对模型准确性的威胁。上面关于模型弹性的最后两点已经要求对生产中的模型进行适当的监视。作为改变数据科学文化的起点,建议公司明智地投资于适当的模型监视,并开始让数据科学家对模型投入生产后的性能不足负责。这将立即将文化从模型构建文化转变为数据科学领域的创造价值和维持价值的文化。

正如最近发生的世界大事向我们表明的那样,世界在迅速变化。现在,我们比以往任何时候都需要构建弹性模型—不只是准确的—随时间推移获取有意义的业务影响。例如,Kaggle面临着挑战,要激发全球的数据科学家,以帮助建立模型解决方案以用于全球对抗COVID-19的斗争。我预计,由于这一挑战而产生的最成功的模型将是最有弹性的,而不是最准确的,因为我们已经看到了COVID-19数据在一天之内变化的速度。

数据科学应该致力于发现事实,而不是产生“最佳”模型。通过在准确性方面具有更高的弹性标准,数据科学家将能够为我们的组织带来更多业务影响,并有助于积极塑造未来。

自开始开发以来,Ingo Mierswa是一位行业资深数据科学家 RapidMiner 在德国多特蒙德大学的人工智能系学习。科学家Mierswa已撰写了许多有关预测分析和大数据的获奖出版物。企业家Mierswa是RapidMiner的创始人。他负责战略创新,并处理有关RapidMiner技术的所有重大问题。在他的领导下,RapidMiner在最初的七年中每年增长300%。 2012年,他在美国,英国和匈牙利开设了办事处,率先实施了国际化战略。经过两轮的筹款,对Radoop的收购以及对RapidMiner在Gartner和Forrester等领先分析公司的定位的支持,Ingo为将世界上最好的团队带入RapidMiner感到非常自豪。