联系我们

采访

威尔逊庞,Real World AI的合着者– Interview Series

mm

更新

 on

威尔逊庞加盟申请2018年11月作为首席技术官并负责公司的产品和技术。威尔逊拥有超过19年的软件工程经验和数据科学。在加入Appen之前,Wilson是中国携程的首席数据官,该公司是世界第二大在线旅游社公司,在那里他领导了数据工程师,分析师,数据产品经理和科学家,以提高用户体验并提高运营效率成功。在此之前,他是加利福尼亚州eBay工程高级总监,并在各个领域提供了领导,包括数据服务和解决方案,搜索科学,营销技术和计费系统。他在eBay之前作为IBM的建筑师,为各种客户建立技术解决方案。威尔逊在中国的浙江大学获得了硕士和学士学位。

我们讨论他的新书:AI的真实世界:负责任的实用指南机器学习

您可以描述如何当您领导eBay的搜索科学团队时,您的第一课与机器学习的第一课是了解认识到衡量标准的重要性。给出的示例是如何“每次会话购买”的原则无法解释项目的货币价值。如何最好地了解测量指标以避免类似问题?

从您的团队属性开始到AI型号的目标 - 在我们的情况下,我们希望通过机器学习推动更多的收入。当您将指标附加到目标时,请考虑这些指标将产生的机制,一旦您发布模型,人们开始与之交互,还记录您的假设。在我们的情况下,我们假设该模型将优化收入,但每次会议的购买数量没有转化为此,因为该模型是针对大量低票价销售的优化,以及我们在一天结束时进行了优化赚更多的钱。一旦我们意识到,我们就能改变指标并指向正确的方向。因此确定粒度指标以及注意假设对于项目的成功至关重要。

你亲自学习了研究和写作这本书的是什么?

我们有很多不同的问题,可以由不同公司和不同行业的AI解决。使用情况可能非常不同,AI解决方案可能是不同的,训练AI解决方案可能不同的数据。然而,无论所有这些差异如何,人们在均衡期间犯下的错误都是相似的。这些错误一次又一次地发生在各种行业的各种公司。

我们在实施AI项目时分享了一些常见的最佳实践,希望帮助更多人和公司避免这些错误并获得部署负责任的AI的信心。

你希望人们读到这一点的一些最重要的教训是什么?

我们相信机器学习技术的周到,负责任和道德用途可以使世界成为一个更加刚刚,公平和包容的地方。机器学习技术承诺在整个商业世界中重塑所有东西,但它并不难。有验证和测试的方法和流程团队可以遵循并获得部署到生产的信心。

另一个关键课程是商业界所有者(如产品经理)和团队成员在越技术方面(比如工程师和数据科学家)需要讲一种共同语言。要成功部署AI,领导者必须弥合团队之间的差距,为商业专家和C电平提供足够的背景,以便与技术实施者有效。

当他们想到AI时,很多人都会首先考虑代码。本书中的一个关键课程是数据对AI模型的成功至关重要。从收集到标记到存储的数据有很多,每步都会影响模型的成功。最成功的AI部署是那些能够高强调数据并努力不断改进其ML模型的这个方面的人。

所有现实世界的AI都需要跨职能团队和创新精神。

讨论是确定AI模型的准确性何时足够高,以使用AI支持。评估所需的准确性类型的最简单方法是什么?

这取决于您的用例和风险容忍度。开发AI的团队应始终具有测试阶段,在那里他们确定其组织和利益相关者的准确性水平和可接受的阈值。对于生命或死亡用例 - 如果AI出错,那么就像在判刑软件一样的情况下,自驾车,医疗用例时,酒吧非常非常高,团队必须放入在模型错误的情况下放置突发事件。对于更多容错用例,在游戏的内容,搜索或广告相关性的情况下,团队可以依赖于用户反馈,以便在生产中继续调整模型。当然,这里有一些高风险的用例,也是非法或不道德的材料可能向用户展示,因此,这里也必须在这里进行保障和反馈机制。 

您能定义在前面前为项目定义成功的重要性吗?

它同样重要的是从业务问题开始,因为它是定义成功的前面,如两人携手共进。在关于汽车经销商的书中使用AI来标记图像的示例,他们没有确定成功看起来像是因为他们没有定义一个解决的业务问题。对他们的成功可能是一些不同的东西,这使得难以解决问题,即使对于人的团队而言,更不用说机器学习模型固定的范围。如果他们已经开始用凹痕标记所有车辆,以创建需要维修和定义成功的车辆列表,尽可能准确地标记二手车库存中所有车辆凹痕的80%,然后当他们准确标记为85%的团队时会称之为成功。但如果这一成功没有与业务问题联系起来,并直接业务影响,很难在这个例子中评估标签准确性的重点定义之外的项目。在这里,业务问题更复杂,标记凹痕只是它的一个组成部分。在他们的情况下,通过将成功定义为索赔过程中的节省时间/金钱,或者通过x%优化修复过程,然后将标签的影响转化为真正的业务结果来更好。

确保培训数据示例涵盖了在生产部署中会发生的所有使用情况?

非常重要的是,在所有使用情况下培训模型以避免偏见。但是,重要的是要注意到,虽然绝对不可能涵盖生产中的所有用例,但建立AI的团队需要了解他们的生产数据,以及他们的培训数据,以便他们培养AI,以便在生产中遇到什么。访问来自各种群体的培训数据具有各种用例,对模型成功至关重要。例如,培训以在上传的图像中识别人们宠物的培训的模型需要在所有类型的宠物上培训;狗,猫,鸟类,小哺乳动物,蜥蜴等如果模型只培训狗,猫和鸟类,那么当有人用豚鼠上传图像时,该模型将无法识别它。虽然这是一个非常简单的例子,但它显示了尽可能多的可能使用案例的培训对于模型的成功至关重要。

本书中讨论的是需要从上下发展良好的数据卫生习惯,培养这种习惯有什么常见的第一步?

良好的数据卫生习惯将提高内部数据的可用性,并为ML使用案例提供素材。整个公司必须善于组织和跟踪其数据集。实现这一目标的一种方法是使其成为业务需求和跟踪实现,以便很少有报告最终是自定义作业,并且团队使用漏斗中的数据流水线越来越多,具有清晰的本体。另一个良好的做法是保留收集数据的何时何地以及在数据库中置于数据库之前发生的事情,以及定期建立清理未使用或陈旧数据的过程。

谢谢你的伟大采访,为有兴趣了解更多的读者,我建议他们读书AI的现实世界:负责机器学习的实用指南.

antoine tardif是一个未来谁对AI和机器人的未来充满热情。他是首席执行官blockventures.com.,并投资于超过50个AI和区块链项目。他是联合创始人证券.IO.专注于数字资产,数字证券和投资的新闻网站。他是Unite.ai和A成员的创始合作伙伴福布斯技术委员会。