联系我们

面试

电子交易系统高级研究科学家Nitin Madnani– Interview Series

mm

已发表

 on

尼丁·马德南(Nitin Madnan)是 自然语言处理 (NLP)研究小组 教育考试服务 (ETS)。 ETS成立于1947年,是世界’最大的私营非营利性教育测试和评估组织。

您可以先解释一下ETS的任务吗?

电子交易系统的使命是提高全球所有学习者的教育质量和公平性。该使命是我们产品,服务,研究和开发工作的基础,旨在促进所有人的学习,支持教育,专业发展以及衡量知识和技能。

我们相信,任何地方的任何人都可以通过学习来改变自己的生活,而ETS在研究,评估,衡量和政策方面的工作可以在使学习成为可能的过程中发挥重要作用。

NLP令您如此热情的是什么?

所有人类语言是如此复杂而混乱。它们使我们能够在演讲中甚至在写作中表达各种情感,并且它们会随着时间而发展。另一方面,计算机在处理其输入时是如此确定性和临床性。自然语言处理(NLP)是人工智能的一个领域,试图通过结合计算机科学,语言学和统计学的技术,使这种非人类的设备理解人类语言的美丽复杂性。您怎么会找不到这种迷人的?

电子交易系统 NLP&语音科学家最近开发了12博下载app。您可以与我们分享12博下载app的功能吗?

正如我们在过去几年所看到的, 机器学习 无论应用在哪个领域,模型都可能表现出偏差的行为,教育也不例外。用于在测试中或教室中为学生的言语或文章分配分数或等级的自动评分系统通常使用机器学习模型。因此,这样的系统绝对有可能以有偏见的方式运行。这种偏见会产生严重的后果,尤其是如果使用此类系统的分数来做出高风险的决策时。

RSM工具 是我的同事的开源工具 Anastassia Loukina (先前 精选 我在ETS上开发),以帮助确保尽早发现自动化分级系统中的任何系统性,有害偏差,甚至是在将系统部署到现实世界中之前。 12博下载app旨在提供对AI评分引擎的全面评估,不仅包括预测准确性的标准指标,还包括模型公平性的指标以及基于测试理论的指标,以帮助此类引擎的开发人员识别其系统中可能存在的偏差或其他问题。

RSM工具名称从何而来?

在教育评估领域中,将分数(或“分数”)分配给一篇论文的人通常被称为“分数”。有人工评估者和自动评估者。 12博下载app是“评分者评分建模工具”的缩写,旨在帮助构建(和评估)自动评分者使用的评分模型。

该工具如何帮助开发人员识别其AI评分引擎中可能存在的偏见或其他问题?

在过去的五年中,包括ETS的许多同事在内的教育测量科学家,对使自动(和人工)评分公平的因素进行了有价值的研究。作为这项研究的一部分,他们开发了许多统计和心理分析方法来计算系统偏差的指标。但是,由于心理测验和NLP社区很少互动,因此几乎没有机会进行思想的异花授粉。结果是,正在构建实际的自动评分系统的NLP研究人员和开发人员-特别是个人研究人员和小公司的研究人员-无法轻松访问他们应该用于检查系统偏差的心理分析。 12博下载app试图通过在一个易于使用的Python软件包中提供大量多样的心理分析来解决此问题,任何NLP研究人员都可以轻松地将其纳入他们的研究或业务流程。

在典型的用例中,研究人员将提供带有数字系统评分,金标准(人类)评分和元数据(如果适用)的文件或数据框作为输入。 12博下载app处理这些数据并生成HTML报告,其中包含全面的评估,包括描述性统计数据以及系统性能和公平性的多种度量。可以在以下位置找到示例12博下载app报告: //bit.ly/fair-tool。 12博下载app可以与传统的功能驱动的机器学习模型(例如,从scikit-learn库中)一起使用,并且可以与 深度学习 楷模。尽管12博下载app的主要输出是HTML报告,它使共享变得更容易,但它还会生成表格数据文件(CSV,TSV或XLSX格式),作为高级用户的中间输出。最后,为使事情极具可定制性,12博下载app将报告的每个部分作为Jupyter笔记本实施,以便用户不仅可以选择与特定评分模型相关的部分,而且还可以轻松实现自定义分析并将其包括在报告中很少的工作。

许多 最近 学习 关于使用12博下载app评估其建议评分模型的自动评分。

可能会影响自动评分系统的常见偏见类型是什么?

影响自动计分系统的最常见偏见类型是差异分组表现,即自动化系统对不同总体分组表现不同时。例如,有偏见的评分系统可能会系统性地降低黑人女性撰写的论文的分数,而白人女性则相对于白人男性,即使这两个小组在实际写作技巧上可能没有系统的差异就人类而言,他们的论文。

电子交易系统在进行自动评分引擎公平性研究方面有着悠久的历史。例如,我们有 看着 e-rater®(我们的AI自动评分引擎)是否对按族裔,性别和国家定义的子组表现出任何差异表现(他们发现一些较小的差异可以通过后续的政策更改来解决)。研究也 看着 e-rater®是否平均地系统地区别对待具有学习障碍和/或ADHD的GRE®考试参与者的回答(没有)。最近, 及时学习 考察了一种用于对口语能力进行评分的自动化系统是否对需要戴口罩的考生与没有戴口罩的考生(没有)有系统的偏见。 12博下载app包含一些心理分析,这些分析试图量化用户可以根据自己的数据定义的子组之间的差异性子组性能。

电子交易系统选择将12博下载app开源,您能解释一下其背后的原因和重要性吗?

是的,12博下载app在以下位置可用 的GitHub 带有Apache 2.0许可证。我们认为,这种工具必须是开源且非专有的,以便社区能够(a)审核已经可用的分析的源代码,以确保其符合公平性标准,以及(b)进行新的分析,这一点很重要。随着标准的发展和变化。我们还希望NLP研究人员和开发人员可以轻松地在他们的工作中使用12博下载app,并帮助我们更好地进行改进。使12博下载app开源是ETS继续致力于在教育中负责任地使用AI的明确例证。

您从开发中学到了哪些经验教训&维护12博下载app?

在过去的五年中,我和Anastassia在许多ETS同事和非ETS GitHub贡献者的帮助下开发和维护了12博下载app,我们吸取了两个总体教训。首先是不同的用户有不同的需求,并且采用“一刀切”的方法不适用于像12博下载app这样的跨学科软件。我们学到的第二个教训是,为了使开源软件更可能被采用,您确实必须付出更多的努力才能使其尽可能强大。

在我们作为12博下载app维护者的任期内,我们确定了许多类型的12博下载app用户。其中一些是“高级用户”(例如NLP研究人员和开发人员),他们希望选择特定的12博下载app功能以插入自己的机器学习管道,同时还使用其他Python软件包。为了满足这样的用户,我们最终创建了一个非常全面的 API 公开各种预处理和后处理功能以及12博下载app中包含的自定义指标。另一组用户是我们所谓的“极简主义者”:可能缺乏统计或编程背景来与API交互的数据分析人员和工程师,而是喜欢使用开箱即用的管道。为了满足这些用户的需要,我们创建了命令行工具,例如,可以在包装程序外壳脚本中轻松调用这些工具。我们还发现,极简主义者通常不愿意阅读(非常大的)12博下载app配置选项列表。因此,我们构建了具有自动完成功能的交互式配置生成器,可以帮助此类用户根据他们的特定需求创建配置文件。

为了满足我们所有用户组的需求,我们不得不采用我们认为使12博下载app强大的必要实践。健壮的软件是什么意思?为了稳健起见,任何软件都必须满足以下条件:任何代码更改对其准确性和性能的影响都可以测量(经过良好测试),其文档始终是最新的(经过良好文档记录),以及用户可以轻松安装该软件(及其依赖项)。对于12博下载app,我们利用了几种开源工具和服务来使其符合我们的定义。我们有一个全面的测试套件(>90%的代码覆盖率),我们会针对提交给代码的所有更改通过持续集成自动运行。我们维护着广泛的文档(包括多个真实世界的教程)以及为12博下载app建议的任何新功能 必须 包括一个文档组件,该组件也作为代码审查的一部分进行审查。最后,我们以易于安装(通过pip或conda)安装的软件包的形式发布12博下载app,并且还自动安装了所需的所有依赖项。

电子交易系统希望通过发布12博下载app来实现什么?

在过去的几年中,教育领域已经见证了AI的最重大扩展之一,文本和语音的自动评分已成为NLP越来越普遍的应用。 ETS长期以来一直是自动评分领域的领导者,自成立以来,一直致力于构建旨在为全球学习者服务的公平产品和评估。通过发布由NLP科学家和心理计量学家密切合作开发的12博下载app,ETS希望继续以非常切实的方式倡导在教育中负责任地使用AI。具体来说,我们要明确指出,当AI研究人员考虑自动评分系统的“性能”时,他们不仅应考虑预测准确性的标准指标(例如Pearson的相关性),还应考虑模型公平性的指标。更广泛地讲,我们也希望12博下载app可以作为NLP研究人员和心理计量学家可以并且应该一起工作的方式的示例。

您还有其他要分享的有关12博下载app的信息吗?

我们希望鼓励读者帮助我们改进12博下载app!他们无需成为心理计量学家或NLP专家即可做出贡献。我们有许多与文档和Python编程相关的未解决问题,对于任何初学者到中级Python程序员都是完美的选择。我们还邀请对 SKLL(Scikit学习实验室),-用于有效运行用户可配置的批处理机器学习实验的另一个ETS开源程序包,该程序包已由12博下载app底层使用。

安东尼·塔迪夫(Antoine Tardif)是 Futurist 他对AI和机器人技术的未来充满热情。他是 BlockVentures.com并已投资了50多个AI和区块链项目。他是的联合创始人 Securities.io 一个专注于数字证券的新闻网站,是unite.AI的创始合伙人。他也是 福布斯技术委员会。