联系我们

面试

ETS高级研究科学家(NLP / Speech)Anastassia Loukina– Interview Series

mm

更新

 on

Anastassia Loukina是 教育测试服务 (ETS)她在哪里工作 自动语音评分.

她的研究兴趣涉及广泛的主题。她从事过现代希腊方言,语音节奏和自动韵律分析等工作。

她目前的工作重点是将语音技术和 机器学习 结合语音感知/产生研究的见解,以建立用于评估非本地语音的自动评分模型。

您显然是对语言的热爱,是什么使您对这种热情感兴趣的?

我在俄罗斯圣彼得堡说俄语的时候长大,我还记得当我第一次接触英语时就很着迷:对于某些单词,有一种模式可以将俄语单词“转换”为英语单词。然后我会碰到一个词,“我的”模式失败了,并尝试提出一个更好,更一般的规则。当然,那时我对语言类型学或认知词和外来词之间的区别一无所知,但这激发了我的好奇心和学习更多语言的渴望。这种对人们说话方式的识别方式以及对数据进行测试的热情使我进入了语音,机器学习以及我现在正在做的工作。

在您从事当前工作之前 自然语言处理 (NLP)您是英语-俄语和现代希腊语-俄语之间的翻译者。您是否认为您担任翻译的工作为您提供了与NLP相关的细微差别和问题的更多见解?

我的主要身份一直是研究人员。的确,我的职业生涯是从现代希腊语(或更具体地说,现代希腊语语音学)的学者开始的。在我的博士工作中,我探索了几种现代希腊方言之间的语音差异,以及这些方言之间的差异如何与该地区的历史联系起来。我认为方言之间的某些差异可能是由于每种方言与该地区使用的其他语言之间的语言接触而产生的。当我不再研究现代希腊语时,两种语言相互联系时发生的变化仍然是我工作的核心:仅这次,我专注于个人学习一种新语言时发生的事情以及技术可以最有效地做到这一点。

说到英语,这里有各种各样的口音。您如何设计具有理解所有不同方言能力的NLP?这是喂食的简单问题 深度学习 算法会从每种类型的口音中获取其他大数据?

过去已使用多种方法来解决此问题。除了构建一个涵盖所有重音符号的大型模型之外,您还可以先识别该重音符号,然后针对此重音符号使用自定义模型,或者您可以一次尝试多个模型,然后选择最合适的模型。最终,要在各种口音上取得良好的性能,您需要代表系统可能遇到的许多口音的训练和评估数据。

在ETS,我们进行全面评估,以确保我们的自动化系统产生的分数反映出我们想要衡量的实际技能的差异,并且不受学习者的人口统计学特征(例如性别,种族或原籍国)的影响。

儿童和/或语言学习者 经常很难做到完美的发音。您如何克服发音问题?

没有完美的发音:我们的说话方式与我们的身份紧密相关,作为开发人员和研究人员,我们的目标是确保我们的系统对所有用户公平。

语言学习者和儿童都对基于语音的系统提出了特殊的挑战。例如,儿童声音不仅具有非常不同的声音质量,而且儿童与成年人的讲话也有所不同,并且儿童之间存在很多差异。结果,开发用于儿童的自动语音识别通常是一项单独的任务,需要大量的儿童语音数据。

同样,即使来自相同背景的语言学习者之间有许多相似之处,学习者在语音,语法和词汇模式的使用上也可能有很大差异,这使得语音识别成为一项特别具有挑战性的任务。在建立我们的英语水平评分系统时,我们使用来自具有广泛水平和母语的语言学习者的数据。

在2018年1月,您发布了“使用样例响应来训练和评估自动语音评分系统‘。从本文中应该理解哪些主要的突破基础?

在本文中,我们研究了培训和测试数据的质量如何影响自动评分系统的性能。

像许多其他自动化系统一样,自动化计分系统也接受了针对人类标签的数据的培训。在这种情况下,这些是人类评分者分配的分数。人类评分者并不总是同意他们分配的分数。评估中使用了几种不同的策略,以确保向考生报告的最终分数保持高度可靠,尽管在单个问题级别上的人为同意有所不同。但是,由于通常使用响应级别的分数来训练自动评分引擎,因此,由于上述各种原因而导致的此类分数的任何不一致都可能对系统造成负面影响。

我们能够以人类评估者之间不同的协议访问大量数据,并能够比较不同条件下的系统性能。我们发现,对系统进行完美数据训练实际上并不能比对数据进行更多标签训练的系统真正提高其性能。仅当训练集的总大小很小时,完美标签才能为您带来优势。另一方面,人工标签的质量对系统评估产生巨大影响:如果您对干净的标签进行评估,则性能估计最高可提高30%。

外卖消息是,如果您有大量数据和资源来清洁黄金标准标签,则清洁评估集中的标签而不是训练集中的标签可能更聪明。这一发现不仅适用于自动评分,还适用于许多其他领域。

您能描述一下您在ETS所做的一些工作吗?

我在语音评分引擎系统上工作,该系统在教育环境中处理口语。这样的系统就是SpeechRater®,它使用先进的语音识别和分析技术来评估并提供有关英语口语水平的详细反馈。 SpeechRater是一个非常成熟的应用程序,已经存在了十多年。我为不同的应用程序建立评分模型,并与ETS中的其他同事一起工作,以确保我们的分数对所有应试者都是可靠,公平和有效的。我们还与ETS的其他小组合作,以持续监控系统性能。

除了维护和改进我们的操作系统之外,我们还为新系统提供原型。我非常兴奋的项目之一是RelayReader™:该应用程序旨在帮助开发读者获得流利度和信心。使用RelayReader进行阅读时,用户轮流收听和朗读一本书。然后将他们的阅读信息发送到我们的服务器以提供反馈。在语音处理方面,此应用程序的主要挑战是如何在不干扰读者对本书的参与度的前提下,衡量学习程度,并提供不失干扰的可行且可靠的反馈。

使用ETS时,您最喜欢的部分是什么?

最初吸引我进入ETS的是它是一个非营利组织,其使命是提高世界各地所有人的教育质量。虽然当研究产生产品时固然很棒,但我很高兴有机会从事更基础的项目,但将来会有助于产品开发。我还珍惜这样一个事实,即ETS非常重视数据隐私和公平性等问题,并且我们所有的系统在进行操作部署之前都经过非常严格的评估。

但是真正使ETS成为理想工作场所的是它的员工。我们拥有一个由许多不同背景的科学家,工程师和开发人员组成的令人惊叹的社区,它可以进行许多有趣的合作。

您是否相信AI能够通过 图灵测试?

自1950年代以来,人们已经对如何在实践中进行图灵测试进行了很多解释。大概可以达成一个普遍的共识,那就是在哲学上没有通过图灵测试,即没有像人类那样思考的AI系统。但是,这也已成为一个非常特殊的话题。大多数人不构建自己的系统来通过图灵测试–我们希望他们实现特定目标。

对于其中的某些任务,例如语音识别或自然语言理解,可以将人类的表现正确地视为黄金标准。但是,在其他许多任务中,我们希望自动化系统比人类做得更好,或者自动化系统和人类专家需要共同努力以达到最佳结果。例如,在教育环境中,我们不希望使用人工智能系统来代替老师:我们希望它通过对学生学习轨迹的识别,帮助评分或寻找最佳教材来帮助老师。

关于ETS或NLP,您还有其他要分享的内容吗?

许多人都知道ETS的评估和自动评分系统。但是,我们要做的不止这些。从语音生物识别到语音对话应用,我们拥有许多功能,并且我们一直在寻找将技术整合到学习中的新方法。现在,许多学生正在从家里学习,我们已经向公众开放了我们的几种研究能力。

感谢您的采访,并就NLP和语音识别的最新进展提供了这一见解。希望了解更多信息的任何人都可以访问 教育测试服务.

安东尼·塔迪夫(Antoine Tardif)是 Futurist 他对AI和机器人技术的未来充满热情。他是 BlockVentures.com并已投资了50多个AI和区块链项目。他是的联合创始人 Securities.io 一个专注于数字证券的新闻网站,是unite.AI的创始合伙人。他也是 福布斯技术委员会。