联系我们

语音识别

语音评分的未来– Thought Leaders

已发表

 on

在世界范围内,英语学习者的数量继续增加。教育机构和雇主必须能够评估语言学习者的英语水平,尤其是他们的口语能力,因为口语仍然是最基本的语言能力之一。对于评估开发人员和最终用户而言,挑战在于找到一种做到这一点的方法,以使其准确,快速且在财务上可行。作为这一挑战的一部分,对这些评估进行评分有其自身的一系列因素,特别是当我们考虑对一个领域进行测试的不同领域(语音,写作等)时。预计全球对英语技能的需求只会增加,为了满足这些需求,语音评分的未来会是什么样?

迄今为止,语音评分的发展可以部分找到该问题的答案。从历史上讲,使用人工评估人员对构建的口语回答进行评估。然而,该过程往往是昂贵且缓慢的,并且具有其他挑战,包括可伸缩性和人类评估者本身的各种缺点(例如,评估者的主观性或偏见)。正如我们书中所讨论的 自动语音评估:使用语言技术对自发语音进行评分 为了应对这些挑战,现在越来越多的评估将自动语音评分技术用作评分的唯一来源或与人类评分者结合使用。但是,在部署自动评分引擎之前,需要彻底评估其性能,尤其是在评分的可靠性,有效性(系统是否能够衡量其预期的效果?)和公平性(即系统不应引入与之相关的偏见)方面。人口子群体,例如性别或母语)。

自2006年以来,ETS自己的语音评分引擎SpeechRater®已在TOEFL®在线实践(TPO)评估中投入使用(供潜在应试者用来准备TOEFLiBT®评估),并且自2019年以来,SpeechRater也已被使用,以及与人类评分者一起为TOEFLiBT®评估的口语部分打分。该引擎会评估自发非母语语音的多种口语能力,包括发音和流利度,词汇范围和语法,以及与思想的连贯性和进步相关的高级口语能力。这些功能是通过使用 自然语言处理 (NLP)和语音处理算法。然后,将统计模型应用于这些功能,以便为考生的回答分配最终分数。

虽然此模型是根据人类评分者先前观察到的数据训练的,但内容专家也对其进行了审查,以最大程度地发挥其有效性。如果发现由于音频质量或其他问题而导致响应不佳,则引擎可以标记该响应以进行进一步检查,以避免生成可能不可靠或无效的分数。在高分TOEFL iBT口语评估中,评估员总是参与口头答题的评分。

目前,人类评分者和SpeechRater一起用于在高风险的口​​语评估中对应试者的反应进行评分,因此两者都将对英语水平的未来发展起到一定作用。评估者有能力深刻理解口头回应的内容和话语组织。相比之下,自动语音评分引擎可以更精确地测量语音的某些特定方面,例如流利度或发音,随时间显示出完美的一致性,可以减少总体评分时间和成本,并且更易于扩展以支持大测试量。当人类评分者和自动语音评分系统结合在一起时,最终的系统可以从每种评分方法的优势中受益。

为了不断发展自动语音评分引擎,研发需要集中在以下几个方面:

  • 构建具有更高准确性的自动语音识别系统:由于语音评分系统的大多数功能都直接或间接依赖于将应试者的语音转换为文本转录的系统这一组件,因此,高精度的自动语音识别对于获得有效功能至关重要;
  • 探索结合人工评分和自动评分的新方法:为了充分利用人类评分者评分和自动引擎评分的各自优势,需要探索更多结合这种证据的方法;
  • 应对技术和行为方面的异常情况:高性能的过滤器能够标记此类响应并将其排除在自动评分之外,对于确保结果评分的有效性和可靠性很有必要;
  • 评估在日常生活中最常发生的自发性或对话性语音:尽管对此类互动性语音进行自动评分是一个重要的目标,但这些项目却带来了许多评分挑战,包括总体评估和评分;
  • 探索 深度学习 自动语音评分技术:这种相对较新的范式 机器学习 近年来,在许多人工智能(AI)任务(例如,自动语音识别,图像识别)上已经取得了显着的性能提升,因此自动评分也很可能会受益于该技术的使用。但是,由于这些系统中的大多数都可以被视为“黑匣子”方法,因此,注意分数的可解释性对于保持一定程度的透明度非常重要。

为了适应不断增长的和不断变化的英语学习者群体,下一代语音评分系统必须扩大自动化范围以及他们能够测量的范围,以实现一致性和可扩展性。这并不是说人为因素将被删除,特别是对于高风险评估而言。对于要捕获语音的某些方面,人类评分者可能仍将是必不可少的,而语音的某些方面仍将很难通过自动评分系统准确评估,包括语音内容和话语的详细方面。孤立地使用自动语音评分系统进行结果评估还存在无法识别应试者有问题的答案的风险,例如,题外话或窃的答案,因此可能导致有效性和可靠性降低。结合使用人类评分器和自动评分系统,可能是在可预见的未来高风险评估中对语音评分的最佳方法,尤其是在评估自发或会话性语音的情况下。

:语音研究总监Keelan Evanini, 电子交易系统 &执行高级研究科学家Klaus Zechner,演讲, 电子交易系统

电子交易系统 与教育机构,企业和政府合作进行研究和开发评估计划,以提供可用来评估人员和计划的有意义的信息。 ETS每年在全球180多个国家/地区的9000多个地点开发,管理和评分超过5000万个测试。我们以行业领先的见解,严格的研究以及对质量的坚定承诺来设计评估,以便我们可以帮助教育和工作场所社区做出明智的决定。要了解更多信息,请访问 ETS。