联系我们

面试

Vikrant Tomar,Fluent.ai的首席技术官兼创始人– 面试 Series

mm

已发表

 on

Vikrant Tomar是CTO和创始人 流利,是面向设备OEM和服务提供商的语音理解和语音用户界面软件。

最初吸引您学习语音识别的声学建模的是什么?

确实,能够以与其他人交谈的相同方式与设备交谈。这个异象使我着迷。在本科学位的最后一年,我开始学习语音识别。这也是我开始对研究感兴趣的时候,因此我参加了语音识别课程和一个相关的研究项目。通过这项工作,我能够在InterSpeech会议上发表研究论文,该会议是规模最大,最著名的语音识别会议之一。所有这些促使我选择语音识别研究作为长期研究的重点,因此选择了博士学位。

在2015年,您启动了Fluent.ai,可以分享这个创业公司的起源故事吗?

我有很长一段时间对企业的向往。我和另外两个朋友一起尝试获得我们的本科学位后创办了一家公司,但是由于一些原因,这种努力没有成功。在麦吉尔(McGill)攻读博士学位期间,我一直关注着蒙特利尔的创业现场。在这段时间里,我也碰巧与TandemLaunch的人保持联系-TandemLaunch是我创建Fluent.ai的创业公司。到这个时候,我的博士学位即将结束,我再次认真考虑如何尝试创业。通过我的工作经验,研究以及与其他语音研究小组的合作,我意识到这些经验大部分都集中于以特定方式进行语音识别:从语音到文本转录,然​​后 自然语言处理。但是,这在可用性上留下了空白。很大一部分人口无法从以这种方式开发的语音解决方案中受益。这种方法所需的数据量如此之大,以至于为使用较少说话者的语言开发单独的模型在财务上没有意义。此外,许多方言和语言没有不同的书面形式。甚至我自己的家人也无法使用我开发的工具(他们说北印度语的方言)。考虑到所有这些,我开始考虑创建语音模型的不同方法,所需的数据量较少,和/或最终用户可以自己训练或更新模型。我知道在鲁汶大学(KUL)完成的工作可能符合其中的一些要求。由于部分技术来自KUL,我们能够朝着Fluent迈出第一步。

您能否详细介绍Fluent.ai直观的语音理解解决方案?

流利的语音识别解决方案受到人类如何获取和识别语言的启发。传统的语音识别系统首先将输入的语音转录为文本,然后从该文本中提取含义。这不是人类识别语音的方式。以孩子在学习读写之前为例:尽管他们对语言的书面表示一无所知,但他们仍能够轻松进行口头对话。以类似的方式,Fluent基于深度神经网络的模型能够直接从语音中提取含义,而无需先将其转录为文本。从技术上讲,这是真正的口语理解。这种方法有多个优点。传统的语音识别是一种麻烦的方法,其中将经过不相交训练的几个模块编织在一起以提供最终的响应。这导致了非最佳解决方案,该解决方案会因口音,噪音,背景条件等因素而导致结果变化。Fluent的自动意图识别(AIR)系统是端到端优化的;它完全是基于神经网络的架构,其中所有模块都经过共同培训以提供最佳解决方案。另外,我们能够删除常规语音识别系统中通常存在的许多计算繁重的模块。这使我们能够创建低足迹的语音识别系统,该系统可以在运行频率为50 MHz的低功耗微控制器上运行,占用的内存只有40KB。最后,我们基于口语理解的AIR系统能够以独特的方式利用不同语言之间的相似性,以提供无与伦比的功能,例如能够在同一模型中识别多种语言。

克服环境噪声问题背后的AI挑战是什么?

噪声是语音识别的最大挑战之一。使之真正具有挑战性的问题是,存在许多不同类型的噪声,它们以不同的方式影响语音频谱。有时,噪声也会影响麦克风的响应。在许多情况下,不可能将语音源与噪声源分开。在某些情况下,噪声会掩盖语音频谱中可用的信息,而在另一些情况下,它会完全删除有用的信息。两者都导致低精度。虽然很容易消除诸如风扇噪声之类的一致噪声类型,但是由于消除噪声对语音频谱的影响,因此很难消除某些噪声类型(例如胡言乱语或在背景中说话的人或听音乐)。

您能否定义什么是Edge AI,以及Fluent.ai如何使用这种类型的AI?

边缘人工智能是一个笼统的术语,用于涵盖将AI应用程序转移到低功耗设备的多种不同方式。这个术语越来越多地用于边缘设备自己执行某些智能计算的情况。在Fluent,我们致力于将高质量的口语理解带到边缘。我们已经开发了有效的算法,该算法允许低功耗计算设备自己识别输入语音,而不必将数据发送到基于云的服务器进行处理。优点是双重的:首先,通过将其语音数据流传输并存储到云中,不会损害用户的隐私。其次,这种方法减少了延迟,因为语音数据和响应不必在云服务器和设备之间传播。

还有什么其他类型的 机器学习 技术正在被使用?

我们的主要重点是基于深度学习的语音识别方法。我们正在使用RL(强化学习)方法,例如NASIL[1],以发现新的,以前未知的AI模型架构(因此AI在某种意义上可以创建AI)。而且我们正在使用AutoML来调整预定的AI模型,以针对不同的应用程序获得可靠的结果,从而提高可靠性和可重复性。模型压缩和其他数学方法进一步有助于优化模型性能。

您如何看待未来5年这两种情况 自然语言理解自然语言处理?

我认为系统将发展为提供更自然的交互。尽管近年来取得了进步,但大多数当前系统只能回答简单查询或执行语音激活的Internet搜索。我们将看到越来越多的解决方案可以推理和回答一个完整的查询,而不仅仅是充当基于语音的荣耀搜索引擎。

另一个有趣的方面是隐私。当前流行的解决方案主要是与Internet连接的设备,这些设备将用户的所有语音数据流式传输到云服务器。但是,这种解决方案的隐私性成为一个问题。我们还开始看到语音UI在工业环境,专业音频空间以及酒店和会议室中的消费电子产品以外的应用。这些应用程序的关键要求是隐私,因此当前连接的解决方案还不够用-因此我们将看到更多的边缘AI或设备上自然语言解决方案。

正如我之前提到的,语音和自然语言解决方案仍然是全球大部分人口无法获得的。创建新的AI模型需要大量的工作,这些AI模型可以用少量的数据进行训练,从而降低了开发成本,进而可以使用更少的说话者来开发语言模型。同样,我们将看到可以学习识别同一模型中多种语言的解决方案。总体而言,我们将看到越来越多的多语言AI模型部署可以用用户的母语回答用户的查询。

您还有其他要分享的Fluent.ai吗?

在过去的几年中,语音技术取得了长足的进步,并且在未来的道路上具有很大的增长潜力。在Fluent.ai,我们一直在寻找现有技术的新用例,同时不断进行内部创新。 新冠肺炎大流行使人们对高触摸区域(例如电梯按钮,餐厅的售货亭等)的敏感性增强,从而引发了对启用语音技术的新需求。 流利希望能够帮助填补这些空白,因为我们的解决方案是多语言的,因此更具包容性,并且可以离线运行,从而提供了额外的隐私层。如上所述,这些功能可能会成为语音技术的未来。

感谢您的精彩采访,希望了解更多信息的读者可以访问 流利。

[1] //www.researchgate.net/profile/Farzaneh_Sheikhnezhad_Fard/publication/341083699_Nasil_Neural_Archit

安东尼·塔迪夫(Antoine Tardif)是 未来主义者 他对AI和机器人技术的未来充满热情。他是 BlockVentures.com并已投资了50多个AI和区块链项目。他是的联合创始人 证券 一个专注于数字证券的新闻网站,是unite.AI的创始合伙人。他也是 福布斯技术委员会。