联系我们

深度学习

研究人员开发了能够弹奏钢琴的“ Audeo”人工智能

更新

 on

华盛顿大学的一组研究人员开发了一种称为Audeo的人工智能(AI)系统,该系统可以从无声钢琴演奏中产生音频。测试阶段涉及诸如SoundHound之类的12博下载app识别应用程序,这些应用程序可以在大约86%的时间内正确识别Audeo的12博下载app。 

研究 在12月8日的NeurlPS 2020会议上进行了介绍。

高级作者Eli Shlizerman是大学应用数学以及电气和计算机工程系的助理教授。

“以前认为制作听起来像可以在12博下载app表演中播放的12博下载app是不可能的,” Shlizerman said. “算法需要找出线索,或者‘features,’在与产生12博下载app有关的视频帧中,它需要‘imagine’ the sound that’在视频帧之间发生。它需要一个既精确又富有想象力的系统。我们取得了听起来不错的12博下载app,这一事实令人惊讶。”

Audeo如何运作

Audeo系统通过解码视频并将其转换为12博下载app来工作。几个步骤中的第一步涉及AI检测每个视频帧中按下的键,并最终生成图表。然后翻译该图,以便12博下载app合成器可以识别声音。

下一步是清理数据并添加其他信息。该信息可以包括诸如每次按键背后的压力以及持续多长时间之类的信息。

“如果仅尝试从第一步开始合成12博下载app,就会发现12博下载app的质量不理想,” Shlizerman said. “第二步就像老师如何超越学生作曲家’12博下载app并帮助增强它。”

该系统使用钢琴家保罗·巴顿(Paul Barton)的YouTube视频进行了培训和测试,它由大约172,000个视频帧组成,这些视频源于演奏莫扎特等各种古典作曲家的12博下载app家。 Audeo在19,000帧Barton播放的不同12博下载app中进行了测试。 

合成器

经过培训后,Audeo会生成12博下载app的笔录,然后将其输入合成器以将其转换为声音。12博下载app的声音因每个合成器的不同而不同,这相当于更改电子键盘上的乐器设置。

该团队使用了两个独立的合成器。

“Fluidsynth制作我们熟悉的合成器钢琴声音。这些听起来有些机械,但非常准确,” Shlizerman said. “我们还使用了PerfNet,这是一种新的AI合成器,可以生成更丰富,更具表现力的12博下载app。但是它也会产生更多的噪音。”

“这项研究的目的是看人工智能是否可以产生钢琴演奏者在录像中播放的12博下载app—尽管我们的目的不是要复制保罗·巴顿,因为他是如此的出色,”Shlizerman继续。“我们希望我们的研究能够以新颖的方式与12博下载app互动。例如,未来的应用是Audeo可以通过仅记录一个人的摄像机扩展到虚拟钢琴’的手。此外,通过将相机放置在真实的钢琴上,Audeo可以潜在地以新的方式教学生如何演奏。”

电气和计算机工程专业的博士生Kung Su和Liu Ziongong是该论文的合著者。

 

亚历克斯·麦克法兰(Alex McFarland)是一位历史学家和新闻工作者,报道了人工智能的最新发展。