联系我们

深度学习

研究人员创建了能够中英文唱歌的AI模型

mm

已发表

 on

微软和闸江大学的研究人员团队最近创建了一种能够以多种语言唱歌的AI模型。 据VentureBeat报道,由团队开发的DeepSinger AI 经过培训 来自各种音乐网站的数据,使用的算法可以捕获歌手声音的音色。

生成AI歌手的“声音”要求算法能够预测和控制音频的音高和持续时间。人们唱歌时,所产生的声音比简单的语音要复杂得多。团队需要克服的另一个问题是,尽管有大量的口语/语音训练数据可用,但唱歌训练数据集却很少。将这些挑战与歌曲需要同时分析声音和歌词这一事实结合起来,并且产生唱歌的问题非常复杂。

研究人员创建的DeepSinger系统通过开发用于挖掘和转换音频数据的数据管道来克服了这些挑战。歌唱的片段是从各种音乐网站中提取的,然后将歌唱与音频的其余部分隔离开来,然后分成句子。下一步是确定歌词中每个音素的持续时间,得到一系列样本,每个样本代表歌词中的唯一音素。在根据置信度得分对歌词和伴随的音频样本进行排序之后,将数据清理为处理任何失真的训练样本。

完全相同的方法似乎适用于多种语言。 DeepSinger接受了由89位不同歌手演唱超过92小时的中文,Cantone和英语声乐样本的培训。研究结果发现,DeepSinger系统能够根据音高的准确性和歌唱的自然程度等指标可靠地生成高质量的“歌唱”样本。研究人员有20个人根据这些指标对DeepSinger生成的歌曲和培训歌曲进行评分,生成的样本的得分与真实音频之间的差距非常小。参与者给DeepSinger的平均意见得分偏离了0.34至0.76。

展望未来,研究人员希望通过联合训练包括DeepSinger在内的各种子模型来尝试并提高所产生声音的质量,这些子模型是在WaveNet等专门技术的协助下完成的,这些专门设计用于通过音频波形生成自然声音的任务。

DeepSinger系统可用于帮助歌手和其他音乐艺术家进行改编工作,而不必回到录音室进行另一场录音。 IT也可能用于创建音频 假货 ,就好像艺术家演唱了他们从未真正演唱过的歌曲。虽然可以用于模仿或讽刺,但合法性也令人怀疑。

DeepSinger只是新的基于AI的音乐和音频系统浪潮之一,可以改变音乐和软件的交互方式。 OpenAI最近发布了自己的AI系统, 被称为JukeBox,能够以某种流派甚至特定艺术家的风格制作原创音乐曲目。其他音乐AI工具包括 Google的洋红色亚马逊的DeepComposer。磁铁是一个开源音频(和图像)操纵库,可用于产生从自动鼓乐演奏到基于简单音乐的视频游戏的所有内容。同时,Amazon的DeepComposer面向希望培训和自定义基于音乐的用户 深度学习 模型,使用户可以采用预先训练的样本模型并根据需要调整模型。

您可以听DeepSinger生成的一些音频样本 在此链接。

专门从事以下工作的Blogger和程序员 Machine Learning Deep Learning 话题。 Daniel希望帮助他人将AI的力量用于社会公益。