联系我们

深度学习

AI研究人员设计程序可为电影和其他媒体生成声音效果

mm

已发表

 on

德克萨斯大学圣安东尼奥大学的研究人员创建了一个基于AI的应用程序,该应用程序可以观察视频中发生的动作并创建与这些动作匹配的人造声音效果。据报道,该程序产生的声音效果非常真实,以至于在对人类观察者进行调查时,他们通常认为声音效果是合法的。

最近在IEEE Transactions on Multimedia上发表的一项研究中详细介绍了负责产生声音效果的程序AudioFoley。根据IEEE Spectrum,AI程序由UT San Antonio教授Jeff Provost和博士学位开发。学生Sanchita Ghose。研究人员利用多个 机器学习 模特加入了。

产生适合屏幕上动作的声音效果的首要任务是识别这些动作并将它们映射到声音效果。为此,研究人员设计了两种不同的机器学习模型并测试了它们的不同方法。第一个模型通过从被馈送的视频中提取帧并分析这些帧的相关特征(例如运动和颜色)来进行操作。之后,使用第二个模型来分析对象的位置如何跨帧变化,以提取时间信息。该时间信息用于预测视频中的下一个可能动作。两种模型使用不同的方法来分析剪辑中的动作,但是它们都使用剪辑中包含的信息来猜测哪种声音最能陪伴剪辑。

下一个任务是合成声音,这是通过将活动/预测的运动与可能的声音样本进行匹配来完成的。根据Ghose和Prevost的说法,AutoFoley用于生成1000个短片的声音,其中包括火和奔马,滴答作响的时钟以及植物上的雨滴等动作和物品。尽管AutoFoley在无需为动作和声音之间实现完美匹配的剪辑创建声音方面最为成功,并且在剪辑动作发生更多变化的剪辑时遇到了麻烦,但该程序仍然能够使许多人类观察者感到困惑从最初伴随剪辑的声音中拾取产生的声音。

Prevost和Ghose招募了57名大学生,让他们观看不同的剪辑。有些剪辑包含原始音频,有些包含AutoFoley生成的音频。在测试第一个模型时,大约73%的学生选择了合成音频作为原始音频,而忽略了剪辑附带的真实声音。另一个模型的效果稍差,只有66%的参与者选择了生成的音频而不是原始音频。

Prevost解释说,AutoFoley可以潜在地用于加快电影,电视和其他媒体制作过程。 Prevost指出,逼真的Foley轨道对于使媒体具有吸引力和可信度很重要,但是Foley流程通常需要大量时间才能完成。拥有可以处理基本Foley元素创建的自动化系统,可以使制作媒体变得更加便宜和快捷。

当前,AutoFoley具有一些明显的限制。一方面,虽然该模型在观察具有稳定,可预测运动的事件时似乎表现良好,但在尝试为时间随时间变化的事件(如雷暴)生成音频时会受到影响。除此之外,还要求分类主题出现在整个剪辑中,并且不要离开框架。研究团队的目标是在应用程序的未来版本中解决这些问题。

专门从事以下工作的Blogger和程序员 Machine Learning Deep Learning 话题。 Daniel希望帮助他人将AI的力量用于社会公益。