联系我们

深度学习

研究人员使用深度学习将具有里程碑意义的照片变成4D

已发表

 on

康奈尔大学的研究人员已经开发出一种利用 深度学习 为了将世界地标照片转换为4D。该团队使用了罗马特雷维喷泉(Trevi Fountain)等主要景点的公开旅游照片,最终结果是可操纵的3D图像,并且可以显示外观随时间的变化。 

新开发的方法吸收并合成了成千上万张未标记和未标注日期的照片,这对于 计算机视觉 .

该作品的标题为“对全光功能进行人群采样”,并在8月23日至28日举行的虚拟欧洲计算机视觉会议上进行了介绍。

Noah Snavely是康奈尔科技大学计算机科学副教授,也是该论文的高级作者。其他贡献者包括论文的第一作者康奈尔博士生李正启,以及计算和信息科学学院计算机科学助理教授安倍·戴维斯,以及康奈尔理工学院博士生西安文启。 

“这是一种新的场景建模方法,不仅可以让您移动头部,从不同的角度观看喷泉,而且还可以控制更改时间,” Snavely说。 

“如果您度假时真的去过特雷维喷泉(Trevi Fountain),它的外观将取决于您去的时间—在晚上,它会被底部的泛光灯照亮。下午,除非您在阴天,否则阳光明媚。 “我们根据一天中的时间和天气从这些无组织的照片集中了解了整个外观范围,因此您可以探索整个范围并同时在场景中移动。” 

传统计算机视觉限制 

由于存在许多需要重现的不同纹理,因此传统的计算机视觉很难通过照片准确地表示位置。 

“现实世界的外观如此多样,并且使用不同的材料—闪亮的东西,水,薄薄的结构。 

除了这些障碍之外,传统的计算机视觉还面临着数据不一致的问题。全光功能是指从空间和时间的每个可能的角度看事物的外观,但是为了重现这一点,现场需要数百个网络摄像机。不仅如此,他们还必须白天和黑夜都记录下来。可以做到这一点,但是在查看需要使用此方法的场景数量时,这是一项非常耗费资源的任务。 

从其他照片中学习

为了解决这个问题,研究人员团队开发了新方法。 

“可能不会在下午4点拍摄照片。从数据集中的确切角度来看。因此,我们必须从晚上9点拍摄的照片中学习。 “在一个地点拍摄,然后在4:03从另一地点拍摄的照片,” Snavely说。 “而且我们不知道拍摄这些照片的粒度。但是使用深度学习可以让我们推断出在任何给定时间和地点的景象。” 

研究人员引入了一种新的场景表示形式,称为“深多平面图像”,以便在3D和随时间变化的四个维度上对外观进行插值。 

根据Snavely的说法,“我们使用在2D动画中创建3D效果发明的相同想法,在现实世界场景中创建3D效果,通过将其适应游客照片中所有这些不同的尺寸来创建深层多层图像。有趣的是,它源于这种动画中使用的非常古老的经典技术。” 

研究表明,训练有素的模型可以创建一个场景,其中包含来自各个站点的50,000张公开可用的图像。该团队认为,这可能会在许多领域产生影响,包括计算机视觉研究和虚拟旅游。

“您可以真正感受到在那里的感觉,” Snavely说。 “它在一系列场景中都表现出色。”

该项目得到了Google前首席执行官兼慈善家Eric Sc​​hmidt以及Wendt Schmidt的支持。 

众采样全功能

在YouTube上观看此视频