联系我们

面试

首席执行官Radu Rusu&Fyusion联合创始人– Interview Series

mm

已发表

 on

拉杜·鲁苏(Radu Rusu),是首席执行官& Co-Founder of 融合,该公司的目标是构建新颖的,视觉上令人赞叹的3D技术,使他们能够利用人工智能解决复杂的视觉问题。他们共同开发并申请了一种新的文件格式,名为.fyuse,并获得了专利。该文件格式使人们能够从智能手机捕获令人惊叹的3D图像,引起社交媒体的轰动,并通过消费者移动应用程序吸引了超过1亿用户。

您从2012年就开始从事3D方面的工作,目前是Open Perception,Inc.的总裁兼首席执行官。能否分享一下这个非营利组织的使命宣言?

在2000年代初期,我在进行研究生学习时就开始了3D数据处理的职业,这个想法浮现在脑海,我将使机器人从视觉角度更好地了解和理解世界。那使我度过了大约10年的与机器人技术有关的3D 计算机视觉 研究,在2010年代初期,我意识到我所从事的工作可以应用于更广泛的问题。开放感知是从Willow Garage衍生出来的,它是我们BSD许可的开放源代码计划之一,即点云库(PCL)项目,并继续促进其增长。 Open Perception,Inc.是一家独立组织,于2012年4月成立于加利福尼亚州,其创建目的是支持开发,分发和采用用于2D / 3D感官数据处理的开源软件,并将其应用于研究,教育和产品开发。

2014年,您成为Fyusion,Inc.的联合创始人兼首席执行官。您能否分享Fyusion,Inc的起源故事?

在从事机器人技术研究的过程中,我和Fyusion的共同创始人意识到瓶颈不再是算法,而是数据格式。 机器学习 由于我们使用的数据类型(尤其是视觉格式)是二维的(例如照片和视频),而世界是三维的,因此在许多领域中,其准确性已达到峰值。我们认为,利用机器学习平台中的3D数据可以改变人们了解世界的方式。

2014年,我们决定创建一种新型3D数据,通过计算机视觉和机器学习软件将多个数据源融合在一起,并使用我们口袋中可用的高度可扩展的商品硬件(即智能手机)生成。

我们创建Fyusion的目的是构建新颖的,视觉上令人赞叹的3D技术,使每个人都可以使用人工智能解决复杂的视觉问题。

我们共同开发并申请了一种名为.fyuse的新文件格式并申请了专利,该文件格式使人们可以从智能手机捕获精美的3D图像。它立即引起了社交媒体的轰动,并通过消费者移动应用吸引了超过1亿用户。

是什么最初吸引了您重塑3D在消费类应用中的意义的想法?

我们只是意识到没人能大规模解决这个问题。这是一个尚未解决的问题。就像在我们的博士课程中一样,从智力上激发我们的事情是非常复杂的问题,有人说无法解决。

在某种程度上,在这种情况下,它们是正确的。解决此问题所需的算法类型仅经过部分考虑,并且运行它们所需的硬件不存在,尤其是在智能手机等边缘设备上。实际上,我们必须等到iPhone4S推出后,我们才能在智能手机上运行实时3D计算机视觉代码,因为在此之前,iPhone仅具有一个CPU内核。一旦我们开始了解智能手机硬件可以做什么,我们便对吸收计算机视觉和机器人技术研究知识以及对这些微型相机和CPU / GPU所能找到的东西非常感兴趣。花了一些时间回到绘图板上,重新思考如何通过软件想象和实现光场捕获和处理。一旦我们看到它运行正常,Fyusion就开始运行。

我们曾经以模拟形式制作2D照片,然后将它们与其他所有东西一起数字化。我们在3D世界中唯一具有比例的实例是来自计算机游戏和计算机图形的“具有纹理的三角形网格”(例如,类似于OBJ的文件格式),旨在代表游戏中的人造对象。它们严重依赖于无法获得的完美几何形状-如何用相机捕获水并将其表示为三角形网格?透明对象呢?叶子?距离较远的东西?等等…

显然有人必须解决对消费者友好的3D格式的需求。它必须基于完全不同的范例,并以“ 3D图像渲染”方式(即,光场)进行求解,并合并捕获时可用的信息(例如,通过陀螺仪传感器的照相机方向)通常在捕获2D图像时会被丢弃。然后,当然,我们尝试通过机器学习来重新推断那些被丢弃的信息。

这是我们的机会,这是创业公司应该梦想的:找到他们热衷的真正棘手的问题,等待正确的时间和开放的时间,然后疯狂地尝试解决它。

该核心技术允许任何人通过在人,物体或场景周围移动任何摄像机来创建沉浸式,交互式3D图像(称为.fyuses)。您可以为希望使用移动应用程序创建fuse的人讨论该过程吗? 

我们仍处于该技术的起步阶段,但要旨是:您拿着一部具有Fyusion编写的应用程序的智能手机,或者是在下面利用我们的Fyusion ALIS SDK的合作伙伴应用程序打开了相机。您会获得有关操作的说明,如果遵循这些说明,则会在设备上获得一个.fyuse,它是计算机视觉和机器学习处理的“文件对象”,您可以在设备,网络或任何AR / VR / MR耳机。

有哪些计算机视觉和机器学习技术可以实现这一目标?

这里确实没有灵丹妙药,但是我们为解决这个问题而创建的大量3D计算机视觉和机器学习工具。摄影测量法(由于实际上是通过在空间中移动单个摄像机来创建虚拟摄像机阵列),机器人技术(巨大的传感器融合问题,因为我们再也没有单个摄像机了)产生了一些想法提取数据以帮助解决此问题),计算机图形学(您可以查看Siggraph 2019的工作以了解我们如何表示某些底层结构)以及更多其他内容。所有这些都必须在设备上完成并且可以实时运行,这意味着我们利用计算着色器并在汇编中编写代码。如前所述,这仅仅是开始,对我们而言,可用的传感器和计算能力越多,我们就越会使用ALIS节流阀来改进该技术的多个方面。这是一个长期的愿景,我们还有另外十多年的工作要做,以使数字化的复杂现实世界的外观看起来完全令人满意。

可以很容易地看到.fyuses对VR应用程序的破坏性。您能否讨论当前VR应用程序的类型。可以使用fyuses?

我们认为,任何将现实世界中的对象数字化然后再显示的虚拟现实应用程序都应该从我们的ALIS引擎和.fyuses中受益。电子商务,医疗保健,汽车,教育以及其他领域的垂直行业和应用程序确实不缺,我们对这个未来感到非常兴奋。

您认为Fyuses的VR应用程序的未来是什么?

尽管我们目前的重点更多地放在中小型场景和物体上,而不是大型城市景观上,但我们对当前技术没有任何限制。

我可以轻松地看到在未来的增强现实(AR)和混合现实(MR)应用程序中使用的Fyuses。在AR和MR环境中,您对Fyuses的未来有何看法?

我们将所有AR / VR / MR应用程序完全相同地对待:使用我们的技术将3D对象数字化后,就可以将其从场景中提取出来并放置在任何地方。

您的团队是否讨论过使用虚拟助手或AI制作Fyuses的想法?

我们尚未探索为人们创建交互式虚拟化身的机会。当然,这是一种有趣的可能性,但是我们将努力专注于解决我们正在解决的当前问题。

您还有其他要分享的有关Fyuses或Fyusion,Inc的信息吗?

这听起来像是一个推销,但是……我们是一群疯狂的机器人专家和3D计算机视觉科学家,与CERN的物理学家,出色的黑客和工程师混在一起,这只是在描述核心技术团队的成员。我们喜欢各种各样的多样性,因为这使我们作为一个团队变得更加聪明和强大。如果任何人都对我们正在研究的内容感兴趣,那么请不要害羞并与我们联系。我们正在竭尽所能回答所有人,您可能会发现自己身处喝咖啡然后呆了十年的情况。

感谢您的精彩采访,希望了解更多信息的读者可以访问 融合.

安东尼·塔迪夫(Antoine Tardif)是 Futurist 他对AI和机器人技术的未来充满热情。他是 BlockVentures.com并已投资了50多个AI和区块链项目。他是的联合创始人 Securities.io 一个专注于数字证券的新闻网站,是unite.AI的创始合伙人。他也是 福布斯技术委员会。