Go homepage(回首页)
Upload pictures (上传图片)
Write articles (发文字帖)

The author:(作者)
published in(发表于) 2016/11/18 15:41:50
微软首席研究员童欣:网络图形,从交互到智能

微软首席研究员童欣:网络图形,从交互到智能 - IT资讯

十五年前,2001年的时候研究院决定成立个新的Graphics Group,当时起名叫做Internet Graphics(互联网图形)。

很多人见到我都问,什么是Internet Graphics?其实我们也不知道。2001年的时候我们所有的组员集中一起做了第一个项目,叫Game download and Play。这个项目主要想做的是,我们把互联网图形数据做一个压缩,让大家不用等那么长的时间。通过很快地下载一部分数据到本地之后,马上就可以玩游戏了。这个项目可以说是非常成功,在这之后我们就开始做Siggraph了。转眼十年就过去了,我开始负责图形组。我重新问自己,到底什么是互联网图形?什么是Internet Graphics?通过对身边进行观察,我发现:

Internet与文字结合时效果很好:出现了网络文学、微博、Wikpedia等

Internet与图片结合时效果也很好:出现了Instagram、美图秀秀、500px等

Internet与视频结合时效果也很好:出现了Youtube、爱奇艺、网络直播、网红等

但是回到Graphics,好像十年过去什么都没有发生,到底出了什么问题呢?我做了一些研究,也想了下,有写粗浅的想法分享给大家。

风口上的猪想要飞起来,不是每头都可以,要满足两个条件。

第一、Everyone

内容最好每个人都能产生,都能创造。当你有互联网的时候,大家互相进行交流,内容就会有海量的增长。

目前产生一个3D的内容、Graphic的内容对于普通用户来说还是十分难的任务。即使是艺术家,也需要好几年training才能做好这些软件、模型。

我们也确实有一些设备来帮助大家做一些内容的捕捉,比如说3d Scanner等。但是这些设备基本上都是很昂贵的,而且还需要专门的实验室,普通的用户还是享受不到的。

第二、Everywhere

随着移动平台的发展,如果你的内容产生、享受、消费能扩展到每一个平台上,让大家在任何一个地方,都能进行消费。这个时候再加上互联网,就是真的飞起来了。

Everywhere方面就更悲惨了,图形学发展这么多年,所有的媒体内容都是通过一个Screen传递给大家的,某种意义上来说,我们的内容和一个视频video是没有太大区别的。

Screen在Real World和Witch World中间有个明确的界线,我们还需要鼠标、键盘、gamepad等外部设备来进行交互,这些交互和我们在自然世界中的真实三维交互是非常不同的。

现状:

在过去,即使到现在为止,我们的Graphic所有内容的创造,基本和互联网关系不大。基本的模式还是这样的:

有一些artists,他们组建了一个公司。经过很艰苦的奋斗,做了一些游戏、电影。把这些东西传递给市场上,有成千上万的消费者进行消费,还是一个传统的模式。

愿景:

基于这个想法,我们提出了一个Vision(愿景)

我们希望做一些图形学的工具、系统,能够帮助每一个人方便地产生可观看和分享的三维图形学的内容。

同时我们希望能在自然世界和虚拟世界之间,提供一些更自然的interface和交互方式。

另外在可视和一些不可视的抽象信息之间,提供一些自然的interface,做一些Visualization相关的工作。

在过去的五年中,我们也做了很多的研究,在各个方面做了很多的探索。慢慢地我们意识到,也许intelligence智能的方式可能是很好的解决方案。

有如下这些原因:

我们已经有了一些昂贵的设备,这些设备帮助我们捕捉到了大量高质量的数据。

我们有一些比较便宜的设备(比如我们现在很多人都有的摄像机),这些设备可以提供一些初始的input数据,这样就不用从无到有了。

特别是,机器学习方面的一些技术上的进展,可以让我们把一些技术用到图形学的一些工作里了。

我们提出来,也许一个比较好的解决方案是:

通过一些比较cheap devices(便宜的设备)加上一些Smart Algorithms,可能在某些时候需要一些sparse user input来产生一些三维的内容。

这里提到的Smart Algorithms,我们希望它能做两件事:

Smart Algorithms能够意识到几何数据和图形数据中的一些intrinsic(固有)的property(属性)来帮助我们产生内容。

另外一方面,我们可以用一些机器学习技术,来进行end-to-end端对端的学习。在input和output建立一些relationship和mapping,来做这样的事情。

3D Object Digitization

下面用我们研究的一个很小的方向,3D Object Digitization来做一个案例,看看我们是怎么做的。

3D object digitization:基本目标是有一个真实世界的三维物体,希望把它很完美地扫描进虚拟世界中。

在这里讲到的不仅仅是一个三维物体的几何形状,还有它所有的材质信息。

因为光有了几何信息之后,我们可能知道这个物体的形状是什么。但是物体具体是什么?只有当我们知道了材质(纹理等)、表面反射属性之后,我们才能在三维世界把它栩栩如生的体现出来。

大家可以想象这样一个工具对VR、AR内容的产生以及虚拟购物是多么的重要。

现在我们回想传统、现有的3D的解决方案是什么?

首先用一些设备扫描它的三维形状,但是在大部分情况下,所得到的三维形状都是非常糟糕的,有各种各样的Noise,很多还缺了。所有我们需要很多的人工去做一个去噪的工作,才能让几个形状变得比较完美。

捕捉材质部分,这个就更麻烦了,我们需要把它挪到专业的实验室里去。

用非常昂贵的设备,来捕捉它在各种光照、各种视点下它的外观。有了这个之后呢我们才能真正产生出一个虚拟的物体出来,可以再进行使用了。

可以看到,在这个过程中有很多障碍:

首先,在去噪方面需要很多的手工工作,而且需要艺术家来做这个工作。

其次,我们的设备都很昂贵,特别是做材质捕捉很昂贵。

另外,流水线很长。我们要先捕捉几何,在用另外的设备捕捉材质,这两个的数据要融合到一起很麻烦。

现在可以来看下用一些Intelligence的Algorithm可以帮我们做些什么东西?

我们想做的事情很简单:

一个是,假设对一个真实的物体我们做了一个3D的扫描。这个物体上有很多噪音,坑坑洼洼的,我们想全自动地把上面的噪音全部除去。在去除噪音的时候,我们同时希望一些好的东西,比如几何等一些小的细节能保留下来,不要都去掉了。

另一个是对不同设备扫描的数据,这个算法能同时一招就处理掉。

为了做这件事情,我们做了一个learning(学习)的algorithm(算法):

首先捕捉了一些ground truth的东西,扫描了一些带噪音的东西。在这两者之间,我们学习了一个mapping,有个mapping之后我们可以在runtime的时候给定一个match就能实现。

我们很惊喜的发现,这个算法在用户使用的时候是全自动的。只需给一个match,就全自动给你做好了,不需要再去tune任何的参数。

第二个是我们的算法第一次超过了在所有不同的输入上,它的accuracy准确度以及重构的质量,第一次超过了所有已知的算法,同时我们的算法还要比所有已知的算法都要快。

我们很快会把Source Code源代码以及Data数据分享给大家,大家每个人都可以尝试继续在上面进行研究。

总结:

过去几年中,我们在很多方向上都做了努力。我们逐渐认识到,也许智能方法(Smart Algorithm)是能让Graphics Contents for Everyone实现的一个更好地解决方案。

在这里也要分享一些过程中得到经验,或者说是教训。

第一、Open-minded

要勇敢地借鉴各个方面的一些算法来做我们自己的东西。

第二、Concentrated

Open-minded像是一本很厉害的武功—吸星大法,可以把别人的东西全部吸过来。但是光有这个还不行,还要有本易筋经,把东西化为自己的,解决自己本身的问题。

第三、End-to-End

很多时候我们发了一篇Paper就感觉很满足了,但是现在对我来说发Paper只是表达的一个手段,更重要的是想把问题真正的解决掉,给用户提供一个真正的End-to-End的一个解决方法。




If you have any requirements, please contact webmaster。(如果有什么要求,请联系站长)





QQ:154298438
QQ:417480759