微软首席研究员童欣：网络图形，从交互到智能

Go homepage(回首页)
Upload pictures (上传图片)
Write articles (发文字帖)

The author:(作者)左
published in(发表于) 2016/11/18 15:41:50
微软首席研究员童欣：网络图形，从交互到智能

微软首席研究员童欣：网络图形，从交互到智能 - IT资讯

十五年前，2001年的时候研究院决定成立个新的Graphics Group，当时起名叫做Internet Graphics（互联网图形）。

很多人见到我都问，什么是Internet Graphics？其实我们也不知道。2001年的时候我们所有的组员集中一起做了第一个项目，叫Game download and Play。这个项目主要想做的是，我们把互联网图形数据做一个压缩，让大家不用等那么长的时间。通过很快地下载一部分数据到本地之后，马上就可以玩游戏了。这个项目可以说是非常成功，在这之后我们就开始做Siggraph了。转眼十年就过去了，我开始负责图形组。我重新问自己，到底什么是互联网图形？什么是Internet Graphics？通过对身边进行观察，我发现：

Internet与文字结合时效果很好：出现了网络文学、微博、Wikpedia等

Internet与图片结合时效果也很好：出现了Instagram、美图秀秀、500px等

Internet与视频结合时效果也很好：出现了Youtube、爱奇艺、网络直播、网红等

但是回到Graphics，好像十年过去什么都没有发生，到底出了什么问题呢？我做了一些研究，也想了下，有写粗浅的想法分享给大家。

风口上的猪想要飞起来，不是每头都可以，要满足两个条件。

第一、Everyone

内容最好每个人都能产生，都能创造。当你有互联网的时候，大家互相进行交流，内容就会有海量的增长。

目前产生一个3D的内容、Graphic的内容对于普通用户来说还是十分难的任务。即使是艺术家，也需要好几年training才能做好这些软件、模型。

我们也确实有一些设备来帮助大家做一些内容的捕捉，比如说3d Scanner等。但是这些设备基本上都是很昂贵的，而且还需要专门的实验室，普通的用户还是享受不到的。

第二、Everywhere

随着移动平台的发展，如果你的内容产生、享受、消费能扩展到每一个平台上，让大家在任何一个地方，都能进行消费。这个时候再加上互联网，就是真的飞起来了。

Everywhere方面就更悲惨了，图形学发展这么多年，所有的媒体内容都是通过一个Screen传递给大家的，某种意义上来说，我们的内容和一个视频video是没有太大区别的。

Screen在Real World和Witch World中间有个明确的界线，我们还需要鼠标、键盘、gamepad等外部设备来进行交互，这些交互和我们在自然世界中的真实三维交互是非常不同的。

现状：

在过去，即使到现在为止，我们的Graphic所有内容的创造，基本和互联网关系不大。基本的模式还是这样的：

有一些artists，他们组建了一个公司。经过很艰苦的奋斗，做了一些游戏、电影。把这些东西传递给市场上，有成千上万的消费者进行消费，还是一个传统的模式。

愿景：

基于这个想法，我们提出了一个Vision（愿景）

我们希望做一些图形学的工具、系统，能够帮助每一个人方便地产生可观看和分享的三维图形学的内容。

同时我们希望能在自然世界和虚拟世界之间，提供一些更自然的interface和交互方式。

另外在可视和一些不可视的抽象信息之间，提供一些自然的interface，做一些Visualization相关的工作。

在过去的五年中，我们也做了很多的研究，在各个方面做了很多的探索。慢慢地我们意识到，也许intelligence智能的方式可能是很好的解决方案。

有如下这些原因：

我们已经有了一些昂贵的设备，这些设备帮助我们捕捉到了大量高质量的数据。

我们有一些比较便宜的设备（比如我们现在很多人都有的摄像机），这些设备可以提供一些初始的input数据，这样就不用从无到有了。

特别是，机器学习方面的一些技术上的进展，可以让我们把一些技术用到图形学的一些工作里了。

我们提出来，也许一个比较好的解决方案是：

通过一些比较cheap devices（便宜的设备）加上一些Smart Algorithms，可能在某些时候需要一些sparse user input来产生一些三维的内容。

这里提到的Smart Algorithms，我们希望它能做两件事：

Smart Algorithms能够意识到几何数据和图形数据中的一些intrinsic（固有）的property（属性）来帮助我们产生内容。

另外一方面，我们可以用一些机器学习技术，来进行end-to-end端对端的学习。在input和output建立一些relationship和mapping，来做这样的事情。

3D Object Digitization

下面用我们研究的一个很小的方向，3D Object Digitization来做一个案例，看看我们是怎么做的。

3D object digitization：基本目标是有一个真实世界的三维物体，希望把它很完美地扫描进虚拟世界中。

在这里讲到的不仅仅是一个三维物体的几何形状，还有它所有的材质信息。

因为光有了几何信息之后，我们可能知道这个物体的形状是什么。但是物体具体是什么？只有当我们知道了材质（纹理等）、表面反射属性之后，我们才能在三维世界把它栩栩如生的体现出来。

大家可以想象这样一个工具对VR、AR内容的产生以及虚拟购物是多么的重要。

现在我们回想传统、现有的3D的解决方案是什么？

首先用一些设备扫描它的三维形状，但是在大部分情况下，所得到的三维形状都是非常糟糕的，有各种各样的Noise，很多还缺了。所有我们需要很多的人工去做一个去噪的工作，才能让几个形状变得比较完美。

捕捉材质部分，这个就更麻烦了，我们需要把它挪到专业的实验室里去。

用非常昂贵的设备，来捕捉它在各种光照、各种视点下它的外观。有了这个之后呢我们才能真正产生出一个虚拟的物体出来，可以再进行使用了。

可以看到，在这个过程中有很多障碍：

首先，在去噪方面需要很多的手工工作，而且需要艺术家来做这个工作。

其次，我们的设备都很昂贵，特别是做材质捕捉很昂贵。

另外，流水线很长。我们要先捕捉几何，在用另外的设备捕捉材质，这两个的数据要融合到一起很麻烦。

现在可以来看下用一些Intelligence的Algorithm可以帮我们做些什么东西？

我们想做的事情很简单：

一个是，假设对一个真实的物体我们做了一个3D的扫描。这个物体上有很多噪音，坑坑洼洼的，我们想全自动地把上面的噪音全部除去。在去除噪音的时候，我们同时希望一些好的东西，比如几何等一些小的细节能保留下来，不要都去掉了。

另一个是对不同设备扫描的数据，这个算法能同时一招就处理掉。

为了做这件事情，我们做了一个learning（学习）的algorithm（算法）：

首先捕捉了一些ground truth的东西，扫描了一些带噪音的东西。在这两者之间，我们学习了一个mapping，有个mapping之后我们可以在runtime的时候给定一个match就能实现。

我们很惊喜的发现，这个算法在用户使用的时候是全自动的。只需给一个match，就全自动给你做好了，不需要再去tune任何的参数。

第二个是我们的算法第一次超过了在所有不同的输入上，它的accuracy准确度以及重构的质量，第一次超过了所有已知的算法，同时我们的算法还要比所有已知的算法都要快。

我们很快会把Source Code源代码以及Data数据分享给大家，大家每个人都可以尝试继续在上面进行研究。

总结：

过去几年中，我们在很多方向上都做了努力。我们逐渐认识到，也许智能方法（Smart Algorithm）是能让Graphics Contents for Everyone实现的一个更好地解决方案。

在这里也要分享一些过程中得到经验，或者说是教训。

第一、Open-minded

要勇敢地借鉴各个方面的一些算法来做我们自己的东西。

第二、Concentrated

Open-minded像是一本很厉害的武功—吸星大法，可以把别人的东西全部吸过来。但是光有这个还不行，还要有本易筋经，把东西化为自己的，解决自己本身的问题。

第三、End-to-End

很多时候我们发了一篇Paper就感觉很满足了，但是现在对我来说发Paper只是表达的一个手段，更重要的是想把问题真正的解决掉，给用户提供一个真正的End-to-End的一个解决方法。

If you have any requirements, please contact webmaster。(如果有什么要求，请联系站长)

QQ:154298438
QQ:417480759