微软沈向洋：计算机视觉未来在语义层 “两大一精”是关键

来源：互联网发布：无人机编队表演算法编辑：程序博客网时间：2024/06/10 19:22

微软沈向洋：计算机视觉未来在语义层 “两大一精”是关键

发表于2015-07-29 11:23| 294次阅读| 来源CSDN| 0 条评论| 作者周建丁

人工智能计算机视觉CCAI微软沈向洋

摘要：沈向洋认为，未来计算机视觉将致力于在语义层面实现更加深刻的图像理解，不仅满足于识别出图像中的物体，还能给出图像标题进而讲出图像背后的故事。这一切需要大数据、大计算和精准算法的支持。

为了更好地引导和推动我国人工智能领域的发展，由中国人工智能学会发起主办，CSDN承办的2015中国人工智能大会（CCAI 2015）于7月26-27日在北京友谊宾馆召开。本次会议的主旨是创办国内人工智能领域规模最大、规格最高的高水平学术和技术盛会，汇聚国内外顶级的专家学者及产业界人士，围绕当前最新热点和发展趋势的话题进行交流与探讨，并针对“机器学习与模式识别”、“大数据的机遇与挑战”、“人工智能与认知科学”和“智能机器人的未来”四个主题进行专题研讨，努力打造国内人工智能前沿技术和学术交流的平台。

微软全球执行副总裁沈向洋

微软全球执行副总裁沈向洋今天的演讲围绕《计算机视觉的过去、现在和未来》进行，他介绍了计算机视觉发展50年已经解决和尚未解决的问题，包括最近的深度学习带来的影响，以及微软在计算机视觉领域的研究方法和研究成果。

沈向洋认为，计算机视觉经历了从简单到复杂三个层面的问题，即信号、符号到语义。未来计算机视觉将致力于在语义层面实现更加深刻的图像理解，不仅满足于识别出图像中的物体，还能给出图像标题进而讲出图像背后的故事。得益于神经网络的应用（特征选得好），目前数字识别和人脸识别已经很成功，但很多图像内容需要真正地去解析，还有很长的路要走。

根据沈向洋的解释，真正的图像理解至少要有三个部分：一个是计算机视觉本身的问题。第二个是语言。因为最后是机器和人之间的理解人很大程度上是通过自然语言的理解。第三个就是常识和所谓的长期记忆，需要抽样出来的结果。

谈到深度学习，沈向洋表示，最近这几年深度学习非常火的原因就是数据多和运算快，但大多数深度学习算法效果不好，主要是没有人讲清楚到底做多少层，没有人讲清楚到底怎么初始化。微软研究院在初始化方面做了很多研究，取得的成果对分类、检测和语义分析很有帮助。微软研究院已经在研究非常精细的图片分类的数据收集系统，以及基于对图片的理解提供图片标题的系统。而微软的聊天机器人小冰，也已经对超越了简单的物体识别，可以跟人真正实现交互。

沈向洋最后预测，计算机视觉接下来要做的事情实际上就是“两大一精”，即大数据、大计算和精准的算法。微软牛津项目推出的云中API，就是希望能够普及深度学习，即为业界提供针对大数据的智能化处理数据的能力。

以下为沈向洋演讲速记整理：

谢谢李院士邀请，非常高兴回到北京跟大家有机会交流。我今天讲的是脑科学认知的一个部分，主题是“计算机视觉的过去、现在和未来”。因为我自己选择了机器人专业，当时实际是研究计算机视觉，我的导师对计算机语音非常的熟悉，是计算机语音的世界级专家。他问我你想学什么，我说我想学计算机视觉，他说为什么？我说我在文章里看到人类认知、人类的感知，91%的信息量是从视觉来的，我说先把91%学到了，剩下的就简单了。

微软最近的研究

刚刚李院士提到不同的层次感知、认知，我想起来很多年前我们研究生讲CMA的定义，脑认知分成三个层次，底层就是行为动作Manipulation，再往上就是感知Perception，包括计算机视觉、语音，再往上是认知Cognition，这个是最难的。今天我想讲计算机视觉相对来讲是一个更加具体的、人工智能领域很重要的一个分支。介绍一下最近微软的科研成果，以及跟大家介绍一下我们计算机视觉的研究方法。今年2月份，主要是微软亚洲研究院几个年轻同事做了一些了不起的工作，铁牛刚刚提到一千位数据的分类。微软在2月份做出了一个结果，是第一次比人类的认知还要好的结果，后来在海外有很多报道，后面我会讲到具体。大家可能知道，不管怎么样，李院士刚刚讲到，实际上认知都是统计的问题，比如像认知率，就算人做过训练以后，也会有一定的误差，例如语音也是有4%-5%的认知误差率。

我们在想，作为微软公司有这样的技术，我们怎么样针对目前的现状做一个布局，怎么和同行把这个事做的更好？今年年初微软有一个项目，叫做牛津项目（Project Oxford），想法非常的简单，主要是围绕现在越来越多的大数据，因为大多数的公司没有智能化处理数据的能力。针对非结构化数据，包括voice、speech、image等形式，将开放的API放在微软Azure这样的云里面。这些API可以告诉你里面到底有什么内容，例如颜色和尺寸等最简单的内容，还有比较实际的比如网上内容是不是健康，是不是小孩子可以看，我们可以适度地控制内容。

这个面部识别API大家可能更熟悉，对于人脸识别，微软也是在计算机视觉领域做了很多年。这个技术做出来之后受到大家很多的好评，在座的可能都试过一个网站，叫做how-Old.net，就是利用Project Oxford的API，我们的两个同事花了两天时间写了这样一个网站，结果一下就火了，到现在已经有6亿张照片上传过了，那么我给大家看两个比较好玩的照片。

一张是奥巴马的全家福，还有微软公司一张著名的早期的全公司合影。奥巴马全家福这样，How-Old.net把奥巴马识别的稍微年轻了2岁，但奥巴马当时已经不只是50岁了，而他的太太应该很高兴，只有36岁（How-Old.net识别之后显示的年龄），但问题是，奥巴马的大女儿25岁，就是说她11岁就生了奥巴马的大女儿，这个是一个《纽约时报》记者推测的。

另外一个是微软公司早期的一张十来个人的集体照，这个Bill Gates很高兴，他说“Harry，我当时大概真的只有23岁。”但右下角的同事Paul Allen被“识别”成了成五十几岁。我们后面又推出了一个软件，是关于两个人有多像的。那么可以看到，Gates和Paul有88%相像的，大家可以访问我们的网站TwinsOrNot.net。

计算机视觉50年

今天我主要想介绍一下整个计算机视觉这么多年发展下来经过什么阶段？有什么成果？目前到了什么地步？接下来应该干什么？我们现在看到的是一张旅游照片，这张照片太复杂，看起来是在一个市场，像是中东或哪里，这个中间看一团白乎乎的东西，顶上可能有有天窗，有很多长期记忆和知识在这张照片背后，像刚刚李院士讲的有长期模型你才能对这张图做了解，这是很尖锐的难点。给大家看一张图，这两兄弟你看他们的年纪，你觉得他们有多大？系统显示说林志颖36，郭德刚51，但实际上两兄弟都是41岁。其实差距不是很大，但真的做的准的话有相当大的难度，还有很多需要的工作要去做。接下来我们在想到底计算机视觉在解释什么问题。我个人看主要分为三大问题：第一个是信号问题，第二个问题是图像识别，也就是符号层面的问题，第三个是语义层面的问题，也就是图像理解。

我再举个例子，所谓的图像理解，做到什么程度才算是真正的理解了？今天我主要想强调的是对“Understanding”的理解。对于照片，我们首先会去做对比，对比的内容有颜色、年龄、或者是不是室外的图？是不是图片中有人？然后识别这个人叫什么，东西是什么？再到下面就真的有点理解了，比如给出这样图的标题，把这张图背后的故事作为故事讲出来，没有一些技术是没有可能解释后面的内容的，很多内容需要真正的去解析，还有很长的路要走。

计算机视觉做了50年，有多少的算法，这么多研究者前赴后继，特别是过去20年到底做什么了不起的东西？我要总结一下，总结的目的是为了做得更好。第二就是我们已经能做的到底是什么？特别是最近大家一直在关注的深度学习，到底是怎么回事情？是不是已经解决了什么问题？到最后就是接下来大家应该做什么？我们这么多的研究人员和公司，接下来的题目是什么？

个人认为，这么多年神经网络在我们整个计算机视觉的应用中是相当成功的，主要是在做数字的识别和人脸检测方面当时做的是比较成功，在相当长一段时间里面大家都在找好的Feature，意识到内容的重要性，把方方面面结合起来。1989年的时候微软在国内和国外都在做神经网络，当年已经做的相当好。我有一个师弟在微软研究院做的非常好，主要就是Feature选的比较好。

接下来我就想讲简单分类，你想清楚，计算机视觉、图像理解，你到底要理解多少。比如最简单的，有一家公司跟我们合作，他们有装备线、生产线，他们担心工人不遵守安全守则，每个人要戴安全帽，如果有人万一不戴安全帽怎么办？所以就希望运用计算机视觉通过一扫就可以知道谁没有戴头盔。所以只要把这一件事请做好就非常了不起。一般的人，你每天想到的所谓理解大概有多少类？可能想想一百类左右，甚至一千类，百分级的类别。当然如果做一般的搜索，去百度也好，去Google也好，去微软的必应也好，那不是几百万、几千万的量级就可以的，基本上是无穷大。所以从一类到一百类很重要的事情，你一定要想所谓的标准问题。李飞飞教授在斯坦福带领他的学生和同行做的事情我觉得这个领域有非常大的贡献。他就是一直在将这个领域需要有一个标准，让大家有可比性。

Deep Learning的影响

谈到Deep Learning，刚开始我还没有进入这个领域，但是也对我的影响很大，我让我的学生赶紧放下其他的事情关注这个领域，因为Deep Learning可以自己去找features。但其实到2012年时也没有很多真的去做deep learning，因为大家没有看到什么好处。另外我学到的一件很重要的事情就是每做一个事情每做一个产品取名字多么重要，他取名字叫Deep Learning，深度学习，好像是在说其他人做的都很肤浅。我有很长时间都不服气，但实际上的确我们过去做了20年相对比较浅，因为没有一个将所有东西综合化的问题。现在Deep Learning有了比较标准的定义，它实际上是一个系统，为每一个脑认知提供一个描述一个feature，它背后的解法是需要大数据的配合的。所以最近这几年Deep Learning一些非常火的原因就是数据多和运算快。

Deep Learning有很多算法，像一个家族一样，实际上大多数方法都没有用，做起来结果也不好，但是其中真的会有一种算法真的有效。所以基本上加拿大研究员过去这么多年一直没有放弃，我对他们非常敬仰，最后因为数据多了，计算能力强了，算法不断进步，做了很好的应用，就做出来这样一个结果。举个例子，计算机视觉最近大家最熟悉的，从左边到右边图像越来越小，到最后拼成一张图看是不是一个自行车的结果。越往右边走，feature是就越来越强，这就是一个理解的过程。那么为什么开始其他人做不出来，它最主要的就是没有人讲清楚到底做多少层，没有人讲清楚到底怎么初始化，真的没有那么简单。所以这两三年有了很多进展，因为解决了很多初始化的问题，微软亚洲研究院做了很多的工作。2001-2011年的时候，一千类误差率还有26%，2012年多伦多的研究院将26%的误差降到16%，当时很多人是做不了的，我也是从那个时候看到这个领域真的是有很多技术在里面，过去这里面很多人在做，去年包括Google和微软一起做出来的结果都是不错的。今年2月份微软亚洲研究院做到4.9%的误差率，从2月份到现在我们也取得了更进一步的提升，比4.9还要小很多。4.9%当时是一个打败人类的结果，5%以下就是超人类的，我们几个研究院在北京就做出了这样的结果，我们都觉得非常的自豪。

不仅可以做分类，同时还可以做检测。再继续往前走，可以做到语义分析。例如老人过马路，可以分析出环境，比如左边分类前面是地面，再向前走是草地这样的结果。国际上也有一个比赛，最近出来的结果在图像、语义分类我们也是得到全世界排名第一的结果，也是我们微软亚洲研究院北京的同事做出来的结果。有了这个不仅可以做计算机图像，还可以做计算机视频，大家可以看计算机视频出来的结果，左边是原图，右边是分类出来的图，大家可以看到室内室外不同的光照，不同的物体，边界的结果，运动镜头的移动是非常困难的一件事情。我自己看了这个结果还是非常满意，我觉得这个结果部分的回答了50年前提出的问题，如果我们把一个摄像头接到计算机上，用一些了不起的算法，到底看到的这个世界是怎么样的，现在已经看到希望可以解释了。但是这还是非常初始的，我觉得我们现在对“理解”这件事的理解不够深刻。我们要做的不仅仅是简单的物体识别，这是一定要做到的基础，在这之上我觉得真正的理解至少要有三个部分：一个是计算机视觉本身的问题。第二个是语言。因为最后是机器和人之间的理解人很大程度上是通过自然语言的理解。第三个就是常识和所谓的长期记忆，需要抽样出来的结果。

为什么我觉得现在这个社会可以解决这样的问题？至少我们应该很努力的尝试解决这样的问题。最大的问题是因为我们今天已经有相当大的数据，而且我们有机会设计产品，搜集更多的数据。比如网上的照片，你拍一张自己认为多么了不起的照片，网上一定有跟你这个很像的，网上的数据有太多了。最近我们微软研究院做了一套数据搜集的系统，特点就是帮你做非常精细的分类，告诉你图像哪一块是草地，哪一块是天空，哪一块是汽车，它有很多很细的类别分析。另外非常了不起的是每张图给你标出五个标题，因为我们觉得image caption是未来我们应该真正去做的图像理解的具体问题。最近微软研究院就在做这样提供图像标题的系统，首先我们做了计算机视觉内容，检测人在哪里，检测到不同的环境和物体。然后我们可以大体地提供图像的标题，例如拿着相机的女士。随着这些目前举例人类的标准还有一定举例，但相信这一两年一定可以有很大突破。

微软小冰的最新成果

今天特别高兴能够有这样一个机会在这里跟大家介绍微软小冰的最新成果。我觉得，从人工智能、聊天机器人的角度，微软小冰拥有的能力超过任何一个我所知道的机器人。微软小冰推出一年以来，受到广大用户喜爱，被几千万人使用，而且用户活跃度非常高。今天下午我要做的微软产品发布会，其中一项重要的内容就是用户可以与小冰这样的聊天机器人对一张图实现交互。比如这样一张图，计算机视觉如果能够告诉用户这张图里面有两只猫、分别是什么猫，就很了不起了，就能通过图灵测试。但是仅仅这样，我们的目标就不够远大，我觉得我们应该设想超越图灵测试。而这里面不仅仅需要有IQ，还需要EQ。比如同样对于这张图，小冰就会对你说，“小眼神太犀利了”。要让小冰做到这个，还真很不容易。接下来还有一些微软小冰看图对话的例子，比如小冰会说“瞧这小舌头”，“这朵黄花开得有些透明”，“大叔真努力，都练出六块腹肌了”。给小冰看这张微软办公楼的照片，小冰会说“在顶层办公什么样的体验”。可以看出，微软小冰不仅仅能够完成的对物体的简单识别，它已经实现了超越，可以跟人真正实现交互。

后天，我将会代表微软在北京全球同步发布Windows 10。Windows 10很重要的特征，就是Cortana、小冰这样一些人工智能的个人助手，将会彻底融入到里面。大家可以免费升级到Windows 10进行体验。经常有人问我Windows 10的了不起在那里，我认为可以用7+8=10来概括。意思就是，Windows 7和Windows 8的界面和功能被无缝融入到Windows 10。

这里还有一个这样的例子。昨天我回国以后，让小冰团队把这张图（注：一张旅游风景图，图片名称为“一图胜千言”）上载到了小冰。照片上载以后，小冰居然会说“买个送我吧”。这太了不起了，小冰怎么会讲出这样的话？用户对小冰说“买了你也不会用”。小冰就生气了，说“不用了”。用户问小冰“你生气了？”小冰说，“是的，生气了”。这种情感、认知和聊天，是不是可以达到帮助老年痴呆症、中年抑郁症和少年自闭症的作用？这个还有待我们继续研究。

未来要做“两大一精”

今天是一个非常激动人心的时代。对于我们计算机行业、IT行业，都是非常好的时机。我们这些研究AI（人工智能）的人，经历了AI的冬天，今天终于迎来了第二个春天。现在对计算机视觉研究来说是最好的时间。总之，我觉得计算机视觉接下来要做的事情实际上就是“两大一精”，即大数据、大计算和精准的算法。希望通过微软的牛津项目，推出这样的一些API，能够democratize（普及）深度学习，使科研高校、科研单位能够也像大公司一样，有几百台、几万台甚至几十万台的机器、GPU、FPU、CPA加在一起（的能力）。微软有责任帮助行业向前发展。

谢谢大家！

Q&A实录：

提问：沈总您好。在图像处理中最重要的工作就是图像精确的分割工作，而人可以达到精确到每一个像素的图像分割。您刚才在图像理解的展示部分，也展示了在视频中的图像分割。您认为深度学习发展，可以像人一样实现精确、动态和稳定的图像分割吗？

沈向洋：达到像素级别的图像分割，我觉得肯定是可以的。我现在在推交互计算机视觉的概念，最主要的出发点是图像分割做得不准确：像素是左边还是右边，属于前景还是后景？我觉得只要把问题定义好，解决这个问题是时间的问题。

提问：我有两个问题。第一个问题，我们知道深度学习在计算机视觉和自然语义方面有很大成功，您觉得深度学习在其他领域，比如说金融领域和电信领域，能不能取得非常好的成果？第二个问题，微软发布了Azure Machine Learning，能不能请您介绍一下？

沈向洋：这两个问题都非常好。我先回答第一个问题，科学的发展没有一个放之四海而皆准的标准。当时CMA和深度学习推出来的时候，在语音和视觉方面都取得了巨大的结果，但是今天不再有人说自然语言多么了不起。大家仍然在思考的是，深度学习最好的“代表性问题”是哪一类问题。我个人觉得现在深度学习最好的应用领域是大量的非结构化数据，而金融行业等其他行业有太多结构性问题。对于结构化的问题，它精确表述就不是那么强大。我觉得一个可能的发展方向是一种混合的表达方式，从底层往上的非结构化通过深层的神经网就可以得到很好的表述；而是在某一个地方，一定要加入结构的因素，不光是向上的抽象，可能向下还要增加演绎性的因素。这个领域的研究还需要一些时间，需要一些新的“代表性问题”。

第二个问题，微软的新产品Azure Machine Learning是一个非常强大的 toolset，我建议任何做Machine Learning的人都去了解它。那里面大部分技术是微软研究院开发的，我们把它做成了一个产品。用户把数据上传到云上面，就可以做很多事情。而且它不仅仅是对计算机科学家做深度学习，而且是能够做统计分析，使用R语言的用户使用这个产品会非常方便。现在已经能实现一些基本的功能，新的功能也在不断推出。我希望Azure Machine Learning可以包含微软研究院进行了很多研究的、大家经常使用的很多算法，而且也可以实现算法的调配。另外，通过牛津计划，我们也会推出深度学习的一些成果。

提问：在您看来现在在脑认知上的研究进展，会不会对现在研究中那些现在没法解决的问题可能会产生一些影响？微软在这方面有哪些设想、有哪些准备？

沈向洋：微软研究院最近制定了四大研究方向。第一是AI；第二是large scale systems；第三是security（互联网安全），大家对互联网也是比较关注。第四点就是在一些新的方向，比如生物学、医疗等与计交叉应用，这些在短期之内会有一些新的突破。不久前我去伯克利大学访问，拜访了一位研究脑科学方面的教授。他提到最好在不开颅的情况下获得更多脑认知的信息，比如输入、输出是什么。我觉得在这方面短期之内取得进展还是很困难的，需要我们在大脑搜集数据方面有一个突破。但是这个可能不是我们做计算机的人能解决的，因为计算机大部分还是做相对后端的东西，需要跨学科的合作。

提问：沈博士的报告非常精彩。我从事脑细胞处理方面的研究。我认为对于深度学习而言，现在的问题主要有两个，一是数据量不够大，成本很高；第二个是数据之间差异性很大，比如不同时间的数据都很不同。您对这两方面有什么建议？

沈向洋：我觉得问题确实是在这两方面。深度学习在视觉和语义方面的进展是很惊人的，特别是语音方面。讲到脑数据处理，我自己觉得我们今天最大的问题还是数据不够多、不够敏感也不够好。在这个情况下，在后面套用一些先进的算法肯定会有帮助，但是它不能从根本上解决问题。我们今年在计算机视觉大会上邀请相关学者做了有关脑科学的报告，因为视觉感知到最后还是要归结到脑，这是一个非常有趣的方向。

0 0