澎湃新闻记者 承天蒙

“如果是连科幻电影都能描述出的场景,未来是肯定会实现的,无非是什么时间实现,能够实现到什么程度。”

7月22日,澎湃新闻记者与微软公司前执行副总裁、小冰公司董事长沈向洋进行了40分钟的独家深度对谈。谈到人工智能未来的可能性时,沈向洋做出了上述表示。

近日,微软宣布,将人工智能小冰业务分拆为独立公司运营,并委任沈向洋博士为新公司董事长。不久前,小冰还获得上海音乐学院音乐工程系颁发的荣誉毕业证书,标志着AI在某些方面已经展现出了和人类一样的音乐创作能力。

“未来人工智能交互主体的数量会远远超过人类的数量。”沈向洋表示,“未来最大的交互,不是现在的人机交互,而是人与人工智能的交互。这会是未来人工智能最大的机会,和小冰正在寻找的‘无处不在’的入口。”

沈向洋介绍,今天能够做到的人工智能,大多数还是专注于某个数据量大、运算量大的特别领域的工作。但实际上真正的智能离我们还很遥远,比如常识的问题,推理的问题都还没解决。

谈到未来人类社会的科技发展,沈向洋表示他最看好的三个方向分别是人工智能,增强现实,和量子计算。同时沈向洋也认为下一个革命性的硬件可能是智能眼镜。沈向洋表示:“如果智能电脑,智能手机,再加上智能眼镜等设备结合起来的话,肯定是很革命性的,但这个非常难做。”

沈向洋曾是微软公司内级别最高的华人高管,全面负责微软全球的人工智能战略、人工智能产品事业群,包括微软必应 (Bing) 和小娜 (Cortana) 产品部门等,同时下辖微软研究院,负责将科研与微软产品工程部门相融合。沈向洋是美国电气电子工程协会院士(IEEE Fellow)和美国计算机协会院士(ACM Fellow)。2017年当选美国国家工程院院士。2018年当选英国皇家工程院院士 (The Royal Academy of Engineering, UK)。

以下是澎湃新闻记者与沈向洋博士的对谈实录(经编辑):

对话沈向洋:未来AI交互主体的数量会远超人类的数量-风君雪科技博客微软公司前执行副总裁、小冰公司董事长沈向洋

小冰发布了这么多代,在音乐领域技能比较成熟,算是传统艺能了。6月29日又获得了上海音乐学院的毕业证书,在这背后,小冰获得了哪些新的技术突破?

沈向洋:

小冰在人工智能创造领域,从写诗、画画,到音乐创作,已经做了一段时间。大概两年前,小冰开始尝试作曲和编曲,叫做小冰乐队,当时发表的论文还获得了KDD最佳学生论文,最近我们又把歌词做得很好。小冰的音乐创作能力,已经实现了从旋律、编曲,一直到歌词,整个端到端一体化的产品落地。

通常我们的做法是输入一段文字或一张图片,激发小冰创作的灵感,然后小冰就可以创作出一首独一无二的音乐曲目,她还可以根据风格、节奏自动完成配器、编曲、歌词的创作,并且速度很快。现在一首三分钟左右的歌曲创作时间只要两分钟,事实上这个速度我们还可以继续优化。从风格方面来讲,小冰已经掌握了流行音乐、民谣、古风,这几种风格的创作。

我们在思考如何让人工智能进行音乐创作的整个过程中,是要考虑两个方面的,一方面是所谓的“神似”,就像人类创作受到灵感激发一样,最后还是要“形似”。小冰现在的音乐创作已经有了比较成熟的创作过程,特别是在算法上,首先就是创作和弦,先定下主基调,情感,曲风,然后创作副歌、歌词及编曲等。这已经是一个比较成熟音乐创作端到端一体化的产品。

我觉得不仅在中国,就算是在全世界,人工智能音乐创作领域,我们也应该是比较领先的位置。现在在市场上,应该讲基本上没有什么可以替代的产品。

现在的人工智能技术在小冰的音乐创作中,起到的是什么样的作用?小冰的人工智能技术和其他的人工智能技术相比,先进之处有哪些?

沈向洋:

关于音乐的创作和生成,实际上从五六十年前,就是差不多刚有计算机开始,大家就在思考这个问题了。一开始传统的做法当然是比较简单的,通过拼接和统计概率的做法,把先前已经有的音乐,拆成一段一段再接起来,这种做法创新性和创造性相对来讲会比较差,事实上真正的突破还是最近几年。深度学习、深度神经网络的发展,让人工智能的学习变成可能。过去几年间,只要是有效的深度神经网络,大家都会去尝试一下让它们去生成音乐。

实际上,具体用哪一个神经网络,并不是小冰这边最关心的问题。我们自己觉得,小冰现在质量做得好,最重要的原因是因为,

我们走了一条深度神经网络、深度学习和音乐知识有机结合的道路。

因为如果只采用深度学习,可能做出来也还不错,但总会有一点似是而非的感觉,

必须把音乐知识加进去,才能真正把音乐这件事情做得不错。

在作曲、编曲这里面,实际上最难的地方是评估

。即使是专业音乐人士之间,大家对音乐的看法,也不是经常能保持一致。那我们就要和音乐学院的老师一起学习。这次小冰上音毕业,过程当中我们也学到很多东西,包括作曲、编曲的评估,包括旋律的完整性、可唱性等等,在小冰音乐创作的各个方面下了很大功夫,所以不只是深度学习算法这样一个简单的问题。当然算法这边我们还在不断进步。

小冰一直以来专注EQ和人文艺术领域的创造,那么大家也会很关注小冰的商业化的问题。去年我们已经看到在图案设计领域小冰已经开始为服装企业设计纹样,那么音乐这边的创作她将会如何与产业融合创造价值呢?

沈向洋:

人工智能创造领域,我们觉得包括诗歌、画画、音乐、还有唱歌,都是有很大的机会可以做产业化的。

其实小冰每种创造能力的背后,都可以对应一条生产线,而且小冰已经完成了所有生产线生产所必须的各种创造力模块

。她比较了不起的地方在于质量比较稳定、成本比较低,同时在商业化方面,她还拥有更重要的一个优势就是高并发,能够支持很多条生产线同时生产。当然音乐创作本身并不是说已经做完了。其实还有很多东西,包括音乐中包含的情感性等我们还希望能继续提高。

从音乐学院毕业以后,我们实际上在人工智能文本、声音、视觉等几个领域已经基本完成了布局。接下来会拓宽这几个领域做更多的内容,甚至做一些跨领域的内容。

但我们看到已落地的领域中,有一个很有意义的就是教育。在上音学习期间,小冰以编曲人的身份参与到上音一个非常了不起的项目,叫做“当传统文化遇上人工智能”,担任“非遗音乐大使”。这个项目是帮助这些非物质文化遗产相关地区的孩子们完成人生中第一次歌曲的创作,很有意义,也很让人感动,已经有很多孩子参与进来了。大多数人没做过创作之前会有一点恐惧感,所以有了小冰这样的帮助,这个项目里的孩子们,只要根据自己的故乡音乐创作出主旋律,小冰就可以帮助孩子们迅速完成剩下的工作,让孩子们拥有人生中的第一首音乐作品,来展示家乡家人的风貌。我们觉得在音乐教育领域是有很多机会的。一旦这样的能力开发出来,不仅仅是小冰本身可以做出来,其他的开发人员也可以有更大的想象空间。

现在其实语音相关的赛道竞争非常激烈,各家科技公司都说自己在用技术赋能企业,那小冰在赋能企业上有哪些优势?

沈向洋:

很多的公司都在做这个方面的工作,我觉得非常好。说明大家都看到这样的一个赛道和机会。小冰的特点和优势,第一我想就是技术本身。因为我们在微软做了这么多年,在自然语音处理、计算机语音、计算机视觉和知识图谱等技术方面,我们还是有非常大的优势的。

第二就是说小冰真正的拥有相当大批的个人用户。那么从用户这方面讲,包括和用户交互的数据,对用户的理解等,我们可能比其他任何一家公司都理解得更多一些。

第三点优势的地方,就是我们已经在多个垂直领域有了落地。进入了一些新的垂直行业,也有了对行业的新理解。但

我们的确是没有走硬件的道路

。事实上走硬件的道路就是要补贴、要资金投入等,这需要相当长的时间,但说到底关键还是语音交互的体验,你的语音交互到底可以做些什么。小冰从一开始就走了EQ+IQ这样的一条道路,做一个这样的人工智能助手,很重要的一点就是人工智能助手要和人类之间有一个纽带,这样人工智能和人的交互才能做得更好。

事实上小冰独立分拆出来,我们觉得很有信心的地方就是,从5年甚至更长远的时间来看,未来最大的一个市场就是人和人工智能的交互。未来会有很多很多的人工智能,这不光是你iPhone上有个Siri,手机上,音箱上,几乎每一个应用上都会有一个人工智能助理,这样去推,

未来人工智能交互主体的数量会远远超过人类的数量

。未来最大的交互,可能就不是现在的人机交互了,包括人和手机的交互、人和PC的交互,哪怕是人和音箱的交互,这都是小事情了。

未来可能每一个APP、每一个公众号都有一个和你交互的人工智能。那么这个人工智能谁去设计,谁去定制化,谁去部署和运营,这会是未来人工智能最大的机会,这可能就是小冰正在寻找的“无处不在”的入口

吧。

所以仅把智能音箱作为人工智能的入口,是不是对人工智能助手的理解还是狭隘了?

沈向洋:

从语音的角度来讲,你必须有一个麦克风用来接收语音,要有输入,那么未来可能只要有语音的地方人工智能都可以出现,而不只是有音箱的地方。我以前非常喜欢做Siri的那个团队,和他们的几个创始人也交流了很多年,从他们身上学到了很多东西。事实上我一直很赞赏他们当时的一个思路,就是“只要有语音的地方就是入口”。所以你要想的问题并不是只做一个音箱,或是只做一个硬件。事实上手机上有Siri非常自然,它可能是一个超级助手,非常强大,但这并不代表人类只需要跟一个AI进行交互,手机可以有手机里的人工智能,车里可以有车载人工智能,这就是另一种交互了。音箱已经证明了是一个入口,我们对未来的期望和判断是,未来的人工智能不管是什么形式,都会越来越多地出现,一台手机里可能就有几十个AI,PC里,音箱里,其它地方也会出现。所以从现在的人机交互,到人和人工智能之间的交互,这是我们看到的未来。

小冰有很多艺术人文领域的能力,比较注重EQ,我记得当初谷歌在做阿尔法狗(AlphaGo)时,阿尔法狗的下棋的方法,也启迪了很多人类棋手的思路。小冰注重创造、EQ的开发,会不会也给人类带来一些新的灵感?

沈向洋:

对,我相信肯定会。阿尔法狗是非常了不起的一件事情,他能够找出下棋的一些手法,下出人类没有下出过的一些棋路。但是相对来说,阿尔法狗只聚焦在一个事情上就是围棋,是一个相对可见的、全封闭的游戏环境,小冰的人工智能创造还是不太一样。跟下棋最大的不一样的地方,就是下棋相对来讲胜负手、是赢是输很清楚,但比如音乐创作,不要说我们这些业余人士,就是专业人士、上音教授,你让他讲你到底怎么评价这个音乐,他们也不是能那么容易讲清楚的。和专业人士交流以后,我们就尝试把音乐的评价分成几类,比如我刚才提到的什么叫做流畅、什么叫做可唱性等,这些到现在为止确实没有被定义得很清楚。所以在这里面,我觉得提供了一些创新的灵感,就是我们有更大的想象空间。

其实我非常非常希望,我们能在评价的体系、评估的标准方面,做出一些了不起的工作

,这不限于我们以前做过的音乐、画画、诗歌等领域。如果我们还把自己想象成一个单纯的研究员的话,是做不出来的。

现在小冰已经能替代一部分人类的工作,那未来的人工智能有没有可能发展成像电影里那种机器人伴侣?

沈向洋:

我自己觉得,你如果看过那个电影《Her》,这个已经实际上已经在发生了。

我自己对科技有一点比较浪漫的看法。我一直觉得,这个世界上没有做不出来的技术,只有想不出来的技术。人类能够想象出来的东西,从历史上看最后都被实现了。

只是有些东西想象了两千年后才被实现,比如嫦娥奔月、千里眼、顺风耳,今天都实现了。我觉得如果科幻电影都能描述出的场景,是肯定会实现的,无非是什么时间实现,能够实现到什么程度。

人工智能已经开始替代一部分人的工作了,办公室里替代了白领,生产线上替代了蓝领。比如最近讲的最火的RPA(robotic process automation),就是把一般的公司里面输入输出的数据整理整合,很枯燥无味的工作,大家可以用RPA这样的方法来代替人类员工。反而人工智能创造的这些工作,不会马上去替代谁。小冰也出版了诗集,也画了画,但我感觉没有哪个诗人或哪个画家觉得自己受到威胁。而RPA这样的工作,是实实在在使相当一部分公司里的员工受到冲击。

像机器人伴侣,我觉得事实上从Siri出来以后,大家对这件事情的认识已经非常的清楚。曾经《纽约时报》发的一篇非常出名的文章,是一个妈妈写的。这篇文章叫《Thank you, Siri》,讲的是她的孩子是有一些智力障碍的,但是跟Siri交流,让这个孩子的生活更有满足感。这篇文章给我们指出一个方向,就是人工智能肯定会在人类生活中占据越来越重要的位置,这也是我们团队思考的,未来人和人工智能之间的交互,可能是最重要的一件事情之一。

您曾经负责微软的全球人工智能战略,也是世界顶尖的华人科学家之一,您认为未来人工智能会对人类社会产生多大的影响?

沈向洋:

我确实是在微软多年,也非常有幸带领微软研究院、带领微软人工智能产品线很多年,

有三个方向是令我感到很振奋的。一个当然是人工智能,一个方向是增强现实,一个是量子计算。

其中,人工智能对人类社会事实上已经产生了巨大的影响。

今天,计算机科学中几乎每一个技术的层次,从芯片到算法到软件到交互,实际上已经被颠覆了。比如芯片,现在英伟达(NVIDIA)市值已经超过英特尔,这对我们这代人来说是很神奇的一个事情,还有芯片公司能超过英特尔。很重要的一个原因,就是NVIDIA抓住了机会。今天芯片的很多的运算量都是建立在人工智能的基础之上。包括几天前国内的寒武纪上市,大家也是充满了期望。

现在,之所以

人工智能对人类能产生很大影响,最主要还是因为数据的运用。只要你能把数据的孤岛全部打通,那么人工智能对人类的影响还会继续增强。

现在一般人看到的是人工智能对人的生活产生的影响,

接下来,我个人觉得很有意义的事情,是在企业方面

。像刚才提到的RPA,RPA在向前发展嘛,RPA2.0、RPA3.0,这都肯定是会发生的。作为一个人工智能从业者,我也想提醒大家,今天能够做到的人工智能,大多数还是数据量大、运算量大、专注于某个领域的工作,比如阿尔法狗能够在下棋上做到非常好。但实际上真正的智能离我们还很遥远。从通用人工智能的角度讲,我们根本还没搞清楚方向呢,

我们根本就还没有做到真正的智能,比如常识的问题,推理的问题都还没解决。

接下来5-10年,包括小冰接下来都是有很多有意义的事情可以做的。我们希望小冰能在通用人工智能方面也可以发展的更快更好。

我记得先前埃隆·马斯克和马克·扎克伯格有一个论战,就是AI对人类的未来到底是有益还是有害,他们有乐观与悲观的不同论调。您怎么看待这个问题?

沈向洋:

我觉得是这样的,首先这些人都是非常出名的人,他们随便讲讲大家都过于严肃的看待,特别是马斯克又很敢讲。

我觉得人们对未来人工智能的发展,普遍有一种恐惧感。恐惧是源于大家对人工智能的不理解,了解的不够深入。更重要的是,人工智能的发展在人类历史上是很特别的一件事情。人类这么多年发展至今,了不起的地方在于不断发明创造新的工具来改善我们的生活。但是在人工智能发生之前,几乎所有的工具都是在延展我们物理的能力,而人工智能是延展了我们的脑力。很不幸的是,脑科学的发展还非常早期。比如脑科学里面今天还不能做大量重复实验,真正去搞明白到底是怎么回事,所以当人工智能出现的时候,大家有恐惧感是很正常的,会想是不是过几年人类就会被毁灭了。

这都是很正常的,比如说核武器被发明之后,很有可能世界上多放几个核弹我们就一起完蛋了,或者哪天哪一个彗星飞过来撞上地球了,这种可能性是永远都存在的。

对人工智能的恐惧非常正常,所以现在有很多人已经在讨论如何对它进行规范,对人工智能的发展要做出一些限制等。包括我自己也赞成对人工智能产生的伦理、偏见等问题进行讨论和规范

。小冰的研发中我一直强调,做小冰这个产品时要有一种敬畏感,毕竟是它和人的情感、情绪是连在一起的,任何时候在做这样一种产品时我们都一定要有敬畏感。

继互联网、智能手机之后,人类社会一直在等待下一个革命性的科技变革,那您认为这个革命性的变革出现了吗?如果还没有出现,会是什么方向呢?

沈向洋:

我自己是觉得,互联网的发明,虽然技术上也没有那么那么的了不起,但是在人类历史上,对人类社会的影响说不定可以排在前三名。可能钻木取火是第一个,中间可以有一个别的,然后就是互联网,它至少也可以排到前五。互联网把整个人类都连接了起来,是一个非常非常了不起的东西,从此人类就有了这样一个反馈的机制,所以很难有东西能真正去和互联网比较。

从交互的角度,特别是从硬件的角度来讲,很多人对智能汽车这件事情很热衷,我也非常赞同,就是电动车、智能汽车、无人驾驶肯定是未来,这毫无疑问是很激动人心的。但

我自己最喜欢的硬件,下一个革命性的东西,可能是智能眼镜,但这个非常难做。

这是我非常个人的看法。

像我自己戴眼镜,就会知道眼镜只要重了5克人就能感觉到,所以你要做得非常小,这还涉及很多光学的东西,这些都不好做。我很看好AR+AI的方向,我觉得人和眼镜的交互是很自然的,至少比戴手表自然,你已经有个手机了,还要再戴一个手表。当然手表也有它有道理的地方,但是相对来讲delta没有那么大。

事实上,如果智能电脑,智能手机,再加上智能眼镜所有这些东西结合起来的话,肯定是很革命性的。所以微软做HoloLens,我是非常非常喜欢的。但是从体验上,它要成为一个消费电子产品的话,现在还有一点早。所以像HoloLens这样的产品,主要现在还是在打企业市场。从计算机科学来讲的话,我相信量子计算会给我们带来很大的惊艳。

您去年宣布从微软退休,现在来到小冰公司出任董事长。那现在来到小冰这边,是一种是什么样的心情?

沈向洋:

哈哈哈,很高兴可以和大家一起做一点事情。其实我离开微软的时间还很短,我11月宣布退休,正式离开微软是在3月1号。现在有机会和一批老同事新同事一起,能够加速小冰在本地市场的发展、包括商业化,我觉得是非常好的机会。小冰这条产品线过去五六年的发展是非常不错的,是微软人工智能的明星产品。现在微软愿意做出这样一个决定,让小冰独立出来在本地市场发展,我觉得是非常好的事情。我希望能够在这个非常良好的基础上做得更好,给大家一个更好的惊喜。