阿里达摩院谢宣松：跨媒体、跨技术是视觉智能的未来发展方向

　　文：汝晴，图片来源：IC photo

　　视觉智能，这门研究如何使机器“看”的科学，近年来随着深度学习、大规模数据处理能力及云基础设施的迅猛发展，逐步应用到各行各业中，发挥着越来越大的作用。

　　近来，为了控制病毒的传播，多地政府要求市民出入公共场所必须戴口罩。为了帮助工作人员防控疫情，阿里云紧急在 48 小时内上线口罩检测技术，该技术可以识别人员是否佩戴口罩，对机场、火车站、地铁等公共场所的卫生安全检测和实时预警，大大缓解了人员压力。该技术的快速推出得益于阿里云视觉智能开放平台（以下简称：“开放平台”）所提供的原子能力。

　　开放平台将阿里巴巴视觉智能技术实践经验开放给视觉应用的开发者与用户，让他们可以在阿里云视觉平台上选择相关能力，自行封装产品、服务或者是解决方案满足自身或者最终用户的应用需求。平台由阿里巴巴集团技术委员会视觉技术小组和战略合作部牵头，达摩院联合阿里云产品与解决方案管理部以及集团各个视觉技术团队一起创建，于 2019 年 12 月，完成了公测上线。

　　该平台也正在积极吸引更多的用户，正与阿里云开放平台、阿里云异构计算、NVIDIA 联合举办 AI 挑战赛，让用户免费体验视觉智能平台相关能力。

　　就此，36 氪于近日专访了阿里巴巴机器智能技术实验室资深算法专家、阿里云视觉智能开放平台负责人谢宣松（星瞳），和他聊了聊这一开放平台的产品逻辑，以及达摩院在视觉智能技术的思考。

　　以下是对话（经编辑）：

　　01.

　　谈达摩院：既求先进，又务实

　　36 氪：作为阿里前沿技术探索的核心阵地，达摩院有着怎样具体的定位？

　　谢宣松：2017 年，达摩院成立。成立初期，外界多认为达摩院可能只会做一些特别前沿、特别基础、不那么落地的研究。但其实达摩院也有务实的一面，也一定程度遵从一个大的策略：“以市场为导向的，以产品为核心，以技术为基础”。达摩院它不是一个孤立的个体，也是属于阿里巴巴的一部分。阿里对达摩院也有两方面的考虑，一是希望业务在达摩院技术加持下走得更快，相当于提升业务的一些核心竞争力。另外一个，是希望达摩院的本身能够走得更远，主要体现其愿景实现和基础技术竞争力的优势建设上。

　　达摩院在阿里体系中还是有它独特的定位。研发上，达摩院既会做一些影响力更深远的事情，也能做业务落地支持型的产品。现在，达摩院也越来越强调和其他部门的联合作战。达摩院会更关注做“深的能力”，即做到极致效果、有影响力的事；同时又会做“宽的能力”，即在各行各业做出更多案例。总的来说，达摩院既要为阿里云提供技术加持，也要做好阿里集团内部系统基础性的工作。

　　36 氪：达摩院推出这一开放平台的目的是什么？

　　谢宣松：首先整个阿里巴巴集团有上千名开发人员围绕着视觉技术在电子商务、城市大脑、金融支付、交通物流、通信会议、新零售、文娱等多个行业的应用需求，对外贡献了许多产品和解决方案，这其中沉淀了诸多视觉基础“原子能力”，即底层能力。同时，阿里巴巴的许多内部业务，如淘宝、天猫、支付宝、优酷等诸多明星产品都有视觉能力在背后的支持有着海量的用户规模，对这些视觉智能技术能力进行了千锤百炼。

　　但此前阿里云没有一个统一的入口和品牌，将这些基础能力统一集合起来。于是，我们便决定建立一个平台。

　　这个平台首先是一个视觉智能核心零部件的供给库。这些零件有自营的，即阿里巴巴团队自己研发的；也有第三方供应商的，即生态伙伴或者其他相关人士提供的。其次，开放平台也是一个效率工具，有着大量的场景案例，可以帮助开发人员更高效开发落地产品。开放平台是双向的，内部和外部都可以使用，对外主要面向视觉智能技术的开发与应用用户，为其提供好用、易用、普惠的视觉智能 API 服务，帮助企业、开发者快速建立视觉智能技术的应用能力。

　　总结起来，该平台有这么几个特点：一是专业，达摩院科学家及集团专业工程师加持；二是实用，上线的视觉技术是通过阿里巴巴海量场景和最佳案例检验的；三是全面，平台集合了规模化、多样化、场景化的视觉 AI 能力，为开发者和用户提供一站式能力选择；四是易用，依托阿里云智能坚实的基础设施服务，提供普惠易用标准的 AI 能力，用起来省心省力。即有硬实力，又有软实力。

　　36 氪：开放平台中集成了哪些类型原子能力？这样的分类基于怎样的逻辑？

　　谢宣松：开放平台将围绕以多个视觉智能的主要类目不断为用户提供多种视觉 AI 原子能力，包括：图像识别、文字识别、视频理解等多种视觉基础技术。

　　主要是从三个维度去分：一是业务维度，比如一些刚需场景，包括文字识别、商品理解、内容审核等；二是从技术角度分，比如识别类、检测类、分割类、增强生产类，这些主要针对一些通用场景；三是针对特定的长尾场景。

　　36 氪：开放平台如何收费？

　　谢宣松：这就要说到我们产品普惠化的特点，在目前已经公开的产品中，我们采取了一些免费的策略。这些免费策略根据输出的“能力”的不同而不同，比如有的是根据用量，有的按 QPS 多少，这些我们都给予一定程度上的免费额度，基本能满足一些要求不高的用户。

　　但 AI 既要做普惠，也要考虑商业化盈利策略，这样才能让平台能够持久运营下去。这就要求我们有合理的商业化策略，也就是找到普惠和商业化之间的平衡点。好在平台上的原子能力是多样化的，所以这个平台也能有比较融合和多样化的商业策略，这也是我们正在探索的。

　　02.

　　谈 AI：跨媒体、跨技术的应用是值得关注的新方向

　　36 氪：您提到了普惠 AI，您怎么定义？

　　谢宣松：首先普惠的话并不是等于免费，这是两个不同的概念，当然免费可能是符合普惠的一个特点。主要可以从几个维度来看，第一是用户进入使用 AI 的成本门槛降低；二是用户使用感受是省时、省力、易用的；三是使用 AI 获得的收益相对付出的成本来说更高。

　　36 氪：1 月初，达摩院发布了 2020 年十大技术趋势的预测，第一条是“人工智能从感知智能向认知智能演进”。视觉智能要从感知智能走向认知智能有哪些需要突破的点？

　　谢宣松：我想从感知到认知的变化，不是一个简单的更进一步，有着丰富的涵义：

一是从理解到思考的能力；目前的 AI 在识别理解世界上做得比较多，但是下一步的联想推理、生产输出怎么做，就做得比较少，而这些正是认知智能需要具备的。
二是从数据到知识的能力；因为现在感知层面的模型，更多的是数据在不同维度空间的映射，但是数据之间关联、推理依据和模型本身的可解释性都不是那么成熟。
三是成本和落地的能力；目前的 AI 大多时候都是强数据驱动，不同功能、不同场景所需要数据不一样，就需要再次进行大量数据处理，在少样本学习、能力迁移、跨域应用上，没有办法做到低成本和泛化，因而很难做到快速推广落地。

　　36 氪：视觉智能要从感知智能走向认知智能有哪些需要突破的点？

　　谢宣松：而视觉智能要从感知到认知这个角度来看，我觉得至少要做三件事：

一是视觉算法本身的突破，以前的大部分的视觉智能的算法是识别分类算法方面做得比较好，要向认知智能演进，可能需要在决策推理、生成强化等技术要点进行突破，来拓展机器自主变化和输出决策的能力。
二是横向技术的打通；到认知智能层面，知识是非常重要的要素，AI 在具体细分行业的应用落地将会更加深入，如何将细分场景的数据抽象成知识，知识又如何抽象形成框架性的东西都是需要进一步攻克的。此外，视觉、NLP、图谱等技术的横向拉通，对于认知智能的形成也非常重要，这里的 NLP 不是专指人的自然语言，更多的是指机器能够理解的知识逻辑，也许可以叫 MLP。
三是工程系统能力的增强；深度学习之所以可以在目前阶段实现大规模的落地，是因为算力、数据以及工程化都已经达到可控可用的状态。同理，从感知演进认知，同样的工程系统和效率工具也需要向前演进，比如大规模的图计算工程框架，否则认知智能的规模化落地是空谈。

　　36 氪：您认为哪些细分场景和方向可能会更早实现计算机视觉的认知智能落地？谢宣松：我不好做具体的预测。但是，可以按照一定的逻辑进行分析。一般来说，能够在实际落地当中，特别好或者特别快地解决矛盾的方案和方向，会发展得更快一些。比方说从“数据、算法、算力”这经典的三要素来看落地，首先，当一个行业它的数字化程度高时，数据体系也会相对完善；其次，在算法层面来说，视觉智能起到的是核心作用；最后，这一场景智能驱动力特别强，有创新的机会且能赚钱，有足够的资源投入。能同时满足以上三点的条件的行业机会更大。

　　36 氪：在视觉智能领域，有哪些值得关注的新方向？

　　谢宣松：不难发现，大部分视觉智能团队做的都是识别检测相关的事情，这很合乎逻辑，因为人也是先认识理解世界，才谈得上生产改造世界。但是，还有一些跨领域、跨媒体、跨技术的非纯粹理解方向的技术应用成熟度还不那么高，比如说生产类、增强类的视觉智能， 2D 和 3D 融合、全 3D 图像、图形学和视觉算法相融合、从静态到动态的技术。

　　从人本身的角度来进一步抽象一下，视觉技术发展方向也有脉络可循：一是维度上从低维到高维（2D 到 2D+T 再到 3D 再到 3D+T），二是从离人近的到离人远的（如到文字商品再到自然万物），三是从粗到细（比如整体识别到定位再到精细识别），四是从理解到生成，五是从自然图到抽象图，最后是，核心行业应用到各行各业。

　　拿具体的例子来说，比如 2019 年突然“火”了的换脸软件、数字虚拟人像、2D 图像生成 3D 模型、自动服装设计等就用到了 2D 和 3D 融合、从静态图像到动态画面等技术。尽管这些技术目前应用的并不是成熟，但却是未来数字世界与现实世界进一步交互，不可缺少的重要技术。

　　我们正在做一个智能服装设计产品就可以很好地诠释这一趋势。它背后技术路线就是，将现在海量 2D 图像信息，用技术手段变成 3D 的东西。然后在生成 3D 后再继续生成各种各样的拓展。比如，再利用物理模拟手段，把这些服装放到一个数字人身上，然后去展现衣服真实的物理质感等，视觉上很难去感觉出区别了。进而，虚拟的衣服可以进一步用于数字化营销的广告、虚拟数字秀场等，而且这一虚拟的 3D 衣服还能回到生产线上，由虚拟走向物理世界。

　　另外，随着其它基础设施或者环境的变换，也会带一些新的方向，比如 5G，比如当前新冠肺炎引发的在线办公和教育行业，这些就不细述了。