寒武纪科技:中国“芯”希望?-风君雪科技博客

  文/高冬梅

  来源:砺石商业评论(ID:libusiness)

  芯片历来被誉为科技皇冠上的明珠,中国在芯片领域一直积贫积弱,甚至有人把这种状况比喻为甲午海战时期土炮与洋枪大炮的区别。中兴因为芯片被美国卡住喉咙一事,更是给中国企业敲响了警钟。

  然而,芯片研发需要高投入、长周期,有志于此的公司必须具备非常准确的长期战略眼光,在趋势到来的第一时间就能发现并投入大量资源,才能有望在行业谋得先机。

  近几年,随着 AI 大热,技术应用场景向移动端转移,AI 芯片需要更强的性能、更高的效率和更小的体积才能支撑 AI 技术和产业更进一步的发展,这给新兴企业带来了机会。

  AI“芯”浪潮

  因为技术和数据积累的限制,2007 年以前 AI 对芯片要求不高,都是采用通用的 CPU 芯片提供所需算力。如今随着产业向纵深发展,AI 技术不断进步、应用规模扩大,芯片研发势必要紧跟行业发展的步伐,因而作为 AI 产业根基的 AI 芯片成了各大公司角力的战场。

  所谓 AI 芯片,一般是指针对 AI 算法的 ASIC(专用芯片)。传统的 CPU、GPU 都可以拿来执行 AI 算法,但是速度慢、性能低、成本高,无法进行商用。所以,开发 ASIC 就成了必然。AI 芯片的主要特征就是加载了 AI 任务专项处理单元。比如苹果推出的 A11 神经仿生芯片,就内置了神经网络引擎,来实现 AI 计算在终端的运行。

  以手机为终端来说,AI 芯片的优点在于:

  一是数据处理速度更快。传统的对复杂数据的计算要上传到云端,然后再下载到终端;AI 芯片的强大算力使得这些复杂计算在手机终端就能运行,原来需要 10 分钟完成的任务现在 1 分钟就能完成。比如手机识别照片并进行人物、风景等分类的功能,因为算力不够会选择在夜间不用手机的时候上传到云端,然后处理分类,现在加入了 AI 芯片,照片分类即时进行就成为了可能。

  二是数据相对安全。在手机终端就能进行计算,无需上传到云端,就避免了数据泄露的风险。就像你把文件存在U盘里是一个道理。

  三是让手机更智能,这也是叫做“AI”芯片的原因。比如,手机摄影可以根据场景智能切换拍摄模式,手机会自动识别场景并自动提示最佳的拍摄角度和地点。另外,手机可以根据你的某一件行为比如看电影,为你作出餐饮、交通、天气等各方面的建议。

  四是构建 AI 应用开发平台的基础。AI 芯片的应用肯定不只是拍照那么简单,实际上,AI 芯片的推出只是整个手机 AI 化的第一步,搭建基于 AI 芯片的 AI 应用开发平台,让更多的人参与到手机 AI 应用的开发中来,形成手机 AI 应用生态才是 AI 芯片研发的进一步方向。也就是以后用到的每一款 App 都会添加 AI 模块。比如你拍一张照片,然后进行商品识别,可以直接跳转到 App 当中甚至直接在线购买。

  现在的 AI 芯片可以分为两类,一类是既面向训练又面向推断(Inference)的,虽然 GPU 甚至 CPU 都可以,但是专用芯片在能耗比上有优势;另一类是 Inference Accelerator 推断加速芯片,简单说就是把训练好的模型放在芯片上跑,这块目前是百花齐放,比如寒武纪 NPU、Intel Movidius、深鉴的 DPU、地平线 BPU 等等,这类既有产品又提供 IP 授权,让其他开发者将深度学习加速器集成到 SoC(System on Chip,片上系统)内。

  国际上,英伟达、谷歌、高通等巨头针对 AI 专用芯片越来越被需要的趋势相继推出新芯片产品,卖给谷歌、亚马逊、微软等行业巨头,带来股价的飞涨。

  谷歌等公司也为自己的机器学习应用而研发设计芯片,2016 年 3 月打败了李世石和 2017 年 5 月打败了柯洁的阿尔法狗用的就是谷歌算力可达 180 万亿次每秒、功耗只有 200w 的 TPU 系列芯片。

寒武纪科技:中国“芯”希望?-风君雪科技博客

  而在国内不仅阿里、百度与华为等大公司纷纷布局这一领域,一些创业公司更是把业务直接聚焦在了 AI 芯片上,寒武纪科技就是一个典型,2016 年甫一成立就发布了世界首款商用深度学习专用处理器寒武纪 1A(Cambricon-1A)。

  之后,AI 芯片应用领域的竞争加剧。2017 年华为和苹果都发布了终端芯片。9 月华为抢先在德国柏林消费电子展上发布了搭载寒武纪科技 NPU 的麒麟 970 芯片,并在 10 月推出处理器为麒麟 970 的 Mate 10 系列新品。除了手机芯片外,2018 年 10 月华为还发布了昇腾 910(max)和昇腾 310(mini)两颗 AI 芯片,昇腾 910 主打云场景的超高算力,预计将于今年第二季度量产,昇腾 310 主打终端低功耗 AI 场景,去年已经量产。

  苹果先是发布了 iPhone X 系列手机内置的 A11 芯片,每秒可处理相应神经网络 6000 亿次的计算需求,之后随着手机产品的进化芯片也变为 A12。

  2018 年 7 月,百度云端的昆仑芯片发布,之后阿里平头哥公司成立,也将推出首款 AI 芯片。小米生态链公司华米科技推出了号称全球首款支持 AI 的可穿戴设备芯片组。甚至连传统制造业的格力也要造芯片,董明珠称:即便是花 500 亿也在所不惜,2019 年开始,所有的格力产品都要用上格力自己研发的芯片。

  国内公司纷纷入局,国外公司同样人声鼎沸。2018 年 11 月,三星发布了旗舰处理器 Exynos 9820 处理器晶片组,年底量产,并用于 2019 年年初 Galaxy S10 系列旗舰机之上。这套产品的最大卖点是有了独立的神经网络处理单元(NPU),能把产品的 AI 运算速度提升到原来的 7 倍左右。

  亚马逊于 2018 年 12 月发布了首款云端 AI 芯片 Inferentia 并将于 2019 年下半年推出,用于 EC2、SageMaker、Elastic Inference 等的云服务。几乎同时,安卓阵营带头大哥高通一鸣惊人,拿出了比华为 980 和苹果 A12 还强 2 倍的杀手锏:骁龙 855 搭载最新一代 AIE 引擎之后,性能提升了 3 倍。

  造电动车的特斯拉也来凑热闹,宣称定制的 AI 芯片会在 2019 年年中安装到新车当中,内置了这款芯片的特斯拉自动驾驶性能可提升 5 到 20 倍。

  “传统”时代的跑马圈地尚在进行中,5G 时代又轰轰烈烈地到来了。新时代产生新机会,竞争格局或有改变。据报道,全球 6 家头部厂商中除了苹果都在努力抢占 5G 手机的先发优势。

寒武纪科技:中国“芯”希望?-风君雪科技博客

  在高通 2018 骁龙峰会上,三星演示了将在 2019 年上半年推出的首款 5G 智能手机。不到 24 小时之后,AT&T又宣布将在下半年推出三星第二款 5G 手机。几乎同步,2018 年 12 月 6 日,中国移动合作伙伴大会上,小米首次展出了旗下首款搭载高通骁龙 855 及 X50 5G 调制解调器的 5G 手机小米 MIX 3 5G 版,下载速度最高可达 2Gbps。

  华为也在今年年初推出了 5G 芯片并于 6 月推出基于这款芯片的手机产品。

  除了手机,AI 芯片的另一重要应用场景自动驾驶也在不断发展,百度、谷歌等自动驾驶技术和产品的推进反推芯片行业的快速发展。

  据报道,中国希望芯片产业大部分需求靠国内供应,预期本土芯片产业的收入从 2016 年的 650 亿美元增长到 2030 年的 3050 亿美元。而随着物联网的迅猛发展,未来会有成百上千亿的设备连接网络,生成一个基于 AI 芯片的互联互通的世界。

  但随着摩尔定律的失效,新的芯片技术的发展,无论是产业层面的竞争,还是个体能力的比拼,领先者总会碰到天花板,这就给后来者留下了超越的机会。

  新秀寒武纪

  寒武纪科技刚刚成立两年多,是源自中科院计算所的专注于 AI 芯片研发应用的创业公司。取名“寒武纪”,以地球自然史上短时间内出现的“生命大爆发”意喻人工智能即将迎来的大爆发。

  寒武纪科技分别于 2017 年 8 月和 2018 年 6 月完成A、B两轮融资,B轮融资后整体估值 25 亿美金,折合 120 多亿人民币,是智能芯片领域发展势头强劲的独角兽公司。

  目前公司产品主要分为两条线,一条是面向嵌入式终端提供 IP 授权,这些芯片通过提供强大的推理能力赋予终端设备 AI 处理能力;另一条是面向云端服务器提供芯片和加速卡,在面向深度学习、机器学习的专用处理器上,在云端或者在数据中心大规模的学习中提供推理+训练的能力,使得端移一体的架构能为人工智能提供强大的助力。

  简单来说就是,寒武纪选取了机器学习范围内最通用的方向,所有机器学习的训练和应用都做,寒武纪的芯片在机器学习领域通用性强,类似一个厉害的适合神经网络的 CPU。

  其技术的主要应用领域包括三个方面:一是机器视觉,包括对人脸、行人、车辆和建筑物等目标进行实时追踪、识别和属性分析,进行文字检测和识别、物体检测和识别和视觉寻路;二是对语音进行识别处理,主要应用在智能手机、机器翻译等上,包括语音识别、声纹识别、多麦克风阵列等;三是自然语言,主要应用于聊天机器人、智能客服的词句嵌入、语义建模等。

寒武纪科技:中国“芯”希望?-风君雪科技博客

  寒武纪科技的创始人是陈云霁、陈天石兄弟俩,二人都来自科大少年班。寒武纪科技 CEO 陈云霁教授现在是中科院计算所智能处理器研究中心主任,弟弟陈天石博士现在是中科院最年轻的正教授、博导。

  有“天才少年”之称的陈云霁 2015 年入选《麻省理工科技评论》35 岁以下的全球最佳 35 名创新人士,他 9 岁开始上中学,14 岁进入科大少年班,毕业后一直在研发芯片,陈天石则一直做算法,芯片+算法正好诞生了“寒武纪”。

  陈氏兄弟是江西南昌人,父亲是电力工程师,母亲是历史老师,家庭环境让兄弟二人“文理兼备”。陈云霁兴趣有二,看书和打游戏,从书中学习知识开阔视野,从游戏中获得芯片的灵感。

  在大学最后一年,陈云霁听说中科院计算所在研制中国第一块通用 CPU 芯片龙芯 1 号,他觉得这个机会光荣又难得,于是申请并如愿以偿,于 2002 年来到计算所,师从胡伟武研究员,成为当时龙芯研发团队中最年轻的成员。

  博士毕业后,陈云霁留在计算所工作,25 岁时就已经是 8 核龙芯 3 号的主架构师。

  虽然 2016 年才成立,但是从 2008 年开始,寒武纪主创团队就在进行人工智能架构方面的交叉研究,这 8 年时间团队一直在努力将领先的学术成果转化为真正的产品,落地应用于各个行业。团队于 2013 年发布了国际首个深度学习处理器架构,2014 年发布了国际首个多核深度学习处理器架构,2015 年对机器学习的算法进行了深度研究,发布了国际首个通用机器学习处理器架构,以及超低功耗智能识别加速器。

  陈云霁认为,人的大脑是已知世界中最智能的物体,如果能把大脑中的神经元和突触数字化抽象出来,这种网络某种程度上就继承了人脑对信息的处理能力。而制造出具备人类智能的机器大脑能把人类从繁琐的体力劳动和简单的脑力劳动中解放出来,聚焦到创造性活动中。

  通用处理器功耗高、效率低不能支撑人工智能更快速地发展。陈云霁在 2017 年 8 月底中科院举办的“探索者”创新大会上说:公司(寒武纪)未来想实现的是让 AI 芯片计算效率提高一万倍,功耗降低一万倍。

  寒武纪团队成员平均年龄 25 岁,但他们中大多数都已是芯片设计开发领域的“老司机”了,很多骨干成员在校期间就已经开始从事相关领域的工作。

  寒武纪的 AI 芯片通过模拟神经元和突触的计算,对信息进行智能处理,还通过设计专门存储结构和指令集,每秒可以处理 160 亿个神经元和超过 2 万亿个突触,功耗却只有原来的十分之一。

  据咨询公司 Tractica 的预测数据,到 2025 年,与人工智能相关的深度学习芯片组市场收入,将从如今的 5 亿美元飙升至 122 亿美元的规模,复合年均增长率超过 40%。

寒武纪科技:中国“芯”希望?-风君雪科技博客

  寒武纪的主营产品一种是智能处理器 IP 产品,包括第一款深度学习处理器 1A,具备更高性能、更完备的深度学习处理器 1H16,计算机视觉领域专用的 1H8 处理器和面向智能驾驶的 1M 处理器等。

  深度学习处理器 1A 是一款云端高性能智能处理器,支持服务器端的推理和训练需求,尤其是侧重推理,相对于四核的通用 CPU 来说,寒武纪 1A 具有 25 倍以上的性能和 50 倍以上的能效,人工智能实测性能远超苹果 A11 处理器,搭载寒武纪 1A 的麒麟 970 每分钟能够识别 2005 张照片,而苹果 A11 每分钟识别 889 张照片。

  1H8 适合运算深度学习任务,稠密计算峰值是 512GMAC@INT8,端到端地支持物体检测和识别模型;1M 支持可扩展的 1K、2K、4K 性能,用户还可以通过多核互联进一步提高处理效能;峰值性能能达到 2T、4T、8T 以满足不同场景下不同量级智能处理的需求。

  这款芯片支持帮助终端设备进行本地训练,可为视觉、语音、自然语言处理等任务提供高效计算平台,能够有效保护数据隐私、显著降低云端负载。“这意味着使用 1M 设备可以根据用户行为对应用进行个性化定制”,陈天石表示。该产品可应用于智能手机、智能音箱、摄像头、自动驾驶等不同领域。

  对于 AI 芯片公司来说,无论是架构创新还是构建产业生态,终究要走向落地。但是,神经网络芯片要走出实验室,进入市场应用并不容易。神经网络处理器是新兴领域,没有通用 CPU 那样的历史积累。

  寒武纪在深度神经网络处理器领域做得是最早的,商业化终端产品主要应用在手机、智能眼镜、手环等产品上,比如,2017 年 9 月 2 日华为重磅发布的全球首款麒麟 970 移动计算平台,其背后的 AI 芯片就搭载了寒武纪的嵌入式 IP,而麒麟 970 整合 NPU(神经处理单元)的构想早在 2012 年就已经开始酝酿。

  由于 IP 授权利润空间有限,寒武纪通过进军云端市场把旗下芯片的应用范围由神经网络(Neural network)扩展到机器学习(Machine Learning)的加速任务上。早在 2014 年,寒武纪主创团队就开始这两颗测试芯片的研发,“我们时刻准备着将自己的产品放入云端”,陈天石表示。另一种是面向云端的高性能智能芯片 MLU,包括两款:一款是 MLU100 智能处理卡,是寒武纪推出的第一款通用智能处理器,侧重推理;另一款是 MLU200 智能处理器,支持训练和推理,侧重训练,预计 2019 年 6 月上市。

  为了与之前的神经网络处理器(NPU)区分,寒武纪科技特意将云端芯片命名为机器学习处理器(MLU),意在强调其云端处理器不再局限于深度学习加速,而是扩展到整个机器学习加速,同时搭建一整套生态。 

寒武纪科技:中国“芯”希望?-风君雪科技博客
寒武纪 MLU100 智能处理卡

  MLU100 采用寒武纪最新的 MLUv01 架构和 TSMC 16nm 工艺,可工作在平衡模式(主频 1Ghz)和高性能模式(1.3GHz)主频下,等效理论峰值速度则分别可以达到 128 万亿次定点运算/166.4 万亿次定点运算,而其功耗为 80w/110w。

  与寒武纪系列终端处理器相同,MLU100 云端芯片也具有很高的通用性,可支持各类深度学习和常用机器学习算法。可满足计算机视觉、语音、自然语言处理和数据挖掘等多种云处理任务。搭载这款芯片的板卡使用了 PCIe 接口。

  寒武纪云端产品主要服务于科大讯飞、曙光这样的公司。

  基于寒武纪芯片的部分应用方案包括:联想推出的基于 MLU100 服务器 ThinkSystem SR650,该产品为 2U2 路机架式规格,支持两个 MLU100 智能处理器计算卡,打破了 37 项服务器基准测试的世界纪录。

  中科曙光推出了基于 MLU100 服务器产品系列 PHANERON,这款服务器可支持2-10 块寒武纪 MLU 处理卡,面向多种智能应用任务,其中 PHANERON-10 集成了 10 块寒武纪人工智能处理单元,可以为人工智能训练应用提供 832T 半精度浮点运算能力,在推理时提供 1.66P 整数运算能力,基于寒武纪芯片技术产品的新一代服务器可以为中科曙光用户在典型场景下将能效提升 30 倍以上。

  在提供硬件产品的同时,寒武纪还提供了一套通用性很强的软件平台,平台上层支持目前的主流软件类似 Caffe、Caffe2 等,算法人员可以以较低开销来迁移自己的算法,甚至可以做到无缝切换。

  陈天石表示,寒武纪科技创立的初衷就是要扩展智能处理器的使用范围。寒武纪旗下的终端和云端产品均原生支持寒武纪 NeuWare 软件工具链,可以方便用户进行智能应用的开发、迁移和调优。

  新秀“芯”未来?

  2019 年,AI 市场竞争会异常激烈。一方面,2019 年 AI 可能会被作为大国之间技术博弈的一个重要手段,特别是在中美两个 AI 超级大国之间;另一方面,中国 AI 迅速发展,相较欧美已经在多个领域具备独特优势,2019 年会加速通过 AI 技术弯道超车的比赛。

寒武纪科技:中国“芯”希望?-风君雪科技博客

  寒武纪、华为等中国公司、企业加快布局 AI 芯片领域,减少对国外芯片的依赖,Google、Facebook 等巨头想在中国 AI 业务商用上瓜分一块蛋糕,这让中国在 AI 技术上的话语权不断加大。

  同时,2019 年资本寒冬的到来可能会让一些没有真正技术突破性和商业落地能力的公司,拿不出被认可的成绩单,在融资周期拉长的情况下,控制不好现金流的 AI 芯片公司将会倒下。

  芯片行业具有资本和人才密集且周期长的特点,对于已经有一定规模的芯片公司,在已有的体系里引入 AI 芯片是正确的选择,因为他们更容易看到客户的需求,AI 芯片也更容易落地。

  而一些初创公司,在芯片本身周期长,加上 AI 芯片软硬结合成本较高,如果不能持续融资,就很容易倒下。

  AI 芯片初创公司中,擅长算法的公司因为融资能力很强,有足够的现金储备,加上有自己的应用场景,相对安全一些。而单纯提供 AI 芯片硬件的公司风险会更大,如果控制不好现金流就有很大概率会倒下。

  能否获得资本市场是否青睐无非两点:现在的盈利能力以及未来的盈利能力。2019 年,AI 芯片公司的一大挑战是如何在保持自己核心技术领先性、持续迭代产品的同时,证明自己具有将技术优势转化为成功的商业模式的能力。

  而实现规模商用的核心点在于找到满足客户需求的差异化优势。AI 芯片只有在落地场景中才能体现价值,对于 AI 芯片公司,一方面要充分发挥和培养自己的核心技术优势,不断打磨和迭代自己的产品;另一方面要深入挖掘和理解场景需求,以开放的心态推动产业合作,推动 AI 芯片在场景中的落地。

  技术方面,AI 芯片最受关注的就是算力的提升,由于 AI 芯片更加强调软硬一体的结合,因此提升算力非常关键。

  场景应用方面,以竞争激烈的手机行业为例,2018 年手机芯片巨头们的 SoC 包括苹果 A12、海思麒麟 980、三星 Exynos9820、高通骁龙 855、联发科 Helio P90 等,2019 年手机 AI 的竞争会从硬件走向应用的探索。

  随着软硬结合进一步发展,芯片架构革命的机会之一在于领域专有架构(Domain Specific Architectures),2019 年会有更多的领域专有架构和领域专有语言(Domain Specific Languages)的协同设计。

  寒武纪期望以架构设计者及生态主导者的双重身份,带动中国 AI 产业的发展。

  虽然寒武纪在过去数年中国 AI 产业猛爆成长的过程中扮演了相当重要的角色,证明了自己的技术实力,但目前看,光有技术还不够,寒武纪的产业地位及其未来发展更重要的是要看其市场打开和落地能力。

  首先,寒武纪在终端客户开拓上还不够,在市场上出货的终端客户只有华为,而华为也要转用自家的昇腾方案,彻底摆脱寒武纪。虽然寒武纪官方表示已经有不少客户正在考虑或已经引入其架构,但目前还没看到更多实际进展。

  其次,寒武纪也推出了云端方案,不仅是 IP,也要推出实体计算卡,这个作法等同于在告诉市场,要用寒武纪的 IP 来制造芯片,可能第一个遭遇的对手就是寒武纪。目前,云端除了中科曙光的合作以外,也没有其他新增客户信息。

寒武纪科技:中国“芯”希望?-风君雪科技博客

  而华为也在积极推动自己的 AI 计算布局,昇腾方案便是完全自制的 AI 计算架构,不只针对云计算,也要扩及所有终端 AI,这与寒武纪面对的是同一个市场。

  在服务器 AI 计算方案方面,华为也是不仅推出芯片方案,还积极推动生态经营,与寒武纪如出一辙,所以未来寒武纪或寒武纪推出的客户方案,在中国市场上的最大对手会是华为。

  寒武纪的尴尬在于,目前主流框架都是他人的现成成果,在 Google、微软和 Facebook 等的推动之下,支持多种框架的加速已经是所有可编程 AI 芯片/计算架构的必备功能,开放是 AI 芯片的卖点,而算法的发展则是各家 AI 芯片为了确保自家产品竞争优势的重要方向。但寒武纪专注于发展 AI 的通用计算硬件平台,在算法方面没有太多着墨。

  除了华为以外,目前在中国 AI 产业中能看到包含 DSP、GPU、FPGA 的各种方案以及各种为视觉识别、语音识别等特化的 ASIC 计算架构。

  对应用企业而言,能够实现商业目标才是重点,采用的架构来源并不重要。而考虑到既有架构应用的便捷,没有必要徒增更多人力与技术研发支出去更换效果未必更好的架构。

  所以,如何在拥挤的市场中凸显自己的定位是寒武纪目前遭遇的难题,芯片架构已经不是主角,在芯片中运行的算法与框架,甚至是整套开发工具才是重点。如果没有办法说服既有市场玩家自己的开发体系更具优势,那么想要改变现有的 AI 计算生态如何实现?

  寒武纪作为新创事业,仅仅两三年的发展就要求其有庞大的客户基础是强人所难。但寒武纪的技术概念虽好,却没有足够稳定可靠的获利模式,并借以形成生态。

  中国市场对寒武纪抱以殷切期盼,希望能为中国 AI 产业带来不同的空气,但如今不同的外来计算架构早就称霸一方,即便单单在中国市场,AI 方案的选择也是多如牛毛,加上过去的客户华为转身一变成为最大敌手,寒武纪想在这么险恶的市场杀出一条生路,前景不容乐观。

  幸而,寒武纪已经考虑到其 IP 授权模式的局限,并向计算领域迈出了一步,而且提供了通用性较好的软件平台。只是,在调整商业策略之后,如何争取更多大客户,创造好的营收和提升在市场中的可见度还是一个难题。