原文标题:《巨头 ChatGPT 大战陷败局,竟因嫌 GPU 太贵!Meta 用 CPU 跑 AI,点错科技树》

小扎 All In 元宇宙两年后,忽然发现全世界都在搞生成式 AI。这可尴尬了,自家公司还在用 CPU 做 AI 推理呢……

ChatGPT 大战,Meta 为何迟迟没有动作?

就在今天,路透社记者挖出了一个大瓜,原因让人瞠目结舌 ——

相比谷歌、微软等大厂,Meta 跑 AI 时,用的竟然是 CPU!

很难想象,在深度学习几乎占机器学习半壁江山的时代,一个科技巨头竟然能用 CPU 坚持这么久。

虽然他们也曾尝试过自研 AI 芯片,但最终遭遇滑铁卢。

现在,ChatGPT 引爆的生成式 AI 大战打得昏天黑地,这就更加剧了 Meta 的产能紧缩。

用 CPU 训练 AI,Meta 怎么想的?

Meta 迟迟不肯接受用 GPU 的原因,令人匪夷所思。

GPU 芯片非常适合 AI 处理,因为它们可以同时执行大量任务,从而减少处理数十亿条数据所需的时间。

然而,GPU 也比其他芯片更昂贵,英伟达控制着 80% 的市场份额,并在配套软件上,也保持着绝对的领先地位。

直到去年,Meta 在处理 AI 工作负载时,主要使用的还是 CPU。CPU 是计算机的主力芯片,几十年来数据中心用的也是 CPU,但它在 AI 工作上表现并不佳。

据悉,Meta 还曾自研芯片,在内部设计的定制芯片上进行推理。

但在 2021 年,Meta 还是失望地发现,比起 GPU,这种双管齐下的方法速度更慢、效率更低。而且 GPU 在运行不同类型的模型上,远比 Meta 的芯片更灵活。

而且,小扎决定 All In 元宇宙这一举措,也直接榨干了 Meta 的算力。不管是 AI 的部署,还是威胁的应对上,都遭到了极大的削弱。

因嫌 GPU 太贵,巨头 ChatGPT 大战陷败局,Meta 用 CPU 跑 AI,点错科技树-风君雪科技博客

这些失误,引起了前 Meta 董事会成员 Peter Thiel 的注意,随后,他于 2022 年初辞职。

据内部人士透露,在离开前的一次董事会会议上,Thiel 告诉小扎和高管们,他们对 Meta 的社交媒体业务太自满,并且过分关注元宇宙了,这让公司很容易被 TikTok 的挑战所撼动。

Meta 粗大事了

在去年夏天快要结束的时候,小扎曾召集了高级副手们,花了五个小时,对 Meta 的计算能力进行分析。

他们需要知道,在开发尖端的 AI 方面,Meta 有多大的能力?

出来的结果,让所有人倒吸一口凉气。

根据 9 月 20 日的公司备忘录显示,尽管 Meta 对 AI 研究进行了大笔高调的投资,然而主要业务需要的 AI 友好型硬件和软件系统都非常昂贵,在这些方面公司的进展相当缓慢。

缓慢到,已经阻碍了 Meta 跟上大规模创新的步伐。

这可是个棘手的大麻烦,要知道,Meta 的增长,越来越依赖 AI。

基础设施负责人 Santosh Janardhan 强调,无论是开发 AI 的工具,还是工作流程,Meta 都已经远远落后于其他对手。

「Meta 需要从根本上改变物理基础设施设计、软件系统和提供稳定平台的方法。」

一年多来,Meta 一直在搞的大项目,就是希望完善 AI 基础设施。但经历过产能紧缩、领导层变动和废弃的 AI 芯片项目后,Meta 的改革似乎不尽如人意。

所以,Meta 彻底放弃 AI 芯片了?

对于外媒的这个提问,Meta 发言人 Jon Carvill 表示,公司「在大规模创建和部署最先进的基础设施方面有着良好的记录,并有着人工智能研究和工程方面的深厚专业知识。」

「随着我们为应用程序和消费产品系列带来新的 AI 体验,我们有信心继续扩展基础设施的能力,以满足我们的近期和长期需求。」

总之,没有正面回答。

但这次改革,已经耗费了大量的人力物力。

据悉,改革使 Meta 每季度的资本支出增加了约 40 亿美元,几乎是 2021 年支出的两倍。而且 Meta 此前建设 4 个数据中心的计划,也因此暂停或取消。

因嫌 GPU 太贵,巨头 ChatGPT 大战陷败局,Meta 用 CPU 跑 AI,点错科技树-风君雪科技博客

Meta 的资本支出大增

而这些大笔支出,跟 Meta 严重的财务紧缩期又恰恰重合。

去年 11 月以来,硅谷的互联网泡沫开始破灭,Meta 一直在大规模裁员。

OpenAI 的 ChatGPT 在 11 月 30 日亮相后,立马引爆了科技巨头之间的军备竞赛。

此后的生成式 AI 大战,吞噬了大量的算力,这更逼得 Meta 加紧改革。

极力追赶

据悉,Meta 在现实面前,不得不选择低头。

高管们取消了在 2022 年大规模推出自研芯片的计划,转头订购了价值数十亿美元的英伟达 GPU。

因嫌 GPU 太贵,巨头 ChatGPT 大战陷败局,Meta 用 CPU 跑 AI,点错科技树-风君雪科技博客

但此时,已经为时已晚。

Meta 已经落后于谷歌等同行一大截,谷歌早在 2015 年就开始部署自己定制的 GPU——TPU。

在 2022 年春天,高管们也同时开始着手重组 Meta 的 AI 部门。

这期间发生了长达数月的动荡,十几位高管离开了。AI 基础设施领导层,整个经历了一次大换血。

因嫌 GPU 太贵,巨头 ChatGPT 大战陷败局,Meta 用 CPU 跑 AI,点错科技树-风君雪科技博客

接下来,Meta 的工作也很棘手。

他们得费老大劲重组数据中心,来适应新的 GPU,因为 GPU 比 CPU 的功耗和产热都更多,还必须用专用网络把它们聚在一起。

因嫌 GPU 太贵,巨头 ChatGPT 大战陷败局,Meta 用 CPU 跑 AI,点错科技树-风君雪科技博客

为了管理集群的热量,这些设施需要 24 到 32 倍的网络容量和新的液冷系统,因此需要从头设计。

即便如此,Meta 似乎也并没有放弃自研芯片的路线。

据悉,新的内部芯片会和 GPU 一样,能够训练 AI 模型并执行推理,将于 2025 年左右完成。

悬崖勒马,回头是岸

此前,微软有 ChatGPT,谷歌紧忙拉 Bard 出来对打,Meta 却似乎并不急于下场生成式 AI 竞赛,推出的 LLaMA 也并不用作商用。

Meta CFO Susan Li 在 2 月承认,Meta 并没有将大部分计算资源投入到生成式 AI 中,而是基本上将所有的 AI 能力都用于广告、feeds 和 Reels(类似于 TikTok 的短视频)。

此前,同谷歌一样,Meta 并不重视生成式 AI。Meta 的 FAIR 实验室从 21 年底以来,就在发布这种 AI 技术的原型,研究成果也备受推崇,但 Meta 从未考虑过将其转化为产品。

因嫌 GPU 太贵,巨头 ChatGPT 大战陷败局,Meta 用 CPU 跑 AI,点错科技树-风君雪科技博客

去年 11 月中旬,Meta 的 FAIR 实验室曾提出 Galactica 模型

然而 ChatGPT 诞生后,一切都不一样了。投资者的兴趣开始飙升,小扎在今年二月官宣了全新的顶级团队,押宝生成式 AI。

据悉,工作的重点是建成一个基础模型,在这个核心的基础上,可以针对不同产品进行微调和调整。

因嫌 GPU 太贵,巨头 ChatGPT 大战陷败局,Meta 用 CPU 跑 AI,点错科技树-风君雪科技博客

All In AIGC?网友:改名 MetAI 吧

18 个月前,小扎把 Facebook 的未来押在了元宇宙上,甚至还把公司的名字改成了 Meta。最近,他又迷上了另一个非常烧钱的技术 ——AIGC。

本月早些时候,Meta 首席技术官 Andrew Bosworth 表示,扎克伯格和其他高管现在把大部分时间都花在了人工智能上。

因嫌 GPU 太贵,巨头 ChatGPT 大战陷败局,Meta 用 CPU 跑 AI,点错科技树-风君雪科技博客

对此,Bernstein 的分析师表示,照这个架势下去,Meta 很可能要改名叫 ——MetAI 了。

不过,想要追上 OpenAI、微软和谷歌的步伐,Meta 就必须为训练这些超大规模的生成式 AI 模型,大肆采购英伟达的芯片(单个组件 1 万美金起跳)。

目前,耗时 5 个月训练出的「Meta 版 ChatGPT」LLaMa,用的是 2048 个 80GB 显存的 A100。

作为对比,微软为 OpenAI 量身定做的超算,搭载的可是上万块 A100。

因嫌 GPU 太贵,巨头 ChatGPT 大战陷败局,Meta 用 CPU 跑 AI,点错科技树-风君雪科技博客

而 ChatGPT 和 Bard「决一死战」的背后,正是英伟达 CUDA 支持的 GPU(图形处理单元)和谷歌定制的 TPU(张量处理单元)。

换句话说,这已经不再是关于 ChatGPT 与 Bard 的对抗,而是 TPU 与 GPU 之间的对决,以及它们如何有效地进行矩阵乘法。

因嫌 GPU 太贵,巨头 ChatGPT 大战陷败局,Meta 用 CPU 跑 AI,点错科技树-风君雪科技博客

由于在硬件架构方面的出色设计,英伟达的 GPU 非常适合矩阵乘法任务 —— 能有效地在多个 CUDA 核心之间实现并行处理。

因此从 2012 年开始,在 GPU 上训练模型便成为了深度学习领域的共识,至今都未曾改变。

而随着 NVIDIA DGX 的推出,英伟达能够为几乎所有的 AI 任务提供一站式硬件和软件解决方案,这是竞争对手由于缺乏知识产权而无法提供的。

相比之下,谷歌则在 2016 年推出了第一代张量处理单元(TPU),其中不仅包含了专门为张量计算优化的定制 ASIC(专用集成电路),并且还针对自家的 TensorFlow 框架进行了优化。

而这也让 TPU 在矩阵乘法之外的其他 AI 计算任务中具有优势,甚至还可以加速微调和推理任务。

因嫌 GPU 太贵,巨头 ChatGPT 大战陷败局,Meta 用 CPU 跑 AI,点错科技树-风君雪科技博客

不过,微软与英伟达长久以来的深度合作,让各自在行业上的积累得到充分地利用,并以此同时扩大了双方的竞争优势。

尤其是当 ChatGPT 开始横扫整个 AI 圈时,两家公司的市值也是一路狂飙。

而这波被 ChatGPT 带起来的大模型炼丹潮,更是让「炼丹炉」供应商英伟达赚得盆满钵满。仅在今年的这几个月里,市值就增长了超过 80%。

因嫌 GPU 太贵,巨头 ChatGPT 大战陷败局,Meta 用 CPU 跑 AI,点错科技树-风君雪科技博客

裁员硅谷第二,野心如何支撑

然而,Meta 现在好像并没有足够的资金来支撑自己的野心。

众所周知,这段时间裁员潮继续席卷了整个科技行业,但有些公司裁得比别人更多。

在比例上,裁掉 80% 员工的推特毫无疑问地占据了第一的位置,而送走近四分之一员工的 Meta 紧随其后。

在数量上,Meta 也凭借着高达 2.1 万人的巨大优势位列第二,但这并没包括即将进行第三轮裁员。

因嫌 GPU 太贵,巨头 ChatGPT 大战陷败局,Meta 用 CPU 跑 AI,点错科技树-风君雪科技博客

2022 年,在小扎宣布大裁员之前,Meta 有差不多 87,000 名员工。但在 11 月时毕业了 11,000 人,3 月又毕业了 10,000 人。

据 Insider 报道,Meta 的第三轮裁员会直接影响数千人,而管理层职位更是首当其冲。包括但不限于,现实实验室、Facebook 和 Instagram 的技术产品经理,以及人工智能研究科学家、软件工程师、数据工程师等。

因嫌 GPU 太贵,巨头 ChatGPT 大战陷败局,Meta 用 CPU 跑 AI,点错科技树-风君雪科技博客

最新的一项分析显示,从 2018 年到 2022 年,Meta 的员工队伍膨胀了 143%,但每个员工的收入在这段时间内下降了 14%。

因嫌 GPU 太贵,巨头 ChatGPT 大战陷败局,Meta 用 CPU 跑 AI,点错科技树-风君雪科技博客

高管变动、员工流失、资金不足、路线选错,Meta 前方的路,似乎困难重重。

让我们看看小扎接下来会怎么走。

参考资料:

  • https://www.reuters.com/technology/inside-metas-scramble-catch-up-ai-2023-04-25/

本文来自微信公众号:新智元 (ID:AI_era)