【导读】Meta 面临着一个棘手问题:尽管对 AI 研究斥巨资,但产品转化进展缓慢,直到 ChatGPT 火了之后才开始注重。Meta 之前对生成式 AI 需要的 GPU 这种更贵的芯片部署不够,而是靠 CPU。当发现不可行之后,Meta 转而采购数十亿美元的英伟达 GPU,但这时候已经被微软和谷歌等巨头甩开。目前,Meta 计划开发一款新型芯片,能像 GPU 一样训练 AI 模型并执行推理,计划在 2025 年左右完成。此外,相关负责人还表示,Meta 在 AI 开发的工具和流程方面都明显需要改进。
Meta 的内部邮件显示,2022 年夏季末,Meta 首席执行官马克・扎克伯格(Mark Zuckerberg)曾召集他的主要助手,对 Meta 的计算能力进行了 5 个小时的分析讨论,重点是 Meta 开展先进人工智能(AI)工作的能力。
根据内部邮件、公司公告,以及相关知情人士的透露,Meta 面临着一个棘手的问题:尽管在 AI 研究方面进行了大规模投资,但关于如何在主营业务中引入对 AI 友好的软硬件系统,Meta 进展缓慢。在 Meta 越来越依赖 AI 去支撑进一步增长的情况下,这影响了该公司推动全面创新的节奏。
这封来自 Meta 新任基础设施负责人桑托什・贾纳尔汉(Santosh Janardhan)的邮件显示:“在针对 AI 的开发方面,我们在工具、工作流和流程方面明显落后,需要在这方面进行大笔投资。”这封邮件于 9 月份发布在 Meta 的内网,近期首次被曝光。
邮件中还表示,支撑 AI 工作需要 Meta“从根本上改变硬件基础设施设计、软件系统,以及提供稳定平台的方法”。
在一年多时间里,Meta 正在开展一个庞大的项目,补足其 AI 基础设施的短板。尽管 Meta 公开承认在 AI 的硬件发展上有些落后,但这方面的细节,包括算力压力、管理层更迭和一个被放弃的 AI 芯片项目,此前从未被报道过。
对于这封邮件和相关的重组举措,Meta 发言人乔恩・卡维尔(Jon Carvill)表示,“凭借在 AI 研究和工程开发方面深厚的专业知识,Meta 在构建和部署最先进的大规模基础设施方面已经得到了证明”。
他表示:“随着我们为应用和消费产品提供新的 AI 体验,我们很有信心能继续拓展基础设施能力,以满足短期和长期的需求。”
但对 Meta 放弃 AI 芯片项目的消息,他拒绝回应。
根据 Meta 披露的信息,此次重组导致该公司的资本支出每季度增加了约 40 亿美元,几乎比 2021 年翻一番,并导致 4 个地点数据中心的建设计划分别暂停或取消。
Meta 还正面临财务压力。自去年 11 月以来,Meta 启动了自千禧年代互联网破灭之后未曾有过的大规模裁员。
另一方面,微软支持的 OpenAI 于去年 11 月 30 日发布了 ChatGPT,这一 AI 聊天机器人迅速成为有史以来用户数增长最快的消费级应用,并引发了科技巨头之间的 AI 军备竞赛。大型科技公司纷纷推出自己的生成式 AI 产品。这种 AI 除了可以识别数据中的模式之外,还能根据输入信息以类似人工的方式生成文字和视觉内容。
多名消息人士称,生成式 AI 消耗了大量算力,导致 Meta 更加迫切地需要扩大计算基础设施。
1、曾对烧钱的项目投入不够
消息人士称,问题的一大关键在于 Meta 很迟才开始在 AI 工作中引入 GPU 芯片。GPU 非常适合 AI 计算,可以并行执行大量任务,大幅减少处理海量数据的耗时。当然,价格也更贵,市场份额的 80% 都在英伟达手里。
所以,Meta 很大程度上是靠 CPU 来承担 AI 计算任务。CPU 是计算机行业的主力芯片,在过去几十年中遍布全球的数据中心,但不太适合处理 AI 计算任务。
根据两名消息人士的说法,Meta 还使用自主设计的订制芯片来进行 AI 推理。然而到 2021 年,事实证明,采用 CPU 和订制芯片在 AI 领域比 GPU 速度更慢、效率更低。此外,与 Meta 采用的芯片相比,GPU 在运行不同类型的 AI 模型时也更具灵活性。
Meta 拒绝对其 AI 芯片的性能置评。
消息人士表示,随着扎克伯格推动 Meta 转向元宇宙,算力压力影响了 Meta 部署 AI 以应对竞争威胁的能力,例如社交媒体对手 TikTok 的崛起,以及苹果主导的广告隐私政策调整。
这些挫折也引起了 Meta 前董事会成员彼得・蒂尔(Peter Thiel)的注意。他于 2022 年初从 Meta 董事会辞职,但没有做出任何解释。
知情人士称,在他辞职前的一次董事会会议上,蒂尔对 Meta 高管们表示,他们对 Meta 的核心社交媒体业务太自满,而且对元宇宙太走火入魔。
2、转而选择 GPU,但已落后
一名消息人士称,2022 年,在取消了订制推理芯片的大规模部署计划后,Meta 高管们转而开始采购价值数十亿美元的英伟达 GPU。到这时,Meta 已经明显落后于谷歌等竞争对手。谷歌早在 2015 年就开始部署订制版本的 GPU,即 TPU。
2022 年春季,Meta 高管还着手重组 Meta 的 AI 部门,任命了两名新的工程负责人,包括 9 月份邮件的作者贾纳尔汉。根据领英平台上的资料以及知情人士的说法,在长达数月的动荡期内,十几名管理者从 Meta 离职。MetaAI 基础设施的管理团队几乎被彻底更换。
接下来,Meta 开始重新规划数据中心基础设施,以适应即将部署的 GPU 芯片。相比于 CPU,GPU 的耗电量和发热量都更大,并且需要通过专门设计的网络连接大量芯片,形成集群。
根据贾纳尔汉的邮件以及消息人士提供的信息,这些设施需要 24 到 32 倍的网络容量,以及新的水冷系统来管理芯片集群的散热,因此相关设施需要“完全重新设计”。
随着工作的推进,Meta 制定了内部计划,着手开发一种新的自主芯片。这种芯片可以像 GPU 一样训练 AI 模型并执行推理,目前计划在 2025 年左右完成。
Meta 发言人卡维尔表示,一些数据中心建设项目目前处于暂停状态并将过渡到新设计,这些项目将于今年晚些时候重新启动。他拒绝就 Meta 内部的芯片项目置评。
3、产品落地进展缓慢
在扩大 GPU 算力的过程中,Meta 目前几乎没有任何新的产品技术可以展示。相比较之下,微软和谷歌等公司正在推动生成式 AI 产品的公开商用(必应聊天、Bard 等)。
今年 2 月,Meta 首席财务官 Susan Li 承认目前没有将太多算力投入到生成式 AI。她表示,“我们所有的 AI 能力基本上都给了广告、信息流和短视频 Reels”。
根据消息人士的说法,直到去年 11 月 ChatGPT 推出后,Meta 才开始重视生成式 AI 产品。他们表示,Facebook 的 AI 实验室 FAIR 虽然从 2021 年末就开始发布相关技术的原型,但并没有把研究转化为产品。
随着投资者兴趣的提升,情况正在改变。2 月,扎克伯格宣布成立一支顶级生成式 AI 团队,将“大幅推动”公司在该领域的工作。
Meta 首席技术官 Andrew Bosworth 本月也表示,生成式 AI 是目前他和扎克伯格花时间最多的领域,预计将在今年发布一款相关产品。
两名熟悉新团队的人士表示,该团队的工作处于早期阶段,重点是构建基础模型作为核心,未来可以针对不同产品需求进行调整。
Meta 发言人卡维尔表示,一年多来,Meta 的许多团队都在开发生成式 AI 产品。他证实,在 ChatGPT 到来后的几个月里,这方面工作已经提速。
最新评论