感谢网友 佳宜 的线索投递!

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

【新智元导读】刚刚,老黄又高调向全世界秀了一把:已经量产的 Blackwell,8 年内将把 1.8 万亿参数 GPT-4 的训练能耗狂砍到 1/350;英伟达惊人的产品迭代,直接原地冲破摩尔定律;Blackwell 的后三代路线图,也一口气被放出。

就在刚刚,老黄手持 Blackwell 向全世界展示的那一刻,全场的观众沸腾了。它,是迄今为止世界最大的芯片

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

▲ 眼前的这块产品,凝聚着数量惊人的技术

如果用老黄的话说,它就是「全世界迄今为止制造出来的最复杂、性能最高的计算机。」

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

▲ 8 年内,1.8 万亿参数 GPT-4 的训练能耗,直接疯狂降到 1/350;而推理能耗则直接降到 1/45000

英伟达产品的迭代速度,已经彻底无视摩尔定律。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

就如网友所言,无所谓,老黄有自己的摩尔定律。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

一手硬件,一手 CUDA,老黄胸有成竹地穿过「计算通货膨胀」,放出豪言预测道 —— 在不久的将来,每一个处理密集型应用都将被加速,每一个数据中心也肯定会被加速。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

▲ 同时公开的 Blackwell 后三代路线图:Blackwell Ultra(2025 年),Rubin(2026 年),Rubin Ultra(2027 年)

「买得越多,省得越多」的黄式数学公式,也再次亮相。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

全新计算时代开启

演讲开篇,老黄最先放出了一个 Omniverse 模拟世界中的演示。

他表示,「英伟达正处于计算机图形模拟和人工智能的交叉点上。这是我们的『灵魂』」。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

这一切都是物理世界中的模拟,它的实现,得益于两项基本的技术 —— 加速计算和人工智能,将重塑计算机产业。

到目前为止,计算机行业已有 60 多年的历史,而现在,一个全新的计算时代已然开始。

1964 年,IBM 的 System 360 首次引入了 CPU,通用计算通过操作系统将硬件和软件分离。架构兼容性、向后兼容性等等,所有我们今天所了解的技术,都是从这个时间点而来。

直到 1995 年,PC 革命开启让计算走进千家万户,更加民主化。2007 年,iPhone 推出直接把「电脑」装进了口袋,并实现了云端链接。

可以看出,过去 60 年里,我们见证了 2-3 个推动计算行业转变的重要技术节点。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

加速计算:一手 GPU,一手 CUDA

而如今,我们将再一次见证历史。老黄表示,「有两个最基础的事情正发生」。

首先是处理器,性能扩展已经大大放缓,而我们所需的计算量、需要处理的数据都在呈指数级增长。按老黄的话来说,我们正经历着「计算通货膨胀」。

过去的 20 年里,英伟达一直在研究加速计算。比如,CUDA 的出现加速了 CPU 负载。事实上,专用的 GPU 效果会更好。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

当我们运行一个应用程序,不希望是一个运行 100 秒,甚至是 100 个小时的 App。

因此,英伟达首创了异构计算,让 CPU 和 GPU 并行运行,将过去的 100 个时间单位,加速到仅需要 1 个时间单位。

可见,它已经实现了 100 倍速率提升,而功耗仅增加的 3 倍,成本仅为原来的 1.5 倍。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

英伟达同时为价值十亿美元的数据中心,配备了 5 亿美元的 GPU,让其变成了「AI 工厂」。

有了加速计算,世界上许多公司可以节省数亿美元在云端处理数据。这也印证了老黄的「数学公式」,买得越多,省得越多。

除了 GPU,英伟达还做了业界难以企及的事,那就是重写软件,以加速硬件的运行。

如下图所示,从深度学习 cuDNN、物理 Modulus、通信 Aerial RAN、基因序列 Parabricks,到 QC 模拟 cuQUANTUM、数据处理 cuDF 等领域,都有专用的 CUDA 软件。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

也就是说,没有 CUDA,就等同于计算机图形处理没有 OpenGL,数据处理没有 SQL。

而现在,采用 CUDA 的生态遍布世界各地。就在上周,谷歌宣布将 cuDF 加入谷歌云中,并加速世界上受欢迎的数据科学库 Pandas。

而现在,只需要点击一下,就可以在 CoLab 中使用 Pandas。就看这数据处理速度,简直快到令人难以置信。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

老黄表示,要推行一个全新的平台是「蛋和鸡」的困境,开发者和用户,缺一不可。

但是经过 20 年的发展,CUDA 已经打破了这个困境,通过全球 500 万开发者和无数领域的用户实现了良性循环。

有越多人安装 CUDA,运行的计算量越大,他们就越能据此改进性能,迭代出更高效、更节能的 CUDA。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

「AI 工厂」全栈重塑

2012 年,神经网络 AlexNet 的诞生,将英伟达第一次与 AI 联系起来。我们都知道,AI 教父 Hinton 和高徒当时在 2 个英伟达 GPU 上完成 AlexNet 的训练。

深度学习就此开启,并以超乎想像的速度,扩展几十年前发明的算法。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

但由于,神经网络架构不断 scaling,对数据、计算量「胃口」愈加庞大,这就不得不需要英伟达重新发明一切。

2012 年之后,英伟达改变了 Tensor Core,并发明了 NvLink,还有 TensorRT、Triton 推理服务器等等,以及 DGX 超算。

当时,英伟达的做法没有人理解,更没人愿意为之买单。由此,2016 年,老黄亲自将英伟达首个 DGX 超算送给了位于旧金山的一家「小公司」OpenAI。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

从那之后,英伟达在不断扩展,从一台超算、到一个超大型数据中心。

直到,2017 年 Transformer 架构诞生,需要更大的数据训练 LLM,以识别和学习一段时间内连续发生的模式。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

之后,英伟达建造了更大的超算。2022 年 11 月,在英伟达数万个 GPU 上完成训练的 ChatGPT 横空出世,能够像人类一样交互。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

这是世界第一次看到了生成式 AI。它会一次输出一个 token,可以是图像、语音、文字、视频,甚至是天气 token,全部都是关于生成。

老黄表示,「我们可以学习的一切,现在都可以生成。我们现在已经进入了一个全新的生成式 AI 时代」。

当初,那个作为超算出现的计算机,已经变成了数据中心。它可以输出 token,摇身一变成为了「AI 工厂」。而这个「AI 工厂」,正在创造和生产巨大价值的东西。

19 世纪 90 年代末,尼古拉・特斯拉发明了 AC Generator,而现在,英伟达正创造可以输出 token 的 AI Generator。

英伟达给世界带来的是,加速计算正引领新一轮产业革命。

人类首次实现了,仅靠 3 万亿美元的 IT 产业,创造出能够直接服务于 100 万亿美元产业的一切东西。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

传统的软件工厂,到如今 AI 工厂的转变,实现了 CPU 到 GPU,检索到生成,指令到大模型,工具到技能的升级。

可见,生成式 AI 推动了全栈的重塑。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

从 Blackwell GPU 到超级「AI 工厂」

接下来就让我们看看,英伟达是如何将一颗颗地表最强的 Blackwell 芯片,变成一座座超级「AI 工厂」的。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

注意看,下面这块是搭载了 Blackwell GPU 的量产级主板。

老黄手指的这里是 Grace CPU。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

而在这里,我们可以清晰地看到,两个连在一起的 Blackwell 芯片。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

在 8 年里,每一代英伟达芯片的 Flops,都增长了 1000 倍。

与此同时,摩尔定律在这 8 年里,却似乎逐渐失效了。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

即使和摩尔定律最好的时刻相比,Blackwell 算力的提升也是惊人的。这将直接导致的结果,就是成本的显著下降。

比如,训练一个 1.8 万亿参数、8 万亿 token 的 GPT-4 所用的能耗,直接降至 1/350!

Pascal 需要消耗的,是 1000 吉瓦时,这就意味着,它需要一个 1000 吉瓦的数据中心。(1 吉瓦 = 1000 兆瓦)

而且如果这样的数据中心真的存在的话,训练也 GPT-4 也需要整整一个月的时间。而 100 兆瓦的数据中心,大概需要一年。

这也就是为什么,ChatGPT 这样的 LLM,在八年前是根本不可能存在的。

如今有了 Blackwell,过去的 1000 吉瓦时直接可以降到 3 吉瓦时。可以说,Blackwell 就是为了推理,为了生成 token 而生的。它直接将每 token 的能量降低了 45000 倍

在以前,用 Pascal 产生 1 个 token 的消耗,相当于两个 200 瓦的灯泡运行 2 天。让 GPT-4 生成一个单词,大概需要 3 个 token。这根本不可能让我们得到如今和 GPT-4 聊天的体验。

而现在,我们每个 token 可以只使用 0.4 焦耳,用很少的能量,就能产生惊人的 token。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

它诞生的背景,正是运算模型规模的指数级增长。每一次指数级增长,都进入一种崭新的阶段。

当我们从 DGX 扩展到大型 AI 超算,Transformer 可以在大规模数据集上训练。

而下一代 AI,则需要理解物理世界。然而如今大多数 AI 并不理解物理规律。其中一种解决办法,是让 AI 学习视频资料,另一种,则是合成数据。

第三种,则是让计算机互相学习!本质上就和 AlphaGo 的原理一样。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

巨量的计算需求涌来,如何解决?目前的办法就是 —— 我们需要更大的 GPU。而 Blackwell,正是为此而生。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

Blackwell 中,有几项重要的技术创新。

第一项,就是芯片的尺寸

英伟达将两块目前能造出来的最大尺寸的芯片,用一条 10TB / s 的链路链接起来;然后再把它们放到同一个计算节点上,和一块 Grace CPU 相连。

在训练时,它被用于快速检查点;而在推理和生成的场景,它可以用于储存上下文内存。

而且,这种第二代 GPU 还有高度的安全性,我们在使用时完全可以要求服务器保护 AI 不受偷窃或篡改。

并且,Blackwell 中采用的是第 5 代 NVLink。而且,它是第一代可信赖、可使用的引擎,

通过该系统,我们可以测试每一个晶体管、触发器、片上内存和片外内存,因此我们可以当场确定某个芯片是否出现故障。

基于此,英伟达将拥有十万个 GPU 超算的故障间隔时间,缩短到了以分钟为单位。

因此,如果我们不发明技术来提高超算的可靠性,那么它就不可能长期运行,也不可能训练出可以运行数月的模型。

如果提高可靠性,就会提高模型正常的运行时间,而后者显然会直接影响成本。

最后,老黄表示,解压缩引擎的数据处理,也是英伟达必须做的最重要的事之一。通过增加数据压缩引擎、解压缩引擎,就能以 20 倍的速度从存储中提取数据,比现在的速度要快得多。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

超强风冷 DGX & 全新液冷 MGX

Blackwell 是一个重大的跃进,但对老黄来说,这还不够大。

英伟达不仅要做芯片,还要制造搭载最先进芯片的服务器。拥有 Blackwell 的 DGX 超算,在各方面都实现了能力跃升。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

集成了 Blackwell 芯片的最新 DGX,能耗仅比上一代 Hopper 提升了 10 倍,但 FLOPS 量级却提升了 45 倍。

下面这个风冷的 DGX Blackwell,里面有 8 个 GPU。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

而对应散热器的尺寸也很惊人,达到了 15kW,并且是完全的风冷。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

如果你喜欢部署液冷系统呢?英伟达也有新型号 MGX。

单个 MGX 同时集成 72 个 Blackwell GPU,且有最新的第五代 NVLink 每秒 130TB 的传输速度。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

▲ NVLink 将这些单独的 GPU 彼此连接起来,因此我们就得到了 72 个 GPU 的 MGX

介绍完芯片,老黄特意提到了英伟达研发的 NVLink 技术,这也是英伟达的主板可以越做越大的重要原因。

由于 LLM 参数越来越多、越来越消耗内存,想要把模型塞进单个 GPU 已经几乎是不可能的事情,必需搭建集群。其中,GPU 通信技术的重要性不亚于计算能力。

英伟达的 NVLink,是世界上最先进的 GPU 互连技术,数据传输速率可以堪称疯狂!

因为如今的 DGX 拥有 72 个 GPU,而上一代只有 8 个,让 GPU 数直接增加了 9 倍。而带宽量,则直接增加了 18 倍,AI FLops 增加了 45 倍,但功率仅仅增加了 10 倍,也即 100 千瓦。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

下面这个 NVLink 芯片,也堪称是奇迹。

人们之所以意识到它的重要性,是因为它将所有这些不同的 GPU 连接在一起,从而能够让十万亿参数的 LLM 运行起来。

500 亿个晶体管,74 个端口,每个端口 400GB,7.2TB 每秒的横截面带宽,这本身就是个奇迹。

而更重要的是,NVLink 内部还具有数学功能,可以实现归约。对于芯片上的深度学习,这尤其重要。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

有趣的是,NVLink 技术,大大拓宽了我们对于 GPU 的想象。

比如在传统的概念中,GPU 应该长成这样。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

但有了 NVLink,GPU 也可以变成这么大。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

支撑着 72 个 GPU 的骨架,就是 NVLink 的 5000 根电缆,能够在传输方面节省 20kw 的功耗用于芯片计算。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

老黄拿在手里的,是一个 NVLink 的主干,用老黄的原话说,它是一个「电气机械奇迹」

NVLink 做到的仅仅是将不同 GPU 芯片连接在一起,于是老黄又说了一句「这还不够宏大」。

要连接超算中心内不同的主机,最先进的技术是「无限带宽」(InfiniBand)。但很多数据中心的基础设施和生态,都是基于曾经使用的以太网构建的,推倒重来的成本过高。

因此,为了帮助更多的数据中心顺利迈进 AI 时代,英伟达研发了一系列与 AI 超算适配的以太交换机。

网络级 RDMA、阻塞控制、适应性路由、噪声隔离,英伟达利用自己在这四项技术上的顶尖地位,将以太网改造成了适合 GPU 之间点对点通信的网络。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

由此也意味着,数百万 GPU 数据中心的时代,即将到来。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

全球 2800 万开发者,即时部署 LLM

在英伟达的 AI 工厂中,运行着可以加速计算推理的新型软件 ——NIM。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

老黄表示,「我们创建的是容器里的 AI」。

这个容器里有大量的软件,其中包括用于推理服务的 Triton 推理服务器、优化的 AI 模型、云原生堆栈等等。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

现场,老黄再一次展示了全能 AI 模型 —— 可以实现全模态互通。有了 NIM,这一切都不是问题。

它可以提供一种简单、标准化的方式,将生成式 AI 添加到应用程序中,大大提高开发者的生产力。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

现在,全球 2800 万开发者都可以下载 NIM 到自己的数据中心,托管使用。

未来,不再耗费数周的时间,开发者们可以在几分钟内,轻松构建生成式 AI 应用程序。

与此同时,NIM 还支持 Meta Llama 3-8B,可以在加速基础设施上生成多达 3 倍的 token。

这样一来,企业可以使用相同的计算资源,生成更多的响应。

而基于 NIM 打造的各类应用,也将迸发涌现,包括数字人、智能体、数字孪生等等。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

老黄表示,「NVIDIA NIM 集成到各个平台中,开发人员可以随处访问,随处运行 —— 正在帮助技术行业使生成式 AI 触手可及」。

智能体组队,万亿美元市场

而智能体,是未来最重要的应用。老黄称,几乎每个行业都需要客服智能体,有着万亿美元的市场前景。

可以看到,在 NIM 容器之上,大多数智能体负责推理,去弄清任务并将其分解成多个子任务。还有一些,它们负责检索信息、搜索,甚至是使用工具等。

所有智能体,组成了一个 team。

未来,每家公司都将有大量的 NIM 智能体,通过连接起来组成一个团队,完成不可能的任务。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

GPT-4o 躯壳,老黄做出来了

在人机交互这方面,老黄和 Sam Altman 可以说是想到一起了。

他表示,虽然可以使用文字或语音形式的 prompt 给 AI 下达指令,但很多应用中,我们还是需要更自然的、更类人的交互方式。

这指向了老黄的一个愿景 —— 数字人。相比现在的 LLM,它们可以更吸引人,更有同理心。

GPT-4o 虽是实现了无法比拟的类人交互,但缺少的是一个「躯体」。而这次,老黄都帮 OpenAI 想好了。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

未来,品牌大使也不一定是「真人」,AI 完全可以胜任。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

从客户服务,到广告、游戏等各行各业,数字人带来的可能将是无限的。

连接 Gen AI 的 CG 技术,还可以实时渲染出逼真的人类面部。低延迟的数字人处理,遍及全球超过 100 个地区。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

这是由英伟达 ACE 提供的魔力,能够为创建栩栩如生的数字人,提供相应的 AI 工具。

现在,英伟达计划在 1 亿台 RTX AI 个人电脑和笔记本电脑上,部署 ACE PC NIM 微服务。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

这其中包括英伟达首个小语言模型 —— Nemotron-3 4.5B,专为在设备上运行而设计,具备与云端 LLM 相似的精度和准确性。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

此外,ACE 数字人类 AI 新套件还包括基于音轨生成身体手势 ——NVIDIA Audio2Gesture,即将推出。

老黄表示,「数字人类将彻底改变各个行业,ACE 提供的多模态 LLM 和神经图形学的突破,使我们更接近意图驱动计算的未来,与计算机的交互将如同与人类的交互一样自然」。

预告下一代芯片 Rubin

Hopper 和 Blackwell 系列的推出,标志着英伟达逐渐搭建起完整的 AI 超算技术栈,包括 CPU、GPU 芯片,NVLink 的 GPU 通信技术,以及 NIC 和交换机组成的服务器网络。

如果你愿意的话,可以让整个数据中心都使用英伟达的技术。

这足够大、足够全栈了吧。但是老黄表示,我们的迭代速度还要加快,才能跟上 GenAI 的更新速度。

英伟达在不久前就曾放出消息,即将把 GPU 的迭代速度从原来的两年一次调整为一年一次,要用最快的速度推进所有技术的边界。

今天的演讲中,老黄再次实锤官宣 GPU 年更。但是他又紧跟着叠了个甲,说自己可能会后悔。

无论如何,我们现在知道了,英伟达不久后就会推出 Blackwell Ultra,以及明年的下一代的 Rubin 系列

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

从孪生地球,到具身 AI 机器人

除了芯片和超算服务器,老黄还发布了一个所有人都没有想到的项目 —— 数字孪生地球「Earth-2」。这也许是世界范围内最有雄心的项目(甚至没有之一)。

而且根据老黄的口吻推测,Earth-2 已经推进了数年,今年取得的重大突破才让他觉得,是时候亮出来了。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

为什么要为建造整个地球的数字孪生?是要像小扎的元宇宙那样,把社交和互动都搬到线上平台吗?

不,老黄的愿景更宏伟一些。他希望在 Earth-2 的模拟,可以预测整个星球的未来,从而帮我们更好地应对气候变化和各种极端天气,比如可以预测台风的登陆点。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

Earth-2 结合了生成式 AI 模型 CorrDiff,基于 WRF 数值模拟进行训练,能以 12 倍更高的解析度生成天气模型,从 25 公里范围提高到 2 公里。

不仅解析度更高,而且相比物理模拟的运行速度提高了 1000 倍,能源效率提高了 3000 倍,因此可以在服务器上持续运行、实时预测。

而且,Earth-2 的下一步还要将预测精度从 2 公里提升到数十米,同时考虑城市内的基础设施,甚至可以预测到街道上什么时候会刮来强风。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

而且,英伟达想数字孪生的,不止是地球,还有整个物理世界。

对于这个狂飙突进的 AI 时代,老黄大胆预测了下一波浪潮 —— 物理 AI,或者说是具身 AI。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

它们不仅需要有超高的认知能力,可以理解人类、理解物理世界,还要有极致的行动力,完成各种现实任务。

想象一下这个赛博朋克的未来:一群机器人在一起,像人类一样交流、协作,在工厂里创造出更多的机器人。

而且,不仅仅是机器人。一切能移动的物体都会是自主的!

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

在多模态 AI 的驱动下,它们可以学习、感知世界,理解人类指令,并进化出计划、导航以及动作技能,完成各种复杂任务。

那要怎样训练这些机器人呢?如果让他们在现实世界横冲直撞,代价要比训练 LLM 大得多。

这时,数字孪生世界就大有用武之地了。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

正像 LLM 可以通过 RLHF 进行价值观对齐一样,机器人也可以在遵循物理规律的数字孪生世界中不断试错、学习,模仿人类行为,最终达到通用智能。

Nvidia 的 Omniverse 可以作为构建数字孪生的平台,集成 Gen AI 模型、物理模拟以及动态实时的渲染技术,成为「机器人健身房」。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

志在做全栈的英伟达也不仅仅满足于操作系统。他们还会提供用于训练模型的超算,以及用于运行模型的 Jetson Thor 和 Orin。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

为了适应不同应用场景下的机器人系统,英伟达的 Omniverse 将逐步扩展为 Warehouse 生态系统。

这个生态将无所不包,从搭配应用程序的 SDK 和 API,到运行边缘 AI 计算的接口,再到最底层的可定制芯片。

在全栈产品方面,英伟达就是想要做自己的「全家桶」,让别人无路可走。

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

为了让这个 AI 机器人时代看起来更真实,演示的最后,9 个和老黄有同样身高的机器人一同登场

黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题-风君雪科技博客

正如老黄所说的,「这不是未来,这一切都正在发生」。

参考资料:

  • https://www.nvidia.cn/events/computex/?ncid=so-wech-642406

本文来自微信公众号:新智元 (ID:AI_era),原标题《老黄一口气解密三代 GPU!粉碎摩尔定律打造 AI 帝国,量产 Blackwell 解决 ChatGPT 全球耗电难题》