从软硬件到生态加速 AI PC 革命,英伟达凭实力证明 RTX 就是 AI-风君雪科技博客

一个插件让显卡速度翻 3 倍?解密英伟达 AIGC 时代的最新王牌。

作者 |  云鹏

编辑 |  漠影

最近的 AIGC 圈着实迎来了一波新品发布小高潮!

先是谷歌 Gemini 突然深夜炸场,硬刚 OpenAI 的 GPT-4,然后是斯坦福科学家李飞飞团队亮出 AI 视频生成模型 W.A.L.T,拳打 Pika 脚踢 Gen-2,最近微软又发布了手机端侧都能跑的小语言模型 Phi-2,平均性能甚至超过 Llama 2。

从软硬件到生态加速 AI PC 革命,英伟达凭实力证明 RTX 就是 AI-风君雪科技博客

W.A.L.T 文生视频案例片段

AI 大模型火爆之下,各路科技巨头几乎都在“All in AI”,而 AI 军备竞赛已经很快从云端卷到了端侧,从智能手机到 PC,我们身边各类熟悉的智能硬件都已被卷入这场大模型浪潮。

各类智能助手、各类 AIGC 相关应用如雨后春笋般涌现,各类“GPTs”已经逐渐进入大众视野。

热况之下,AI 大模型在端侧的落地离不开底层硬件的支持,英伟达、英特尔、AMD 等大厂也不断亮出各种应对 AI 新时代的软硬件新品,加速着 AI PC 时代的到来。PC 作为算力最强的消费级产品,成为 AI 大模型在端侧应用的最理想平台之一。

毫无疑问,AI 将成为 PC 产业发展的一个关键拐点,AI 也会彻底改变玩家、创作者、上班族、学生乃至每一个普通 PC 用户的体验。

从软硬件到生态加速 AI PC 革命,英伟达凭实力证明 RTX 就是 AI-风君雪科技博客

▲ 图片由 Bing 创作,来源:PCWorld

目前全球搭载英伟达 RTX GPU 的 Windows PC 和工作站已经超过了 1 亿台,英伟达作为 AI 大模型时代最核心的全栈玩家,正通过全栈生态的赋能让这些“RTX PC”的 AI 性能有翻倍式暴涨。

在我们熟悉的文生图应用 Stable Diffusion 中,基于英伟达的 RTX 专用加速插件,一张 RTX 4090 仅用 49 秒就可以生成 100 张高质量图像,速度翻了 3 倍,而这样的升级甚至不需要改变其他硬件配置。

英伟达 RTX 相关技术在 AI 领域的应用,让全球无数开发者可以更轻松、高效地创建 AI 应用,人们使用 PC 的方式,也在潜移默化中改变着。

英伟达如何为 AI PC 时代的底层筑基?英伟达在 AIGC 时代藏得最深的王牌又是什么?今天,从硬件、软件到生态,英伟达似乎已经和 AI 画上了等号。

01.从通用计算到加速计算,从数据中心到 PC,英伟达 CUDA 生态占 C 位

今天的计算产业究竟酝酿着哪些关键变量,英伟达又在其中扮演着怎样的角色?

正如英伟达 CEO 黄仁勋在财报电话会中提到的,放眼如今的全球计算产业,有两个重要的转变值得注意:第一,用一种通用处理器处理一切工作的传统通用计算已经不再具有成本和效率的优势,与之相对的“加速计算”将成为主流。

顾名思义,数据中心需要尽可能地去“加速”所有工作负载,这样才能有更高的性能、能源效率和成本效益。

第二,在加速计算的大趋势下,新的软件开发方式成为了可能,这也推动了软件平台的转变,让以前无法实现的应用程序成为可能。

或许正如黄仁勋所说,AI 并不是一种奢侈品,AI 是必需品,AI 的投资是一种战略性的迫切需求,可以帮企业提高未来的竞争力。

在这场“不能输”的 AI 之战中,英伟达的 GPU 俨然已经走到了舞台中央,已经走到了全球“AI 新工业”的中央。在黄仁勋看来,如今的数据中心就像一座“AI 工厂”,数据是原材料,被生产、开发、精炼,转化为世界上最有价值的东西 —— 智能。

显然,这对于所有科技巨头来说,都是一场技术乃至商业范式的革新。

在这样的大背景下,各行各业都在经历从通用计算到加速计算和生成式 AI 的平台化转型,而英伟达最新一季财报中数据中心业务接近 280% 的强劲同比增长也恰恰证明了这一点。

AI 大模型的初创公司、消费互联网公司和全球云巨头们都在积极“备战”,各大云服务商不断加大对 AI 云的投入,企业级软件公司也陆续为自己的平台增加 AI 相关应用和功能,不少厂商都推出了定制化 AI 产品,推动着各大行业的智能化、自动化发展。

热潮之下,英伟达的 GPU、CPU、网络、AI foundry、AI 企业软件解决方案等产品和服务都成为加速这一转型的核心“引擎”。

上述各行各业的智能化、自动化与计算产业密不可分,在计算产业中,除了数据中心在经历“加速计算”的转型,PC 产业作为计算的关键一环,也同样经历着类似的转变。

当下,各类生成式 AI 产品正迅速成为高性能 PC 的支柱型应用,在各行各业从业者的日常工作中发挥着重要作用。而英伟达的 RTX GPU,无疑已成为 AI PC 时代最核心的底层技术支撑。

为什么英伟达的 GPU 能够在 AI 时代走到如此关键的位置,并且几乎是“不可替代”的?

实际上,提到英伟达的 GPU,就不得不提到 CUDA。在黄仁勋看来,英伟达是通过发明 CUDA 这种新编程工具,以及 GPU 这种处理器来推动加速计算的。

CPU 无法高效执行的工作,GPU 可以进行有效的加速,并且在性能、能源成本上有着显著优势。基于 CUDA 的 GPU 经历近 25 年的发展,如今已经与开发者、系统制造商、云服务提供商、技术制造商和用户深度绑定,CUDA 生态系统已经为各行各业所信任,这也是英伟达有着不可替代性的根本性因素之一。

从软硬件到生态加速 AI PC 革命,英伟达凭实力证明 RTX 就是 AI-风君雪科技博客

在深度学习、AI 大模型的发展中,英伟达所提出的加速计算发挥着关键作用,生成式 AI 的崛起与其密不可分,这也被很多人称之为“第四次工业革命”。

在黄仁勋看来,智能是最有价值的,倘若智能可以批量化、自动化的生产,其带来的价值是不可估量的。

如今英伟达所做的,正是推动这一未来走入现实。

02.兼容性架构铺路,TensorRT-LLM 让推理性能翻倍,AI 绘图进入“秒速时代”

正如前文所说,英伟达在技术生态方面的布局,尤其是 25 年来在 CUDA 领域的深耕,是其能够在 AI 时代占据 C 位的关键。而这样的生态布局如今在 PC 产业中释放的能量开始愈发凸显。

今年四季度,英伟达发布了一个名为 TensorRT-LLM 的引擎优化编译器,其目的就是进一步提升大语言模型的 AI 推理性能。

从软硬件到生态加速 AI PC 革命,英伟达凭实力证明 RTX 就是 AI-风君雪科技博客

AI 大模型在云端的训练需要消耗大量算力,而 AI 大模型真正走入每个人的生活,更需要解决推理这“最后一公里”的难题,因为实际场景中的推理任务往往是极为复杂的。

根据官方数据,在 TensorRT-LLM 的加持下,对于 Lambda2 这样的大语言模型,H200 的推理能力可以提高到 H100 的 2 倍,成本也有着称成倍降低,与 H100 相比,H200 在 GPT-3 模型上的推理性能有着 18 倍的提升,得益于此,英伟达的客户可以使用更大的模型,但延迟却不会增加。

从软硬件到生态加速 AI PC 革命,英伟达凭实力证明 RTX 就是 AI-风君雪科技博客

▲ TensorRT-LLM v0.6.0 可以带来最高 5 倍推理性能提升

实际上,TensorRT-LLM 有着这样的表现,与 CUDA 的特性是密不可分的。英伟达 CFO 在财报电话会中特别提到,他们之所以能够创建 TensorRT-LLM,正是因为 CUDA 是可编程的,如果 CUDA 和其对应的 GPU 不是可编程的,以如今这样快的速度迭代改进软件栈是很难实现的。

经过 20 多年的深耕,每一个英伟达 GPU 的背后,都是不断迭代更新的软件栈在做坚实支撑,而 CUDA 的灵活性和兼容性无一不是这一生态的突出优势。

英伟达有着规模庞大的生态系统软件开发人员、系统制造商生态系统和分销合作网络,而将这些真正连结在一起形成一个高效生态系统的,正是英伟达 CUDA 软件生态和架构层面的兼容性。

从软硬件到生态加速 AI PC 革命,英伟达凭实力证明 RTX 就是 AI-风君雪科技博客

英伟达 CFO 称,一切基于兼容性构筑是他们几十年前就做出的一个伟大决定,保证架构的兼容性也一直是他们的首要任务。

每当英伟达引入一个新的特性、新功能、新技术时,生态中的开发者们会立即从各个方面获益,享受到这些红利。目前英伟达在全球有 28000 名员工,他们服务于全球各地、各个行业、不同的市场和公司,但依然可以保持高效协作,这与良好的兼容性密不可分。

这样的兼容性进一步带来的就是英伟达平台的稳定性,这也是全球各类新应用几乎都选择率先在英伟达平台上进行开发并进行优化的关键原因之一。

云计算领域的数据中心中有着数百万英伟达 GPU,而全球 PC 和工作站用户手中又有着 1 亿多块英伟达 GPU,他们在架构上都是兼容的,因此所有基于英伟达平台实现的技术创新,都可以快速应用到这些数以百万计、数以亿计的产品中。

这也可以说是英伟达人无我有的核心优势之一。

最后,在加速计算方面,英伟达 GPU 可以为 Spark、Python 甚至是目前最成功的数据科学框架 Pandas 进行加速,据了解,Pandas 现在由英伟达的 CUDA 加速,并且无需代码行就能用起来。

在企业和专业领域之外,对于普通用户来说,英伟达 GPU 带来的加速能力也是感知极强的。

就在今年四季度,英伟达在发布 TensorRT-LLM 的同时也带来了 TensorRT-LLM for Windows,与此同时,微软也在 Ignite 大会上发布了 OpenAI Chat API 的 TensorRT-LLM 封装接口、RTX 驱动的性能改进 DirectML for Llama 2 等新工具和资源。

从软硬件到生态加速 AI PC 革命,英伟达凭实力证明 RTX 就是 AI-风君雪科技博客

可以说,Windows PC 的终端用户们也可以享受到 TensorRT-LLM 带来的加速红利了。

根据官方数据,TensorRT-LLM for Windows 可以将终端设备上的大语言模型推理性能最高提升 4 倍左右,而目前英伟达 RTX GPU 的装机量已经超过了 1 亿台,这一新特性也已经快速全面普及开来,这对于应用程序开发者们来说无疑是一大喜讯。

TensorRT-LLM for Windows 的推出无疑意味着 AI 大模型可以更好的应用于端侧 RTX PC 中,满足用户各类 AIGC 需求,提升用户的 AI PC 体验。

数以百计的 AI 相关开发者项目和应用都可以直接在搭载 RTX GPU 的 PC 上本地运行,同时,用户的私人和专有数据也可以在 PC 本地进行保存。

值得一提的时,TensorRT-LLM 也在持续更新,支持更多新的热门大模型,比如 Mistral 7B 和 Nemotron-3 8B,这些版本的 TensorRT-LLM 可以直接运行在 8GB 及以上显存的 GeForce RTX 30 系列和 40 系列 GPU 上。

从软硬件到生态加速 AI PC 革命,英伟达凭实力证明 RTX 就是 AI-风君雪科技博客

▲ TensorRT 扩展的配置需求,由 Bilibili UP 主 Nenly 同学制作

根据 Bilibili 平台上一位专业设计师 UP 主 Nenly 同学的测试,在 Tensor RT 的加持下,Stable Diffusion 这一热门文生图应用基于 RTX GPU 生成的模型推理速度直接提升了 2 倍甚至 3 倍以上,AI 绘画进入了“秒速时代”。

从软硬件到生态加速 AI PC 革命,英伟达凭实力证明 RTX 就是 AI-风君雪科技博客

▲ 标准 StableDiffusion 与 TensorRT 引擎优化后相比,每分钟绘制图片数的差异,由 Bilibili UP 主 Nenly 同学制作

根据 Nenly 同学发布视频,在 GeForce RTX 4090 上,Stable Diffusion 的运行速度是使用苹果 M2 Ultra 的 Mac 顶配版的 7 倍。甚至 4060Ti 在 TensorRT 扩展的支持下,生成图片的速度已经超过了加速前的 4090。

对于一些需要大量出具草图的创意工作者们来说,这样的加速能力所带来的收益是极为明显的。面对数千张图片吞吐量的工作,节省下来的时间可能是以天计算的。

比如被誉为“插画领域的刘慈欣”、“国内科幻绘画第一人”,也是首位获得全球雨果奖的华人艺术家赵恩哲,在工作中就使用了全流程经 GeForce RTX GPU 加速的 Stable Diffusion 进行创作,AI 辅助创作工具可以省掉细化时间,同时给他很多意向不到的创作设计可能。

从软硬件到生态加速 AI PC 革命,英伟达凭实力证明 RTX 就是 AI-风君雪科技博客

▲《虚空之舟》—— 使用 SD 创作,全流程经 GeForce RTX GPU 加速

赵恩哲特别说道,其实每位创作者都渴望将脑海中的世界完美呈现,但由于技术门槛和工业化流程等方面的限制,他们过去只能在概念设计与最终呈现之间做出妥协。但如今,借助英伟达 GeForce RTX 显卡的强大算力以及 SD、RUNWAY 等 AI 创意工具,概念设计师可以突破限制,在短短几秒内尝试所有想法,相信今后有了更强大的算力加持,每位艺术家都可以实现无限创造!

从软硬件到生态加速 AI PC 革命,英伟达凭实力证明 RTX 就是 AI-风君雪科技博客

▲ 赵恩哲

当然,基于 RTX GPU 这些能力,相关公司也可以基于自己的模型构建具有最有效果的加速引擎,让算力的效益最大化,从而实现显著的降本增效。

可以说,从企业到个人,从数据中心到 PC,基于数十年建立的坚实生态,英伟达正通过技术创新拉近每一个人与 AI 大模型的距离。

03.DLSS 用 AI 改写游戏产业,英伟达为开发者武装到牙齿,RTX 就是 AI

今天,我们看到了 Tensor RT 对于 PC 端侧运行 AI 大模型能力带来的颠覆式升级,而在此之外,英伟达 RTX GPU 已经深耕 AI 领域多年,如今提到 AI,几乎就等于提到英伟达。用英伟达 CFO 的话来说,“RTX 就是 AI”。

在游戏领域,这一特点体现的尤为明显。这其中最具代表性的就是 DLSS 技术,这也是英伟达最早推出的 AI 模型之一,从五年前的首次亮相至今,DLSS 技术经历了多个大版本迭代,AI 技术的融入也愈发深入,目前已经包含超分辨率、帧生成和光线重建三个不同的模型。

据了解,从发布之初,DLSS 技术就一直离不开背后 AI 模型的持续学习,AI 模型学习的结果不断反馈迭代,推动 DLSS 技术完善,进而提高 DLSS 技术在游戏中带来的性能和画质提升。

今年英伟达推出了 DLSS 3.5,其对于游戏图形渲染技术发展的推动是极为明显的,基于新的 AI 模型光线重建,DLSS 3.5 可以创建出更高质量的光线追踪画面,同时还能进一步提升游戏的帧率表现,可以说是一举两得。

从软硬件到生态加速 AI PC 革命,英伟达凭实力证明 RTX 就是 AI-风君雪科技博客

这一技术也在游戏玩家中收到了广泛好评。根据官方数据,目前支持 RTX 特性的游戏和应用已经超过了 500 个,这一生态系统的发展壮大,可以说为玩家们带来了真正体验上的直观提升。

从软硬件到生态加速 AI PC 革命,英伟达凭实力证明 RTX 就是 AI-风君雪科技博客

除了游戏,在生产力创作领域,根据官方数据,目前英伟达的 RTX GPU 加速了 110 多个创作类应用,尤其在生成式 AI 相关应用领域,RTX GPU 的应用更为广泛。

如今,AI PC 时代的大门已经被推开了,各路厂商都在积极找准自己的定位,进行产品和技术的布局,而在这场时代大潮中,开发者们的作用至关重要,在 RTX 加持下,开发者现在可以直接利用前沿 AI 大模型,通过跨供应商 API 来部署自己的应用。

英伟达一直在做的,其实就是增强开发者的能力,在 AI 新时代为开发者们武装到牙齿。英伟达提供的新优化、新模型和资源无疑会加速 AI 功能和应用在全球 1 亿多台 RTX PC 上的开发和部署,AI 与 PC 的融合,会变得越来越简单。

04.结语:AIGC 时代要想玩转 AI,英伟达是彻底绕不开了

在 AIGC 风起云涌的当下,无数创企涌入赛道,消费者们也争相接触新的技术、感受生成式 AI 带来的体验革新,而英伟达无疑成为了风口浪尖上的一颗明星企业,从硬件、软件到生态,英伟达的王牌一张接着一张。

AI 技术的发展,引起了整个计算产业范式的革新,加速计算概念的落地普及,牵动着全球各行各业的企业。从数据中心到我们每个人家中的 PC,英伟达的技术正深入每一处,在 AI 技术落地的过程中,发挥着关键作用。

如今回顾科技产业发展的历史,我们能清楚地看到,那些最成功的公司,无一不是凭借生态取胜,从自身的产品技术生态到与产业链各领域玩家联合形成的牢固生态,生态必然会成为当今科技巨头们比拼的核心焦点。

不论如何,在当下的 AIGC 时代,想要乘风而行,走在浪尖,英伟达这艘大船,是必须要上了。

本文来自微信公众号:芯东西 (ID:aichip001),作者:云鹏