万字剖析：NVIDIA、AMD的巅峰之战！

对于GPU爱好者来说，这是一个漫长的等待。 NVIDIA将Turing产品线维持了两年，然后在2020年9月用Ampere取代了它。AMD更友善一点，他们的新设计间隔了15个月，但大多数人对此并不感兴趣。

他们希望看到的是AMD推出一款高端机型，与NVIDIA(NVIDIA)最优秀的产品展开正面竞争。他们做到了，现在我们已经看到了结果，在花钱买最好的图形卡时，PC游戏玩家现在（在理论上）有了很多选择。

但是驱动它们的芯片呢?其中一个从根本上来说比另一个好吗?继续读下去，看看Ampere和RDNA 2是如何决一死战的!

多年来，高端GPU一直比 CPU大得多，而且它们的尺寸一直在稳步增长。AMD最新推出的Navi芯片面积约为520mm2，是之前Navi芯片的两倍多。不过，这并不是他们最大的——这项荣誉颁给了他们的Instinct MI100加速器（约750 mm2）中的GPU。

上一次AMD制造的接近Navi 21大小的游戏处理器是为Radeon R9 Fury和Nano显卡设计的，这两款产品在Fiji 芯片上采用了GCN 3.0架构。它的裸片面积为596 mm2，但它是在台积电的28HP工艺节点上生产的。

自2018年以来，AMD一直在使用台积电更小的N7工艺，该生产线生产的最大芯片是Vega 20 (Radeon VII)，面积为331mm2。他们所有的Navi GPU都是在略微升级的N7P处理器上制作的，所以可以比较这些产品。

Radeon R9 Nano：微型卡，大型GPU

但说到纯粹的die尺寸，NVIDIA拿下了王冠，并不是说这一定是件好事。最新的基于Ampere的芯片，GA102，是628mm2。这实际上比它的前身TU102小了17%——GPU面积达到惊人的754mm2。

与NVIDIA巨大的GA100芯片(用于AI和数据中心)相比，这两款芯片的尺寸都相形见绌，其GPU为826 mm2，采用的是台积电的N7芯片。虽然它从来没有被设计用来驱动桌面显卡，但它确实显示了GPU制造的可能规模。

把它们放在一起突出了NVIDIA最大的GPU有多大。Navi 21看起来相当苗条，尽管处理器的功能不仅仅是芯片区。GA102封装了283亿个晶体管，而AMD的新芯片减少了5%，达到268亿个。

我们不知道每个GPU构建多少层，因此我们所能比较的是晶体管与die面积的比率，通常称为die密度。Navi 21的晶体管约为每平方毫米5150万个晶体管，但GA102明显低于41.1，这可能是NVIDIA的芯片堆叠程度比AMD的略高，但它更可能表示工艺节点。

如前所述，Navi 21是由台积电生产的，采用N7P生产方法，性能比N7略有提高;但在新产品GA102上，NVIDIA求助于三星来完成生产任务。这家韩国半导体巨头正在使用他们所谓的8nm节点(标记为8N或8NN)的改良版本，专门为NVIDIA设计。

这些节点值，7和8，与芯片组件的实际尺寸没有多大关系:它们只是市场营销术语，用于区分不同的生产技术。也就是说，即使GA102比Navi 21有更多的层，die尺寸确实有一个特殊的影响。

一台300毫米(12英寸)的晶圆片正在台积电的制造工厂进行测试。

微处理器和其他芯片是由高度精炼的硅和其他材料制成的大圆盘，称为晶圆。台积电和三星为AMD和NVIDIA使用的是300毫米晶圆，相对于更大的die，使用更小的die，每块晶圆将产生更多的芯片。

这种差异不可能很大，但是在降低制造成本方面，当每片晶圆的生产成本达到数千美元时，AMD相对于NVIDIA而言优势较小。当然，这是假设三星或台积电没有与AMD / NVIDIA进行某种财务交易。

如果芯片本身不能很好地完成设计工作，那么所有这些die尺寸和晶体管数量都将是徒劳的。因此，让我们深入研究每个新GPU的布局，看看它们背后的东西。

Ampere GA102和RDNA 2 Navi 21的总体架构

我们从分析Ampere GA102和RDNA 2 Navi 21 GPU的总体架构开始我们对架构的探索——这些图表不一定向我们展示所有的物理布局，但它们给出了处理器有多少组件的明确指示。

在这两种情况下，布局都是非常熟悉的，因为它们基本上都是其前身的扩展版本。在处理指令中添加更多的单元将始终提高GPU的性能，因为在最新的3D大片中，在高分辨率下，渲染工作量涉及大量的并行计算。

这样的图表是有用的，但是对于这个特定的分析来说，更有趣的是看看各个组件在GPU中的位置。在设计大型处理器时，您通常希望共享资源（如控制器和缓存）位于中心位置，以确保每个组件都具有相同的路径。

接口系统，如本地内存控制器或视频输出，应该安装在芯片的边缘，以便更容易地将它们连接到连接GPU和显卡其余部分的数千根单独的电线上。

以下是AMD的Navi 21和NVIDIA的GA102 die的伪彩色图像。它们实际上只显示了芯片中的一层；但它们确实给我们提供了一个现代GPU内部的极好视图。

两种设计之间最明显的区别在于，NVIDIA在芯片布局上没有遵循集中化的方法——所有的系统控制器和主缓存都在底部，逻辑单元以长列形式运行。他们过去也这样做过，但只针对中低端机型。

例如，Pascal GP106（用于GeForce GTX 1060等）实际上是GP104（来自GeForce GTX 1070）的一半。后者是较大的芯片，其缓存和控制器位于中间。这些都移到了它的兄弟姐妹那一边，但这只是因为设计已经被拆分了。

对于之前所有的高端GPU布局，NVIDIA都使用了经典的集中式结构。为什么这里会有变化呢?这不可能是由于接口的原因，因为内存控制器和PCI Express系统都运行在die的边缘。

这也不是出于热学原因，因为即使die 的缓存/控制器部分比逻辑部分的温度更高，您仍然希望在其中间具有更多的硅以帮助吸收和散发热量。尽管我们不能完全确定更改的原因，但我们怀疑这与NVIDIA对芯片中ROP（渲染输出）单元实施的更改有关。

我们将在后面更详细地讨论它们，但是现在让我们说，虽然布局的改变看起来很奇怪，但它不会对性能产生显著的影响。这是因为3D渲染充斥着许多长时间的延迟，通常是由于必须等待数据。因此，由于一些逻辑单元比其他逻辑单元离缓存更远而增加的纳秒数，都被隐藏在了整个系统中。

在我们继续之前，值得注意的是AMD在Navi 21布局中实施的工程改变，与驱动类似Radeon rx5700 XT的Navi 10相比。尽管新芯片在面积和晶体管数量上都比之前的芯片大了一倍，但设计者还设法在不显著增加功耗的情况下提高了时钟速度。

例如，Radeon RX 6800 XT运动的基时钟和升压时钟分别为1825和2250mhz, TDP为300 W;Radeon RX 5700 XT的相同性能为1605 MHz、1905 MHz和225 W。英伟达也通过Ampere提高了时钟速度，但部分原因是使用了更小、更高效的进程节点。

我们对Ampere和RDNA 2显卡的每瓦特性能检查显示，两家供应商在这方面都取得了显著的改进，但AMD和台积电取得了一些相当显著的成就——比较上图中Radeon RX 6800和Radeon VII之间的差异。

后者是他们首次使用N7节点进行GPU合作，并且在不到两年的时间内，他们将每瓦性能提高了64％。的确，如果NVIDIA继续与台积电合作，那Ampere GA102的性能会好得多。

当涉及到指令处理和数据传输管理时，Ampere和RDNA2都遵循类似的模式来组织芯片内部的一切。游戏开发人员使用图形API编写标题，以制作所有图像；它可能是Direct3D、OpenGL或Vulkan。这些基本上是软件库，充满了规则、结构和简化指令的“书籍”。

AMD和NVIDIA为他们的芯片创建的驱动程序本质上起着翻译的作用:将通过API发布的例程转换为GPU能够理解的操作序列。在那之后，就完全由硬件来管理了，比如什么指令首先执行，芯片的哪个部分执行这些指令，等等。

指令管理的初始阶段由合理地集中在芯片中的一组单元处理。在RDNA 2中，图形和计算着色器通过单独的管线进行路由，这些管线将指令调度并分派到芯片的其余部分。前者称为图形命令处理器，后者是异步计算引擎（ACE）。

NVIDIA只是用一个名字来描述他们的一组管理单元，即GigaThread Engine，在Ampere中它执行与RDNA 2相同的任务，尽管NVIDIA并未过多说明其实际管理方式。总之，这些命令处理器的功能类似于工厂的生产经理。

GPU通过并行执行所有操作来获得性能，因此在整个芯片上复制了下一个组织层次。坚持工厂的类比，这类似于一家拥有中央办公室但在多个地点生产商品的企业。

AMD使用标签着色器引擎（SE），而NVIDIA则称其为图形处理集群（GPC）-不同的名称，相同的角色。

对芯片进行这种分区的原因很简单：命令处理单元不能处理所有事情，因为它最终会变得过于庞大和复杂。因此，将一些日程安排和组织职责进一步向下推进是有意义的。这也意味着每个分离分区可以完全独立于其他分区执行某些操作，因此一个分区可以处理大量的图形着色器，而其他分区则在处理长而复杂的计算着色器。

在RDNA 2的例子中，每个SE都有自己一套固定的功能单元:被设计用来完成一项特定任务的电路，程序员通常无法对其进行大量调整。

mitive Setup unit——获取顶点，准备好进行处理，同时生成更多的顶点(essellation)并将其剔除

Rasterizer——将三角形的3D世界转换为像素的2D网格

Render Outputs(ROPs)——读取、写入和混合像素

原始的设置单元以每个时钟周期1个三角形的速率运行。这听起来可能不是很多，但是不要忘记这些芯片运行在1.8到2.2 GHz之间，所以原始的设置不应该成为GPU的瓶颈。对Ampere来说，原始单位是在组织的下一层找到的，我们很快就会讲到。

AMD和NVIDIA都没有过多提及他们的光栅化器。后者称为光栅引擎，我们知道它们每个时钟周期处理一个三角形，并输出若干像素，但没有进一步的信息，例如它们的亚像素精度。

Navi 21芯片中的每个SE都有4组8个ROP，总共产生128个渲染输出单元；NVIDIA的GA102每GPC包含2组8个ROP，因此整个芯片可运动112个ROP。这看起来AMD在这方面有优势，因为更多的ROP意味着每个时钟可以处理更多的像素。但是这样的单元需要对缓存和本地内存的良好访问，我们将在本文后面详细介绍。现在，让我们继续研究SE/GPC分区是如何进一步划分的。

AMD的着色引擎被划分为双计算单元（DCU），Navi 21芯片本身就有10个DCU——请注意，在一些文档中，它们也被归类为工作组处理器（WGP）。在Ampere和GA102的例子中，它们被称为纹理处理簇（TPC），每个GPU包含6个tpc。NVIDIA设计的每一个集群都有一个叫做“变形引擎”的东西——本质上是Ampere的原始设置单元。

NVIDIA也以每时钟1个三角形的速度运行，尽管NVIDIA的GPU比AMD的低，但他们的TPC数量比Navi 21的SE要多得多。因此，对于相同的时钟速度，GA102应该有一个显著的优势，因为完整的芯片拥有42个原始设置单元，而AMD的新RDNA 2只有4个。但由于每个光栅引擎有6个TPC, GA102实际上有7个完整的原始系统，而Navi 21有4个。由于后者的时钟并没有比前者高75%，当涉及到几何处理(尽管没有游戏可能在这方面受到限制)时，似乎英伟达在这方面具有明显的领先优势。

芯片组织的最后一层是RDNA 2中的计算单元（CU）和Ampere中的流式多处理器（SM），这是我们GPU工厂的生产线。

这些是图形处理器馅饼中的肉和蔬菜，因为它们拥有所有用于处理图形、计算和现在的光线追踪着色器的高度可编程单元。正如你在上图中看到的，每一个芯片都只占整个芯片空间的很小一部分，但是它们仍然是非常复杂的，并且对芯片的整体性能非常重要。

到目前为止，在两个GPU的布局和组织方式方面，还没有什么真正的突破性协议。术语全都不同，但是它们的功能却大同小异。而且由于它们所做的很多事情都受可编程性和灵活性的限制，因此一个相对于另一个所具有的任何优势，都只能归结为规模感，即哪个拥有最大的特色。

但是对于CU和SM，AMD和NVIDIA采取了不同的方式来处理着色器。在某些领域，它们有很多共同点，但在其他许多领域则并非如此。

由于安培（Ampere）在RDNA 2之前就冒险进入野外，我们首先来看看NVIDIA的SM。现在没有必要查看裸片本身的图像，因为它们无法准确告诉我们其中的内容，因此让我们使用组织图。这些不应该代表芯片中各种组件的物理排列方式，而只是每种类型中存在多少种。

图灵对其台式机前身Pascal进行了实质性更改（去掉了一堆FP64单元和寄存器，但是增加了张量核和光线跟踪），而Ampere实际上是一个相当温和的更新-至少从表面上看。不过，就NVIDIA的市场部门而言，新设计使每个SM中CUDA内核的数量增加了一倍以上。

在图灵中，流多处理器包含四个分区（有时称为处理块），每个分区中容纳16个INT32和16x FP32逻辑单元。这些电路旨在对32位数据值执行非常具体的数学运算：INT单位处理整数，而FP单位处理浮点数（即十进制）。

英伟达表示，一个Ampere SM总共有128个CUDA内核，但严格来说，这是不正确的-或者，如果我们必须坚持这一点，那么图灵（Turing）也是如此。该芯片中的INT32单元实际上可以处理浮点值，但只能以非常少量的简单操作进行。对于Ampere，NVIDIA已开放了它们支持的浮点数学运算范围，以匹配其他FP32单元。这意味着每个SM的CUDA内核总数并没有真正改变。只是其中的一半现在拥有更多功能。

每个SM分区中的所有内核都可以随时处理同一条指令，但是由于INT / FP单元可以独立运行，因此Ampere SM每个周期最多可以处理128x FP32计算，或一起处理64x FP32和64x INT32操作。而图灵只是后者。

因此，新的GPU可能使FP32的输出量比其上一代产品大一倍。对于计算工作负载，尤其是在专业应用程序中，这是向前迈出的一大步。但是对于游戏而言，优势却远远没有达到预期。当我们首次测试GeForce RTX 3080时，这一点很明显，它使用启用了68个SM的GA102芯片。