全球超算TOP500新榜单：日本蝉联第一、中国屈居第四

本文经授权转载，其它媒体转载请经超能网同意

TOP500官方公布了第56期榜单，日本的Fugaku超算巩固了在榜单中第一的地位，也反映出榜单上性能增长曲线趋于平缓。虽然有两个新系统成功进入前十名，但整个榜单录得的新入榜数量是自1993年该项目开始以来最少的。

在高性能Linpack（HPL）基准里，榜单的入围门槛上升至1.32 PetaFLOPS，与2020年6月排名中记录的1.23 PetaFLOPS相比有小幅增长。

Top500的总性能也从6月的2.22 ExaFLOPS增长到最新榜单上的2.43 ExaFLOPS。但每个系统的平均性能几乎没有任何增长，从6个月前的145,363个核心增长到当前榜单中的145,465个核心。

不过前十名中也有一些显著的进展，包括两个新系统，以及排名第一的Fugaku超级计算机创下的新高。

得益于这段时间内添加的新硬件，Fugaku将其HPL性能增长到442 PetaFLOPS，与该系统在2020年6月首次亮相时的416 PetaFLOPS相比，有小幅增长。

更重要的是，Fugaku将其混合精度HPC-AI基准上的性能提高到2.0 ExaFLOPS，优于其六个月前1.4 ExaFLOPS的记录。这代表着在任何类型的硬件上，对任何精度的基准测量值首次超过1 ExaFLOPS。

1、Fugaku，由富士通建造，安装在日本神户的RIKEN计算科学中心（R-CCS）。拥有442 PetaFLOPS的新世界纪录。这使其领先榜单中排名第二的系统三倍。

2、Summit，是IBM在田纳西州橡树岭国家实验室(ORNL)建造的系统，以148.8 PetaFLOPS的性能保持着美国最快的系统。拥有4356个节点，每个节点都容纳了两个22核Power9 CPU和6个NVIDIA Tesla V100 GPU。

3、位于加利福尼亚州劳伦斯-利弗莫尔国家实验室的系统Sierra，以94.6 PetaFLOPS的HPL排名第三。其架构与Summit非常相似，其4320个节点中的每个节点都配备了两颗Power9 CPU和四颗NVIDIA Tesla V100 GPU。

4、由中国国家并行计算机工程与技术研究中心（NRCPC）开发并安装在无锡国家超级计算中心的神威太湖之光位列第四，它完全采用了Sunway SW26010处理器，在HPL上实现了93 PetaFLOPS。

5、Selene，它是NVIDIA公司内部安装的NVIDIA DGX A100 SuperPOD。在6月份的时候是第七名，但现在规模已经翻了一番，使得它的排名上升了两位。该系统基于AMD EPYC处理器，采用英伟达新的A100 GPU进行加速。由于升级，Selene在HPL上实现了63.4 PetaFLOPS。

6、天河-2A(Milky Way-2A)，由中国国防科技大学开发的系统，部署在广州的国家超级计算机中心，排名第六。它采用英特尔Xeon CPU和NUDT的Matrix-2000 DSP加速器，在HPL上达到61.4 PetaFLOPS。

7、新上榜的JUWELS Booster Module，位列榜单第七。阿托斯制造的BullSequana机器最近安装在德国Forschungszentrum Jülich（FZJ）。它是模块化系统架构的一部分，第二款基于Xeon的JUWELS模块单独列在TOP500的第44位。这些模块通过使用ParTec Modulo集群软件套件进行集成。增压模块使用AMD EPYC处理器与NVIDIA A100 GPU进行加速，与排名第5的Selene系统类似。JUWELS Booster Module单独运行时能够达到44.1 HPL PetaFLOPS，这使其成为欧洲最强大的系统。

8、意大利Eni S.p.A.公司安装的戴尔PowerEdge系统HPC5排名第八，使用了英特尔Xeon Gold CPU和NVIDIA Tesla V100 GPU，性能达到35.5 PetaFLOPS。在榜单上用于商业用途的系统里，以这台性能最为强大。

9、安装在德克萨斯大学德克萨斯高级计算中心的戴尔C6420系统Frontera现在列在第九位，它使用其448,448个英特尔Platinum Xeon核心，实现了23.5 PetaFLOPS。

10、排名第十的Dammam-7安装在沙特阿拉伯的沙特阿美公司，是目前前十名中的第二台商用超级计算机，也是前十里第二台新上榜的机器。HPE Cray CS-Storm系统采用英特尔Xeon Gold CPU和NVIDIA Tesla V100 GPU。它在HPL基准上达到了22.4 PetaFLOPS。

1、最节能的系统是美国NVIDIA新推出的DGX SuperPOD。它在2.4 HPL性能运行期间取得了26.2 GigaFLOPS/Watt的能效，功耗为38MW（忽略扩展所需的额外硬件），位列TOP500的第172位。

2、虽然上届Green500冠军MN-3的得分从21.1提高到了26.0 GigaFLOPS/Watt，但却滑落到了第二名的位置。该系统采用MN-Core芯片，这是一款针对矩阵运算进行优化的加速器。它在TOP500中排名第332位。

3、安装在德国Forschungszentrum Jülich（FZJ），它实现了25.0 GigaFLOPS/Watt，在TOP500中排名第七。

4、阿托斯制造的另一台机器Spartan-2。它在HPL上实现了24.3 GigaFLOPS/Watt，在TOP500榜单中排名第148位。

5、Selene，效率为24.0 GigaFLOPS/Watt。它也占据了TOP500榜单的第五位。

6、除MN-3系统外，其余排名前五的Green500系统均采用了全新的NVIDIA A100 GPU作为加速器，同时这四款系统均采用AMD EPYC作为主CPU。

7、在Green500排名前40的系统中，有37个系统利用了加速卡，2个系统使用了A64FX矢量处理器，1个系统（神威太湖之光）是申威多核处理器。

1、共有149个系统使用加速卡/协从处理器技术，比6个月前的146个有所增加，其中140个采用了NVIDIA芯片。

2、Intel继续在TOP500的处理器份额中占据主导地位，超过90%的系统配备了Xeon或Xeon Phi芯片。尽管最近高性能计算领域的替代处理器架构兴起，但AMD处理器(包括中国海光的芯片)在目前的榜单中仅占21个系统，还有10个基于Power架构的系统和5个基于ARM架构的系统。不过，采用基于AMD处理器的系统数量比半年前增加了一倍。

3、系统互连的分类基本没有变化，大约一半的系统（254个）使用以太网，大约三分之一的系统（182个）使用InfiniBand，大约十分之一的系统（47个）使用OmniPath，一个系统使用Myrinet；其余的系统使用定制互连（38个）和专有网络（6个）。在总容量方面，InfiniBand连接的系统仍然占主导地位，其性能超过1个ExaFLOPS。由于Fugaku使用专有的Tofo D互连，6个专有网络系统的总性能（472.9 PetaFLOPS）几乎与254个基于以太网的系统（477.7 PetaFLOPS）相当。

4、中国以212台机器上榜，继续在系统占有率上领先，轻松击败美国的113台，和日本的34台。尽管系统数量较少，美国仍以668.7 PetaFLOPS的总性能领先于中国的564.0 PetaFLOPS。得益于排名第一的Fugaku系统，日本593.7 PetaFLOPS的总性能超过了中国。