中国超级计算机在两个独立的系统上已经达到了百亿亿级

在中国以前的大型系统中发挥作用的原生 CPU 和加速器架构已经加强,使中国在两个方面率先实现百亿亿级。 无锡国家超级计算中心将公布一些基于即将推出的国产双威超级计算机的量子模拟结果的惊人消息。这条消息不仅在计算方面引人注目,而且在新机器的可能架构和绝对规模方面也值得注意。当然,所有这一切都值得注意,因为美国和中国正在进行全球半导体军备竞赛,这改变了我们传统上比较全球超级计算实力的方式的性质。我们一直在思考中国走向数据中心计算独立的漫长道路,HPC 只是其中的一个工作负载,这些都是一些重要的步骤。

超级计算社区长期以来一直习惯于在世界上最强大的系统 500 强名单中公开结果,各国积极争夺霸权。然而,随着紧张局势达到顶峰,实体清单困扰着国际竞争的精神,我们可以预期中国对一些戏剧性的制度飞跃保持沉默。包括该国已经在 2021 年突破(真实/LINPACK)百亿亿级障碍这一事实——在不止一台机器上。

我们以杰出权威(在匿名的情况下)得知 LINPACK 于 2021 年 3 月在双威“Oceanlite”系统上运行,该系统是排名第 4 的双威太湖之光机器的后续产品。结果在理想的 35 兆瓦功率甜蜜点中产生了 1.3 exaflops 的峰值性能和 1.05 的持续性能。

我们已经公布了我们对Sunway Oceanlite 架构知之甚少的内容,今年早些时候(现在,在缺乏经过验证的系统信息的情况下)我们推测这台新机器是一个模具缩小器,允许 2 倍的元素和 2 倍的每个插槽的性能和插槽的两倍(当然还有其他工程),无锡可以创建一个百亿亿级系统。显然,无锡有。

无锡正在使用其中的 4200 万个核心用于全面量子模拟生产中的持续百亿亿级超级计算,我们今天通过年度超级计算大会 (SC21) 之前的预览了解到这一点。TaihuLight 后续产品能够运行可以在整个机器上并行化的量子模拟。这种模拟对于 AI/ML 训练和推理工作负载来说也是个好兆头,因为它突出了混合精度数学的广泛使用,包括报告的 4.4 exaflops 的 16 位浮点性能。

在没有深入研究所有量子细节的情况下,无锡团队与清华大学和上海量子科学研究中心的合作者开发了基于张量的随机量子电路模拟器,该模拟器针对计算密度进行了优化,可以“减少模拟Google Sycamore 的采样时间从之前声称的 10,000 年缩短到 304 秒。” 这只是一个预览摘要,关于这个结果的细节并不多,但值得一提的是,我们在 11 月中旬发布了一篇详细介绍模拟的论文时发现的内容。

但让我们回到中国的完全基准测试 (LINPACK) 百亿亿级系统。同一权威机构证实,这次在天河 3 系统上运行的第二次 exascale 系统(我们在 2019 年 5 月预览)达到了几乎相同的性能,峰值为 1.3 exaflops,并且足以持续运行 exascale。我们没有这方面的功率数据,但我们能够确认这台机器是基于飞腾的飞腾系列处理器,它是基于 Arm 的,带有矩阵加速器。(为了清楚起见,飞腾有点像“至强”,它是飞腾 CPU 的一个品牌)。

这不是一个新的架构。这是2015年我们第一次听到 Phytium 的 HPC 野心时的分析,这是对“Mars”64 核 FT-2000/64 架构的后续深入研究. “火星”处理器当时一直是为我们中国的超级计算机设计的,当然,它也必须与时俱进。为这些设备添加真正“魅力”的矩阵引擎仍然基于我们在天河 2A(当时的另一台顶级超级计算机)中看到的 Matrix 2000 DSP 加速器的更新变体,称为 Matrix-2000+ 加速器. 天河 2A 的整个软件栈需要大量的工作来调整到 DSP。国防科技大学不太可能将所有这些努力换成性能相当好的架构,尤其是在 LINPACK 上。

回想一下,Phytium 的出现和天河 2A 系统的 Matrix 2000 DSP 加速器的出现是因为当时由于贸易限制,中国无法按计划使用英特尔至强融核多核处理器。

从我们在这两个百亿亿级系统中可以看出,架构发生了适度的变化,芯片元件和插槽增加了一倍。这并不是要尽量减少工作量,但我们不怀疑新架构的出现可以适应另一个即将到来的新闻,即所谓的 Futures 计划,该计划旨在到 2025 年交付 20 exaflops 的超级计算机,根据我们的同一消息来源,谁总部设在美国,但知道在中国发生的事情。

但是,当我们在这种寒冷的国际气候中前进时,需要牢记以下几点:也许我们不再期望以完全相同的方式对国家竞争力有一个清晰的 500 强超级计算机列表视图。如果一直与美国竞争的中国正在运行 LINPACK 但不公开结果,那么该列表的有效性和国际重要性会发生什么变化,这几十年来一直是 HPC 进步的象征?中国必须失去什么,为峰值和持续结果炫耀不是一个,而是两个经过验证的百亿亿级是否符合国家利益?

这里有一些微妙的考虑:美国橡树岭国家实验室即将推出的“Frontier”超级计算机预计将以 1.5 exaflops 的峰值和 1.3 exaflops 的预期持续数据首次亮相。也许中国已经决定悄悄泄露他们是第一个真正的百亿亿级的,而不必发布可能显示美国机器稍好一些的性能数据的基准测试结果。只是想一想。

这是另一个微妙的细节。我们的消息来源证实,中国的两个百亿亿级系统(世界上第一个)的这些 LINPACK 结果是在 2021 年 3 月实现的。实体列表是什么时候出现的,引用了飞腾和双威以及托管他们展示船系统的中心?2021 年 4 月。

正在发挥作用的政治既奇怪又混乱。但我们的消息来源,尽可能接近手头的问题,证实中国是第一个百亿亿级的,并且有两台基于两种不同(但完全是中国本土)架构的独立机器。

在没有美国芯片和加速器可用的情况下,贸易限制显然将在短期内解决中国利用美国技术促进其核计划发展的担忧,但从长远来看,这是推动中国发展的主要动力。中国将启动芯片开发、晶圆厂建设,并启动半导体战争所需的所有引擎,这场战争将继续酝酿,如果还没有结束的话。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。如需转载,请注明文章出处豆丁博客和来源网址。https://shluqu.cn/8108.html
点赞
4.30 平均评分 (86% 分数) - 1001

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注