NCSA DELTA超级计算机采用SLINGSHOT但放弃了CRAY“SHASTA” 设计

发布时间:2022-04-25 23:35

当谈到学术界的超级计算时,集群的成本几乎总是一个问题,再加上驱动尽可能多的计算的愿望,推动了架构选择。

这种动态的一个很好的例子是伊利诺伊大学厄巴纳-香槟分校的国家超级计算应用中心,长期观察者会立即知道我们在说什么:IBM 输掉的“蓝水”超级计算机2011年,在蓝色巨人提议的基于 Power7 的集群(具有自己的集成交换)被发现比双方预期的要复杂和昂贵得多之后。

取而代之的是Cray 赢得了 1.88 亿美元的交易,这使得超级计算机在 2013 年启动并运行时提供了 13.3 petaflops 的峰值性能,它成为了学术界最快的超级计算机,直到“Frontera”系统在德克萨斯大学在 2019 年吃了午餐。

但是,在 NCSA 于 12 月停用能力级系统以为新的能力级 Delta 超级计算机腾出空间之后,Blue Waters 现在已成为历史。通过交流,NCSA 告别了由仅 CPU 的 Cray XE 节点和 AMD 的 Opteron 6276 CPU 和 CPU-GPU 的 Cray XK 节点以及相同的 CPU 以及 Nvidia 的 Tesla K20X GPU 组成的混合系统,所有这些都通过 Cray 的“双子座”环面互连。

在 Delta,NCSA 正在获得一个更加多方面的系统,该系统与之前的系统相呼应,使用Cray 的“Rosetta”Slingshot 互连,现在归惠普企业所有,这要感谢2019 年 10 月以 13 亿美元收购这家超级计算机制造商. 但有趣的是,Delta 并未使用 Cray 的“Shasta”集成系统设计,该设计已被许多购买 pre-exascale 和 exascale 机器的 HPE 客户选择,而是使用了仅 CPU Apollo 2000 节点和 CPU-GPU 的混合HPE 的 Apollo 6500 节点,一开始就出现了 Slingshot 的一些问题。(Delta 还拥有一小群用作实用程序节点的 HPE ProLiant DL385 服务器,以及来自 DataDirect Networks 的基于 Lustre 的 SFA7990x 混合存储系统。)

正如我们从 Brett Bode 那里了解到的那样,NCSA在其网站上对 Delta 是“第一个使用 Slingshot 的非 Cray Shasta 系统”这一事实非常坦率,而且对于延迟 Delta 最终安装的问题也很坦率。 ,Blue Waters 项目办公室助理主任,Delta 的联合首席研究员。Bode 解释说,Delta 选择架构的原因与系统本身一样,是多方面的。

促使 NCSA 在 Cray Shasta 上使用 HPE Apollo 的原因是需要更多样化的节点类型,以便该系统可以通过为每个作业分配正确的资源来支持尽可能多的作业。因此,Delta 没有像 Blue Waters 那样使用一种 CPU 和一种 GPU,而是使用一种 CPU——64 核 AMD Epyc 7763——和三种 GPU——Nvidia A100、Nvidia A40、AMD Instinct米100。

因此,Delta 系统的计算部分如下所示:

  • 124 个双插槽、仅 CPU 的 Apollo 2000 节点,每个节点装载 256 GB DDR4-3200 RAM 和 800 GB NVM-Express 固态存储
  • 100 个单插槽 Apollo 6500 节点,每个节点都有四个通过 NVLink 连接的 40 GB HBM2 A100、256GB DDR4-3200 RAM 和 1.6 TB NVM-Express 固态存储
  • 100 个单路 Apollo 6500 节点,每个节点配备 4 个 A40、256GB DDR4-3200 RAM 和 1.6TB NVM-Express 固态存储
  • 5 个双路 Apollo 6500 节点,每个节点都有 8 个通过 NVLink 连接的 40GB HBM2 A100、2TB DDR4-3200 RAM 和 1.6TB NVM-Express 固态存储
  • 1 个双插槽 Apollo 6500 节点,带有 8 个 32GB HBM2 类型的 AMD MI100、2TB DDR4-3200 RAM 和 1.6GB NVM-Express 固态存储

Bode 表示,这种配置反映了 Delta 是由美国国家科学基金会资助的,作为一种可以同时执行许多小型工作的资源,其中一些将依赖于 CPU,而另一些则需要 GPU。事实上,他预计平均工作只占用一个节点或更少,这与 Blue Waters 典型工作负载的多节点需求大不相同。结果,NCSA 分配了它认为适当数量的纯 CPU 节点和不同类型的 CPU-GPU 节点,这些节点可能符合 NSF 给出的预算。这意味着 NCSA 必须使用可以容纳多种 GPU 类型的服务器类型,这意味着不使用 Cray Shasta。

“我们希望能够为这个解决方案提供额外的计算。当然,Shasta 解决方案在他们允许或至少在当时允许的系统类型方面受到更多限制,”Bode 告诉The Next Platform。

换句话说,成本有助于推动 Delta 最终使用哪种 GPU,这就是为什么除了大型 A100 集群和每个配备 8 个 A100 的五个高内存节点之外,您还会看到一个大型 A40 集群。当然,A100 为从半精度 FP16 到双精度 FP64 数学运算提供了非常高的性能,研究人员将能够使用 A100 的多实例 GPU 功能将其分成多达七个不同的实例。但是,虽然 A40 是使用相同“安培”架构的功能较弱的 GPU,但它的成本要低得多,而且它还提供了一些可视化功能,例如 A100 中没有的光线追踪。此外,有些机器学习工作不需要 A100 的全部功能。

“我们的目标是,因为我们知道我们将拥有大量基于机器学习的工作流程,以提供更多离散资源来处理该工作流程并同时在系统中获得更多工作,”Bode 说。

仅 CPU 节点的存在也是为了通过为依赖 GPU 的工作负载提供专用空间来“在系统中获得更多工作”,这样这些工作就不会占用 GPU 集群中宝贵的空间。Bode 表示,NCSA 最初计划为这组节点和系统的其余部分使用英特尔 CPU,但当英特尔的 10nm 制造问题明显会严重延迟处理器时,该中心决定改用 AMD。

“当时,当我们这样做时,看起来 HPE 切换到 AMD 的第三代 Epyc CPU 的能力会比换成不同的英特尔处理器时更好,”他说。

至于具有 8 个 AMD MI100 的单节点,NCSA 知道上一代 GPU 无法与 A100 匹敌。但 Bode 表示,由于 AMD 的新一代“Aldebaran” Instinct MI250 将有助于为橡树岭国家实验室的“Frontier”百亿亿级超级计算机提供动力,AMD 在 GPU 领域变得更具竞争力,人们对芯片设计师可以提供的产品越来越感兴趣。

出于这个原因,Bode 预计会有研究人员希望了解如何让他们的 CUDA 优化代码在 AMD 的 ROCm 环境中运行。如果不想更改底层代码,Delta 的系统还将允许研究人员使用 AMD 和 Nvidia 的容器。

“我们知道,随着 Frontier 等系统的上线,AMD 现在是 Nvidia 的一个更强大的竞争对手,所以这个系统将可供在 Delta 上使用 GPU 代码的人使用基于 AMD 的解决方案,”Bode 说。

这让我们回到了为什么 NCSA 最终将 Cray 的 Slingshot 互连用于非 Shasta 系统的主题。事实证明,并不总是这样计划,因为 Delta 最初的提议要求使用 InfiniBand 结构。根据 Bode 的说法,这在开始时对于基于 HPE 的系统来说更有意义,因为当时 HPE 对 Cray 的收购还很新鲜,而且这些公司还没有完成将 Slingshot 结构与 HPE 服务器集成的适当工作。

但随着时间的推移,在 Delta 的提案阶段,HPE 最终在将其服务器与 Slingshot 集成方面取得了足够的进展,以至于 NCSA 能够以与 100 Gb/秒 InfiniBand HDR 结构大致相同的成本切换到 Cray 的 200 Gb/秒 Slingshot 结构来自英伟达的网络业务。

然而,为了换取更好的性价比,NCSA 已经解决了让 Slingshot 织物在非 Cray Shasta 系统上工作的挑战。造成这些“出牙问题”的部分原因,正如 Bode 所说,是各种组件短缺——不是 CPU 或 GPU 种类——延迟了 Delta 的交付,以至于当 NCSA 收到它时,Slingshot 的软件已经过时了。更复杂的是,NCSA 不是来自 Cray 团队,而是来自 HPE 团队的帮助。

“我认为,HPE 仍在学习如何在非 Shasta 环境中支持 Slingshot,部分原因是 Shasta 客户往往由前 Cray 工程师提供服务,而非 Shasta 软件,例如我们现在运行由不同的工程师组提供服务,他们在提出基于 Slingshot 的系统方面经验不足,”Bode 说。

重要的是,这些问题已经解决,他补充说,NCSA 现在正在让第一批用户开始使用 Delta。

但与提供高速结构一样重要的是,让 Delta 的作业调度程序能够灵活地跨节点分配工作负载,Bode 表示 NCSA 并没有在网络上投入太多资金,因为 Delta 的大部分预期工作将比较小。

“当然,每个节点只有一个网络连接会在一定程度上限制应用程序的可扩展性,我们确实认识到这是一个性能限制因素,但考虑到此处运行的作业类型和规模,我们认为这可能是可以接受的权衡,”他说。



客户热线:037125966675