帮助文档>GPU显卡 > 分解 Nvidia 的稀有野兽 DGX A100

分解 Nvidia 的稀有野兽 DGX A100

发布时间:2022-01-18 16:57

大型 IT 公司拥有昂贵的“玩具”,大多数用户看不到它们。今天,我们将揭开神秘面纱,向您介绍一个针对人工智能进行优化的系统。 

AI任务对计算和网络资源的要求很高,所以我们今天的“客人”会用它的配置来取悦你。认识 NVIDIA DGX A100。

被衣服遇见

NVIDIA DGX A100 是一款 6U 机架式服务器,重量超过 130 公斤。服务器,即使在一个盒子里,也能陷入轻微的刺激之中。硕大的身躯和美丽的金色吸引了路过同事的目光。

服务器在一位工程师的陪同下到达,他为我们提供了身体和精神上的支持。当我们的员工打开包装并准备将服务器运送到安装地点的工具时,工程师讲述了有关该服务器的有趣事实。因此,安全预防措施规定使用机架式电梯,并且至少需要两个人来拆卸服务器。

此服务器上的 I/O 端口数量超出图表

服务器机箱没有从顶部打开。相反,服务器背面有两个托盘 - 这些是服务器的组成部分,包含服务器的“填充物”。请注意,机箱中的托盘固定螺钉为绿色,而托盘盖固定螺钉为黑色。

六个 3 kW 的热插拔电源吸引您的眼球。有趣的是,声明的最大功耗为 6.5 kW。答案很简单:电源按照3+3方案运行,即2N冗余。最常见的 GPU 机箱提供 4 个电源和一个 3+1 电路。

底部托盘显示 10 个网卡端口,带宽高达 200 Gb/s。缺省情况下,双口卡配置为以太网模式,其他配置为Infiniband模式。这些 NIC 用于将多个 DGX 组合成一个计算集群。我们只有一个 DGX,所以没有使用任何端口。
俄罗斯的超级计算机之一 Christofari 由 75 台 DGX-2 服务器组装而成,该服务器基于上一代图形加速器。

服务器的前面板看起来像是带有 GPU 的服务器:很多大风扇。它们能够达到 18,000 rpm 的转速,让您可以有效地冷却服务器丰富的内部世界。服务器软件本身控制着风扇转速,并不给用户提供干预这个过程的机会。

起初,我们想尝试自己运行 DGX,但不幸的是,我们遇到了一个意想不到的问题。在调试期间,服务器显示与 BMC 的通信错误,并将所有风扇旋转到 18,000 rpm。在随行工程师的帮助下,错误得到修复,服务器开始正常工作。即使在压力测试期间,他也不再达到这样的速度。

前面板用磁性紧固件上的特殊盖封闭。从远处看,前面板上似乎描绘了白噪声,但实际上它是金属,有许多孔可以让空气通过。

在测试过程中,发现这个盖子对散热片的影响并不大,服务器风扇做得很好。

经过外部检查后,服务器被移至实心台上并拆开。

特定的 GPU 托盘连接器

如前所述,服务器由两个托盘组成:CPU 和 GPU。每个托盘都是服务器的一部分,包含在自己的铁盒中,铁盒安装在机箱中。前面板上的托盘、风扇和篮子之间的通信由安装在机箱中的背板提供。从某种意义上说,DGX 是一款经典的刀片机箱,只不过不是单独的服务器(刀片),而是安装了一台服务器的一部分。

GPU 托盘。很多散热片

顶部是一个占用 3U 的 GPU 托盘。即使是两个人也很重。在托盘的顶盖上还有一个关于物体重量和需要两个人一起工作的警告标志。

此托盘包含 8 个 40 GB 修改的 NVIDIA Tesla A100 显卡。它们的特点是 SXM4 外形尺寸。此版本的视频卡以其夹层设计和增加的散热而著称:400 W 与 PCIe 版本的 300 W。

除了八个用于显卡的大型散热器外,托盘上还有六个较小的散热器。这些散热器冷却实现视频卡互连的芯片。NVLINK 和 NVSWITCH 技术以 600 Gb/s 的吞吐量以网状拓扑连接八个视频卡(每个视频卡都连接到每个视频卡)。

CPU 托盘。还有很多散热器。

CPU 托盘有两种提取方法:全部和部分。

在第二种情况下,托盘离开机箱的长度比带有 PCIe 插槽的部件的长度稍长,并被固定,托盘盖打开。这允许您在不移除整个托盘的情况下使用网卡或操作系统驱动器。

从 CPU 托盘的侧面看,它看起来像一个没有电源的普通 2U 服务器。一对 AMD EPYC 7742 处理器隐藏在大型散热器下,共有 128 个物理内核或 256 个逻辑内核。附近有 16 个 DDR4 记忆棒,频率为 3200 MHz,每个容量为 64 GB。RAM 总量为 1 TB。

有趣的是,处理器的散热器一个接一个,也就是说,第二个处理器被第一个处理器的热量冷却。然而,使用 DGX 冷却系统,它看起来微不足道。在这个托盘上也可以看到异常大的散热器。与 GPU 托盘的交互给 PCIe 桥带来了沉重的负担,这也需要冷却。

电子城

插槽之间是一块电子元件密度最大的小板。它看起来像一个小型电子城。这里识别出ASPEED芯片,它是BMC模块的“心脏”。此外,还有受信任的引导模块,可确保平台的安全性。

具有 640 GB 视频内存的 DGX A100 有一个“较旧”的修改。在其中,RAM 量已扩展至 2 TB,并且持久性存储量也有所增加。

我们对 DGX 内部世界的了解到此结束。让我们在工作中看到它。

203×53分辨率不足以在htop中显示所有核心

在 DGX 的盒子里有一个闪存驱动器,在闪存驱动器上有一个准备好的操作系统映像,可以开始使用。该映像基于带有预装驱动程序和特殊实用程序的 Ubuntu 20.04.3 LTS 操作系统。

我们正在启动的服务器已经走过了漫长的道路,在此期间它已经被拆卸和重新组装。在运输和操作之后,值得检查服务器系统的完整性。根据安装规定,DGX首次上线的相关操作必须由一名随行工程师进行,但我们很好奇,所以所有操作都是联合进行的。

一些操作是通过nvsm实用程序执行的,这是一个用于 nvidia 系统管理的控制台界面。只需一个命令即可检查服务器的“理论”状态:

nvsm show health

该团队检查它可以“到达”的所有内容,即:

  • 所有声明的 PCIe 设备的存在:NVMe、网卡和视频卡;
  • 使用 PCIe 4.0 和每个设备的最大可用通道数;
  • 显卡的拓扑结构以及每个显卡通过 NVLINK 的所有邻居的可用性;
  • 已安装的记忆棒数量及其 P/N;
  • 逻辑处理器核心数。

最后,我们得到了关于平台完整运行状况的预期线。

Health Summary
--------------
168 out of 168 checks are healthy
0 out of 168 checks are unhealthy
0 out of 168 checks are unknown
0 out of 168 checks are informational
Overall system status is healthy

100.0% [=========================================]
Status: healthy

监管的下一阶段是启动压力测试。这不仅会检查系统的运行情况,同时还会为我们提供有关各种服务器组件的最大实际功耗和温度的信息。nvsm实用程序也有助于完成这项任务。

nvsm stress-test

压力测试非常方便。该实用程序加载处理器、视频卡、RAM 和持久存储,并开始监控系统事件、温度、风扇速度和功耗。20 分钟后,在测试结束时,会显示一个统计表。

System Resource Metrics
Component      Pre-test       Min            Avg            Max            Unit           
CPU_LOAD       76.65          0.69           87.79          103.12         %              
CPU_TEMP       46.50          46.50          66.61          68.50          C              
DISK_LOAD      0.11           0.00           16.44          37.87          %              
GPU_LOAD       0.00           0.00           84.72          100.00         %              
GPU_TEMP       33.13          33.13          62.49          67.88          C              
MEM_LOAD       0.88           0.88           74.11          89.56          %              
MEM_TEMP       33.75          33.75          36.10          36.75          C              
FANSPEED       4812.09        4812.09        7269.36        7538.64        RPM            
POWERDRAW      1586.00        1586.00        4437.73        4745.00        W              


System stress test successful.
No alerts seen.

在这里你可以看到处理器和显卡的温度没有超过 69 度,而风扇的工作力还不到一半。功耗为 4.7 kW,比规范中规定的低近 2 千瓦。不过这次压力测试没有考虑到十张外网卡,我们的DGX版本也不是最老的。

现在服务器已经过测试并准备就绪,我想运行测试来看看这台计算机的能力。虽然这台服务器更多是为 AI 任务准备的,但没有人取消进行定期测试的愿望。

我们从 GeekBench 5 Compute 开始。不幸的是,这个基准测试不使用视频卡之间的互连,并且一次只测试一个设备。不过,可以用来比较 SXM4 版本的 Tesla A100 如何优于 PCIe 版本。

类别 PCIe 特斯拉 A100 40G SXM4 特斯拉 A100 40G
开放式 170137 188380 (+11%)
CUDA 213899 234890 (+10%)

我们运行的第二个基准是 ai-benchmark,这是一种性能测试,用于衡量学习速度并将各种神经网络应用于识别和分类任务。尽管此测试使用了 Tensorflow GPU,甚至在日志中也注意到显卡之间存在互连,但它仅在一个显卡上运行。因此,此测试仅用于比较不同的 Tesla A100 外形尺寸。

类别 PCIe 特斯拉 A100 40G SXM4 特斯拉 A100 40G
推理分数 25177 30158 (+20%)
训练分数 23775 27837 (+17%)
AI Score 48952 57995 (+19%)

 

结论

NVIDIA DGX A100 是一款功能强大的服务器,旨在加速 AI 工作负载。DGX 有很多复杂的技术细微差别和特性,但在一些常规性能测试中无法感受到它们。要看到这台服务器的真正威力,你需要自己去“触摸”它。。

本文导读

客户热线:037125966675

客户服务中心
云产品 服务器 合 作                  Skype