DESIGN TOOLS
applications

Micron® SSDs, WEKA™, AMD EPYC™ and Supermicro

Ryan Meredith | January 2023

下一代AI存储:Micron®ssd、WEKA™、AMD EPYC™和Supermicro

对于超级计算2022,美光®数据中心工作负载工程团队, WEKA, AMD and Supermicro 携手成为第一个在WEKA AI工作负载分布式存储解决方案中测试第四代AMD EPYC平台的公司.

我们部署了一个解决方案,利用了最先进的硬件和软件,并使用了MLPerf™存储工作组的新基准来衡量其支持苛刻的人工智能工作负载的能力.

When I first posted about this work on LinkedIn, 我了解到,这个团队是第一个大规模测试MLPerf存储的团队,也是第一个在AMD热那亚处理器上测试WEKA的团队. Liran Zvibel (co-founder and CTO at WEKA) commented 他很高兴这个过程进行得如此顺利,“在一个全新的平台(新的PCIe®总线)上第一次运行通常会有一些困难”, new CPU, etc).”

WEKA version 4 扩展其软件定义的存储堆栈,以提高每个节点的可伸缩性和性能, necessary for taking advantage of next-gen systems. According to WEKA, it also:

数据平台是为NVMeTM和现代网络设计的吗.

提高带宽和IOPs的性能,减少延迟和元数据.

支持对本地或云中数据的广泛、多协议访问.

在不需要调优的情况下,对于混合工作负载和小文件是否比本地磁盘更快.

Supermicro provided six of its new AS-1115CS-TNR systems to use for WEKA cluster nodes. 这些平台采用第四代AMD EPYC cpu以及PCIe®Gen5背板. The specifics of the systems under test are:

AMD 4th Gen EPYC 9654P CPU (96-core)

12x Micron DDR5 4800MT/s RDIMMs

10x Micron 7450 NVMe SSDs

2x NVIDIA® Connectx®-6 200Gbe NICs

我们利用美光DDR5 DRAM的优势部署了这个解决方案, 它提供了比上一代DDR4更高的性能和吞吐量以及更快的传输速度.

我们还使用了美光7450 NVMe固态硬盘-采用美光176层CMOS在阵列(CuA)下构建。. 它结合了高性能和优质的服务, 提供卓越的应用程序性能和响应时间.

For networking, 我们使用NVIDIA ConnectX-6 200Gbe网卡,每个存储节点2个网卡,每个客户端1个网卡. 我们建议在有可用的PCIe Gen5 400Gbe NVIDIA ConnectX-7网卡时使用它,以简化网络配置和部署,并具有类似的性能.

Weka设备显示在黑色背景的微米SSD旁边

Baseline Results

我们在12个负载生成客户机上测试了FIO性能,以测量最大系统吞吐量, 在所有客户机中,每个客户机的队列深度(QD)从1扩展到32.

1m顺序读吞吐量水平折线图(绿色)
1m sequential write green horizontal chart

对于1MB的读和1MB的写,我们分别达到了142 GB/s和103 GB/s. 考虑到WEKA使用的擦除编码4+2方案,写吞吐量是惊人的. 这得益于AMD第四代EPYC CPU的极高计算性能和美光DDR5 DRAM的性能提升.

4k random read iops green horizontal chart
4k random write iops green horizontal chart

On random workloads, we measured 6.3 million 4KB read IOPS and 1.7 million 4KB random write IOPS. 这反映了集群出色的小块随机性能, 这是由美光7450 NVMe SSD的性能和延迟以及WEKA对优于本地小块NVMe性能的关注所实现的.

AI/ML Workloads: MLPerf Storage

MLPerf存储基准测试旨在测试多个模型的人工智能训练的实际存储性能. 它使用测量的睡眠时间来模拟GPU请求数据所需的时间, process it, and then ask for the next batch of data. 这些步骤创建了一个非常突发的工作负载,其中存储将在短时间内达到最大吞吐量,然后是睡眠. 这个AI基准有一些主要优势:

  • Is focused on storage impact in AI/ML
  • Has realistic storage and pre-processing settings
  • Requires no GPU accelerators to run
  • 可以从种子数据生成每个模型的大数据集吗

We tested with the following settings:

  • MLPerf Storage v0.4 (preview)
  • Workload: Medical Imaging Segmentation Training
  • Model: Unet3D
  • Seed Data: KiTS19 set of images
  • Generated Dataset size: 2TB (500GB x 4)
  • Framework: PyTorch
  • Simulated GPU: NVIDIA A100
显示吞吐速度的绿色和蓝色折线图

这个基准测试的一个重要方面是,每个MLPerf Process代表一个运行AI训练过程的单个GPU. Scaling up MLPerf storage processes reaches a maximum throughput of 45 GB/s; however, 每个进程的性能在288个进程左右开始下降. 该数据点代表288个同时运行Unet3D医学图像分割训练过程的NVIDIA A100 gpu, or the equivalent of 36 NVIDIA DGX A100 systems!

Would you like to know more?

Be sure to check out the following resources, too:

Director, Storage Solutions Architecture

Ryan Meredith

瑞安·梅雷迪思是美光存储事业部数据中心工作负载工程总监, 测试新技术,以帮助建立美光在人工智能和NVMe-oF/TCP等领域的思想领导力和意识, 以及全闪存软件定义的存储技术.