Memory

使用美光DDR5和4提升HPC工作负载th Gen AMD EPYC Processors 

作者:Krishna Yalamanchi, Sudharshan Vazhkudai - 2022-11-10
AMD和美光合作的目标是在客户端和数据中心平台上提供一流的 用户体验. To that end, 这两家公司在奥斯汀有一个联合服务器实验室, 努力确保我们减少验证服务器内存的时间,并在验证和发布过程中执行联合工作负载测试. In this blog, 我们来看一些使用Micron DDR5数据中心内存和4的常见hpc工作负载基准测试结果th Gen AMD EPYCTM 这两种沙巴体育结算平台的处理器都已经发货了.

高性能计算(HPC)工作负载历来是一些世界上最快的超级计算机的领域. These are often large-scale, 数据密集型工作负载分为数百万个并行运行的操作,并使用tb级的数据. These complex workloads are dedicated to solving some of humankind’s most challenging problems — weather and climate simulations; seismic modeling; chemical, physics and biological analysis; and more.

随着计算机体系结构的进步, 这些工作负载越来越多地托管在非常大的高性能服务器“向外扩展”集群中. 这些集群需要最新最好的计算, fabric, 内存和存储基础设施来解决可伸缩性问题, 此类关键工作负载的低延迟和性能需求. 虽然服务器cpu在性能和吞吐量方面有所提高, 在过去的几年中,DDR4内存提供的带宽已经成为瓶颈. 没有足够的内存带宽来提供越来越多的高性能内核.

美光DDR5内存和全新的AMD Zen 4服务器架构th Gen AMD EPYC Processors change that. Now, 服务器cpu和内存可以更好地平衡,为最苛刻的工作负载释放性能和效率. DDR5内存可帮助组织更快地获得这些见解,无论是在本地还是在云中. 考虑使用最新的AMD Zen 4 96核CPU和行业标准的HPC工作负载基准测试Micron DDR5时产生的一些证明点. 我们所有的测试结果都显示了两倍的性能改进. 

两倍的内存带宽与美光DDR5 + 4th Gen AMD EPYC Processors using STREAM

STREAM1 是一个简单的,众所周知的基准,用于测量HPC计算机中的内存带宽. 它为HPC系统捕获峰值内存带宽

用于此工作负载的软件堆栈
  • Alma 9 Linux kernel 5.14
  • STREAM.f  11-29-2021 release
  • Test setup
  • DDR4 system 3rd 代AMD EPYC处理器64核和3.7 GHz; DDR4 3200 MHz system2 is fully populated with 64GB RDIMM
  • DDR5 system 4th 代AMD EPYC处理器,96核和3核.7 GHz; DDR5 4800 MHz system3 is fully populated with 64GB RDIMM

  • Test results
  • 是单插槽DDR5系统378 GB/s内存带宽的两倍
  • 这意味着客户可以运行更大的人工智能/机器学习(AI/ML)项目,或者使用DDR5增加的内存带宽进行更多的HPC计算.

  • 天气研究及预报(WRF)4 采用美光DDR5运行速度快两倍

    这个HPC工作负载代码被天气和气候社区使用, 该模型被广泛应用于气象领域. WRF通常在支持高浮点处理的传统HPC架构上表现良好, 高内存带宽和低延迟网络. 对于这一努力,美国大陆(CONUS)在2.5-km lateral resolution was chosen.

    用于此工作负载的软件堆栈 
  • Alma 9 Linux kernel 5.14 
  • WRF 2.3.5 & 4.3.3 
  • Open MPI v4.1.1

  • Test setup
  • DDR4 system 3rd 代AMD EPYC处理器64核和3.7 GHz; DDR4 3200 MHz system2 is fully populated with 64GB RDIMM
  • DDR5 system 4th 代AMD EPYC处理器,96核和3核.7 GHz; DDR5 4800 MHz system3 is fully populated with 64GB RDIMM

  • Test results
  • We were able to execute 1.使用Micron DDR5和4每秒3567个时间步th 代AMD EPYC处理器 与2相比.8533 time steps per second.
  • 更快的执行时间意味着天气预报员可以选择更大的数据集或运行更多的模型. 这两项努力都改善了预测.

  • OpenFOAM5 搭载美光DDR5的芯片运行速度快了两倍

    OpenFOAM是用于计算流体动力学(CFD)的开源HPC工作负载。, 广泛用于各种行业,以减少开发时间和成本. 它模拟了从消费沙巴体育结算平台设计到航空航天设计等应用中的物理交互. 数据集中包含的一个模拟以摩托车湍流模拟为特征. 对于这个模型,OpenFOAM计算了摩托车和骑手周围的稳定气流. OpenFOAM根据用户指定的进程数对计算进行负载平衡, 然后将网格分解成各个部分进行求解. 求解完成后,将网格和解重组为单个域.

    用于此工作负载的软件堆栈
  • OpenFOAM CFD软件 (v8)摩托车网格尺寸为600 x 240 x 240
  • Alma 9 Linux kernel 5.14 
  • Open MPI v4.1.1

  • Test setup
  • DDR4 system 3rd 代AMD EPYC处理器64核和3.7 GHz; DDR4 3200 MHz system2 is fully populated with 64GB RDIMM
  • DDR5 system 4th 代AMD EPYC处理器,96核和3核.7 GHz; DDR5 4800 MHz system3 is fully populated with 64GB RDIMM

  • Test results
    Our tests demonstrated a 2.4 times relative gain for OpenFOAM, 哪个被视为拥有大型开源社区的前五大HPC软件平台. Used widely in universities and R&D centers, 软件的高并行性同时利用了内存(增加的带宽)和CPU特性(如更密集的内核).

    Molecular dynamics6 搭载美光DDR5的芯片运行速度快了两倍

    CP2K是一个开源的量子化学工具,可用于许多应用程序, 包括固态生物系统的模拟. CP2K为不同的建模方法提供了一个通用框架,例如 DFT ,使用混合 高斯和平面波方法 GPW和GAPW. 我们看的例子是水(H2在39立方埃的盒子里有6144个原子(总共有2048个水分子)。.

    用于此工作负载的软件堆栈
  • H2O-DFT-LS.NREP4 & H2O-DFT-LS
  • Alma 9 Linux kernel 5.14

  • Test setup
  • DDR4 system 3rd 代AMD EPYC处理器64核和3.7 GHz; DDR4 3200 MHz system2 is fully populated with 64GB RDIMM
  • DDR5 system 4th 代AMD EPYC处理器,96核和3核.7 GHz; DDR5 4800 MHz system3 is fully populated with 64GB RDIMM

  • Test results
    Our tests demonstrated a 2.分子动力学的相对增益为1倍, 它可以很好地扩展更多的内核和更多的内存带宽.

    Summary

    上面的结果只是一个开始—并且只是HPC工作负载的几个示例. 更好地匹配高性能的能力, 高带宽内存,具有令人难以置信的性能,由新的服务器处理器,如4th 新一代AMD EPYC处理器将成为高性能计算客户的分水岭. 我们可以期待看到更多这样的证明点,展示企业数据中心和云运营商如何在这些新平台上使用美光DDR5来解锁新的性能和效率水平. 我们期待在接下来的几个月里与你分享这些. 要了解有关Micron DDR5和数据中心工作负载优势的更多信息,请访问Micron.com/ddr5.

    1 Our STREAM benchmark setup with 2.50亿矢量大小STREAM基准- AMD 运行与1个CPU系统
    2 AMD DDR4系统是AMD EPYC 7763 64核DDR4-3200 MHz完全填充64GB rdimm
    3 AMD DDR5系统是AMD EPYC 9654 96核DDR5-4800 MHz完全填充64GB rdimm
    4 WRF with a 12.在计算存储I/O时,5km CONUS在DDR4系统上运行929秒,在DDR5系统上运行287秒. The above example is from a WRF 2.5-km CONUS that ran 2.8533 time steps per second and 1.3567 time steps per second.
    5 对于OpenFOAM,我们运行了三个变体:
    1004040运行时间在DDR4系统上= 1144秒,在DDR5系统上= 478秒
    5b 1084646运行时间= DDR4系统上的1,633秒,DDR5系统上的698秒
    5c 1305252运行时间=在DDR4系统上2,522秒,在DDR5系统上1,091秒
    6 分子动力学工作负载运行为2,在DDR4系统上为519秒,242 seconds on the DDR5 system
    Krishna Yalamanchi

    Krishna Yalamanchi

    Krishna是Micron的计算和网络业务部门的高级经理,负责向市场推出沙巴体育结算平台. 10月22日,他在数据中心发布了DDR5, 今年早些时候向市场宣布了我们的HBM和CXL沙巴体育结算平台. 此前在英特尔,克里希纳推出了3rd and 4th generation 英特尔至强通过其全球系统集成商合作伙伴生态系统支持SAP工作负载, OEM’s and Cloud Service Providers.

    Sudharshan Vazhkudai

    Sudharshan Vazhkudai

    Dr. Sudharshan S. Vazhkudai是美光公司系统架构/工作负载分析总监. 他领导的团队专注于理解内存/存储(DDR)的可组合性, CXL, HBM和NVMe)沙巴体育结算平台层次结构,并针对数据中心工作负载优化系统架构. 在加入美光之前,他在美国半导体公司工作了20年.S. 作为能源部国家实验室的主任和杰出科学家(主要是在橡树岭国家实验室和阿贡国家实验室), 建造一些世界上最快的超级计算机和存储系统, and systems software solutions. Sudharshan holds a Ph.D. 并发表了100多篇同行评议的论文,同时还在田纳西大学任教.
    +