关于新一代Xeon SP服务器平台的东西写了一些,其中7月11日整理的《Intel Xeon Scalable处理器资料抢先看:存储应用、HPC性能提升》中有些高性能计算方面的测试对比。当时有朋友留言说为什么只列出资料没有解析?主要是那天时间关系,以及数字还不够全面,一直再等待更有价值的资料。
今天我看到一份《Performanceand Energy Efficiency of Dell PowerEdge servers with Skylake-SP》,觉得值得拿出来跟大家分享了,当然也包含我个人的理解分析。总的原则就是高中化学老师常说的一句话——“结构决定性质”,从性能测试数字反过来看CPU设计,我觉得比单纯研究理论更有实际意义吧:)
在这份白皮书中包含的测试项目有:SPECint_rate_base2006整数计算、SPECfp_rate_base2006浮点计算、Linpack高性能计算、STREAM内存带宽、SPECpower_ssj2008电源效率、SPECjbb2015 Java虚拟机,以及SAP SD Two-Tier ERP BenchMark。CPU统一采用顶级的XeonPlatnium(白金)8180,24条16GB DDR4-2667内存(SAP测试使用24 x 32GB内存)。
1、Xeon SP vs. Xeon E5 v4核心效率计算
对比测试平台为R740和上一代的R730,服务器设计可以参考《Dell PowerEdge R740xd解析:服务器只看参数那就错了》
单从SPECint_rate多线程整数测试来看,2颗Xeon Platnium 8180比上一代最高端的E5-2699A提升了50%。考虑到是28核vs. 22核,另外Xeon 8180全部核心Non-AVX Turbo频率可达3.2GHz,而E5-2699 V4对应频率只有2.8GHz(E5-2699A基础频率比2699高0.2GHz,没有查到详细的Turbo水平,有了解的朋友可以给我留言),两代CPU王者的整数计算核心效率很可能是相当接近的。
Intel Xeon Processor Scalable全系列SPECint_rate测试对比(点击放大,以下同)
这份白皮书中没有注明fp2006编译是否利用到AVX-512的价值,猜测可能发挥还不充分?具体原因可以和下文中的Linpack测试参照对比。(扩展阅读:《IntelSkylake-SP处理器评测(二)》)
再来看看浮点性能,这里Xeon Platnium 8180比E5-2699A提升幅度达到了64%。除了核心数量之外,Xeon 8180全部核心AVX 2.0和AVX-512 Turbo频率分别为2.8GHz和2.3GHz,E5-2699 V4对应的AVX Turbo频率是2.6GHz(E5-2699A同样不详),这样来看新一代CPU浮点单元设计改进带来的价值还是明显的。
标称2.5GHz的XeonPlatnium 8180的基础AVX-512频率只有1.7GHz,此时28核最大Turbo也只能达到2.3GHz。
关于Intel CPU在执行AVX指令时频率有所降低的情况,我在《低延时应用 & 服务器TurboBoost不可得兼?》一文中曾经介绍过DPAT技术。可以在多路服务器中只有部分CPU运行AVX代码时,设置不同CPU运行在各自的频率模式下,以发挥最大效率。
Intel Xeon Processor Scalable全系列SPECfp_rate测试对比
2、单/双FMA浮点单元显著影响HPC性能
在高性能计算行业流行的Linpack测试中,Xeon Platnium 8180比E5-2699A提高了1倍之多,这里Dell也强调了新的AVX-512矢量引擎。
Intel Xeon Processor Scalable全系列MP Linpack测试对比
这个图表稍微展开讲一点。首先除了Linpack值之外横坐标轴上还标注了一个效率值。下面的注释中介绍了计算方法——Rmax(实测)/Rpeak(理论值),其中Rpeak=插槽数 x 物理核心 x AVX512/AVX2基础频率 x 每机器周期双精度浮点运算次数(Xeon 5122及以上的2FMA型号为32,5120及以下的1FMA为16)。
于是我在中间标了一条蓝色虚线,用来区隔FMA(Fused Multiply-Add,浮点混合乘加运算引擎)的数量。在相近核心数量和主频的情况下,位于虚线右边的CPU Linpack性能大约只有左边的一半,大家知道做HPC该选哪些了吧?
我们看到Xeon SP的这个效率值普遍高于100%,例外的有两款6/8核心的Xeon Bronze 31xx低端型号。
从上图可以看出从Haswell & Broadwell(Xeon E5 v3和v4)到Skylake-SP之间的变化。上一代AVX2指令集提供了2个256-bit浮点FMA,而新一代Xeon SP则是1-2个512-bit FMA。
3、内存带宽:为什么核心数量少的差?
关于这部分使用的测试工具,我在一年前的《一项Xeon E5-2600v4测试数据的背后》中已经有过介绍,甚至下面要提出的问题都已经有了讨论结果。而这并不影响我们了解新一代CPU的内存带宽,2颗8180的223.351GB/s比E5-2699 v4提高了69%。从2012年第一代Xeon E5推出就是4个内存通道,到上一代v4支持DDR4-2400;Xeon SP提升到6通道DDR4-2667,算下来实测效率与理论设计比较接近。
Intel Xeon Processor Scalable全系列Stream-triad测试对比
上图中我用红圈标出几个内存带宽测试偏低的代表,分别还是4、6、8核心Xeon SP中表现最好的型号。在继续讨论之前,我们有必要先看看上一代Xeon E5 v4中出现的类似情况。
上图表为双路E5-2600 v4服务器测试结果
在《一项Xeon E5-2600v4测试数据的背后》一文中,我曾经提到过同样标注76.8GB/s内存带宽的CPU中,有的实测性能偏低,于是这一代ark.intel.com上都不标了(/笑)。
根据上面的CPU设计我进行过粗浅的分析,当时的过程大家可以点击链接阅读,我在这里就不重复了,重点是下面对Xeon SP的讨论。
这两张图引用自小麦老师的《为什么Xeon SP叫“可扩展处理器”?》
“网格互连”这张图已经不新鲜,我在《AMD EPYC官方资料乌龙?谈服务器CPU互连效率》一文中就引用过。这里重点看左右2个3通道DDR4内存控制器,上图是28核心Xeon SP的示意。
上图则是18核心和10核心的另外两种设计,单纯看内存控制器部分应该与更多核心的Xeon SP型号相同。所以这部分的结论也比较简单——Cache容量在一定程度上影响了CPU内存带宽的发挥。我们知道Skylake这一代服务器的每核心L2Cache容量提升,而L3 Cache降低,所以我不再将问题主要归咎于L3 Cache。
由Xeon E5 v3/v4到Xeon SP,每核心专用MLC(L2 Cache)容量从256KB增加到1MB,而共享LLC(L3 Cache)则从每核心2.5MB降低到1.375MB,总体效率应该有提高。
4、电源效率:为什么要对比四路服务器?
在看到78%提升的同时,我们还注意到对比平台换成了四路的R940(参见《Dell PowerEdge R940解析:四路顶配服务器维护平民化》)和R930,Xeon Platnium本身就支持4-8路。
这里不做详细分析,只讨论一点——为什么对比四路而不是双路平台。如果您看过《四路Xeon SP服务器内存减半:Intel葫芦里卖的什么药?》可能想到原因了吧?新一代四路Xeon SP不需要大量的SMI2内存桥接芯片,CPU整合的内存控制器直连DIMM,所以更加省电哦:)
SPECjbb2015是贴近实际应用的JVM测试,瓶颈不完全在于CPU,XeonPlatnium 8180的领先幅度没有前面单纯的计算/内存带宽Benchmark那么大了。
5、SAP SD2 ERP测试:创造新纪录无悬念
SAP-SD 2-Tier全称为Sales andDistribution (SD) Standard Application Benchmark,两层Internet配置(简称SD2)。该测试衡量的是ERP软件的处理性能,支持多种操作系统和后端关系型数据库,上面图表引用的都是SAP网站公布的数值,运行了Linux系统和Sybase ASE数据库。
配置Xeon Platnium 8180的PowerEdge R740服务器,SD2测试32,085用户数比上一代R730提高了44%。做为参考,我还查看了四路PowerEdge R930的最高测试结果为43,300,而新一代R940则提高到了62,500(见下图)。
最后列出本文中引用Benchmark结果的白皮书出处,希望对大家有帮助。如果您觉得我的分析写的还凑合,也欢迎直接转发哦:)
参考资料
《Performance and Energy Efficiency of Dell PowerEdge servers with Skylake-SP》
http://en.community.dell.com/techcenter/extras/m/white_papers/20444326
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文。感谢您的阅读和支持!
原文链接:https://mp.weixin.qq.com/s?__biz=MzAwODExNjI3NA==&mid=2649776443&idx=1&sn=46f05e5cbe742329c9a84286d3d0a0be&chksm=83770066b4008970add338f18ad95849df224be1a89d533547a9cf61cb890627b712337d40bb#rd