2017年7月,英特尔正式发布了全新至强可扩展系列处理器家族,英文名称为Xeon Scalable Processor。全新处理器带来了大量新技术和更强扩展能力、更多核心,同时将Xeon处理器的命名规则更改为至强铂金处理器、至强金牌处理器、至强银牌处理器和至强铜牌处理器。英特尔至强处理器面向的用户是企业级用户以及云计算、关键业务和大规模科学计算等领域的用户。新的至强可扩展处理器仍旧是基于英特尔的14nm制程,内部核心布局更新到了最新的Mesh架构。那么,这一代至强为何要命名为“可扩展处理器”?它又有哪些不容错过的技术亮点呢?
规格飞跃:可扩展的四大“段位”
按惯例,在拿到一款新产品时,应该先来看看产品的命名和产品型号划分。对于全新至强来说,可扩展就成为最关键的一点。要明白可扩展的含义,还得从上几代至强产品来看。对至强家族来说,以往的分级基本上是基于任务和性能导向,单路针对工作站级的产品是Xeon E3,双路针对主流企业级市场的是Xeon E5,而针对关键业务、高性能需求的是Xeon E7。E3、E5、E7处理器之间的接口、尺寸、散热设计等完全不同,甚至内存支持也存在差异,所以基本上是不能互相替换的。
但是,在CPU性能发展到一定阶段之后,由于至强E5的性能不断提升以及云计算式的解决方案不断成熟,用户发现在一些企业级应用中,E5与至强E7之间开始出现了一定的可替换性。这就使得在先前至强体系中的分级开始变得模糊。于是,英特尔今年干脆从命名上取消了Xeon E5和E7两条产品线,将其统一叫做“至强可扩展处理器家族”(Xeon Scalable Processor),然后再在具体产品应用分级时使用铂金、金牌、银牌、铜牌这样浅显易懂的命名方式来区别其性能和定位。
更重要的是,这一代至强可扩展处理器的接口完全统一了,从命名上便突出了“Scalable”,即可扩展性。这就完全解决了用户可能遇到的弹性扩展问题,把原本区隔开来的两个市场合二为一,用户未来无论是希望“Scale UP”纵向扩展还是“Scale Out”横向扩展,都不再成为问题。从硬件规格和配套芯片组的角度来看,至强可扩展处理器家族中所有处理器都使用相同的Puelry平台芯片组和Socket P接口,使得所有的处理器在硬件尺寸和安装规格上完全实现扩展可能性。
从内核设计的角度来看,新一代至强可扩展处理器家族升级到了代号为Skylake-SP的核心微架构,其最大的特点是放弃了之前的环状总线架构,采用了全新的Mesh网格化架构,使得在核心扩展越来越多时,各个核心的延迟可以降到最低,具体我们后面再详细分析。
在扫除了提高可扩展性第一道障碍后,接来下就是理清具体型号、对应的产品需求了。英特尔在至强可扩展处理器家族上彻底放弃了之前“E+数字”的命名方式,转而采用了一种更商业化的、更容易理解的命名,并且将产品分为四个“段位”。
新一代至强可扩展处理器中最高端的是至强Platinum(铂金)家族:提供最强性能、最多核心和最强大硬件扩展能力,支持最先进技术、最强安全性能和业务敏捷性。产品命名为至强Platinum 8000系列,核心数量从22核到28核心不等。比如旗舰型号至强Platinum 8180,28核心56线程、基础频率2.5GHz、最高睿频频率3.8GHz、三级缓存38.5MB、TDP为205W;另外,Platinum 8180还有带“M”后缀的加强版本,最大支持内存从六通道768GB提升至六通道1.5TB。
次高端的是至强Gold(金牌)家族:提供卓越性能、快速的内存、丰富的扩展能力和加速引擎接口、坚实的可靠性。产品型号方面则是至强 Gold 5000和6000系列,核心数量从14到22核不等。典型的产品有至强Gold 6154,具备18核心36线程,默认频率高达3GHz、最大睿频3.7GHz、三级缓存24.75MB、TDP功耗为200W。
接下来是至强银牌家族:提供优秀的性能功耗比。具体型号方面则是至强Silver 4000系列,核心数量从10到12个。典型的产品型号如至强Silver 4116,具备12核心24线程,默认频率2.1GHz、最大睿频3.0GHz、三级缓存16.5MB、TDP功耗为85W。
最后是至强铜牌家族:提供入门级性能。本文截稿之时,英特尔官网已有两款至强铜牌处理器现身,均属于至强Bronze 3000系列,核心数量在10个以内。典型的产品型号如至强Bronze 3106,具备8核心8线程,默认频率1.7GHz、三级缓存11MB、TDP功耗为85W。
全新特性解读
和产品名称类似,至强可扩展处理器的架构名称也带“SP”字样,被称为Skylake-SP。和英特尔前几代服务器处理器微架构是在桌面版本微架构的基础上进行优化和扩充一样,Skylake-SP同样也来源于桌面版本的Skylake,但针对服务器和工业、云计算、大数据等场景做出了更进一步的系列优化。
根据英特尔的数据,Skylake-SP在核心、内存、缓存、I/O等组件上都有深入优化,每时钟浮点性能提升了2倍,8K数据块压缩速度可达100Gb/s,平均性能提升高达1.65倍,数据保护性能提升高达2倍,相比四年前的产品,总体拥有成本降低了65%。那么,英特尔是怎么达成如此显著提升的呢?简而言之,最重要的几点分别是—全新Mesh互联架构、全面改进核心架构、全新接口和芯片组等。
全新的Mesh互联架构
由于处理器的核心越来越多,片上互联架构就成为厂商关注的重点,因为这直接影响到处理器内部核心通讯效率,也直接影响处理器性能。在前几代的产品中我们看到,随着核心越来越多,要保证每个核心的缓存在被共享读取时保持高效,已经变得越来越困难。
而所谓Mesh架构,是指网状结构。顾名思义,Mesh本身就像我们常见的渔网一样,是由经线和纬线组成的孔洞结构,在Mesh架构中,内核被放置在经线和纬线交叉的点上,并和周围的核心通过总线交叉相连,形成一个二维结构。为什么上一代不用Mesh呢?其实这跟核心的数目有很大的关系。事实上,核心采用怎样的连接方式,并不是一成不变的选择。我们知道,Skylake微架构的第七代酷睿处理器Core i7 7900X在游戏性能表现上是落后于六代酷睿Core i7 6950X的;有分析认为,导致性能出现落后的原因就是其核心采用Mesh布局。在核心数量较少时(同为10个核心),Mesh的效率并不比环状总线强,这或许是英特尔没有更早地采用Mesh架构的原因。
到上一代英特尔至强E5 2699V4为止,环形总线已经发展到总共左右两组,通过两个Switch Bar来控制一致性。每组总线环上最多可以挂接12个处理器核心和它们的缓存,环之间通过高速接口实现数据互通。那么,本代至强为何取消了经典的环状总线架构,改用了全新的Mesh架构呢?
据笔者了解,最重要的还是为了降低极限情况下的延迟。环状总线每个环能承载的核心数量是有限的,扩展越多延迟越高,看样子12个就已经是极限。我们以前介绍的上上代至强的环状总线上只有一个Switch Bar,上一代是两个,那么再扩展更多的环出来,就要通过更多的Switch Bar来保证一致性和平衡延迟,这时候效率可能就已经不如Mesh架构了。所以在这一代,英特尔不惜在消费级上背上新不如旧的“恶名”也要整体改结构。毕竟从成本的角度讲企业级和消费级只会在一个微架构上共存,而面向企业级的产品需要更多的核心,所以提升其效率是更重要的。
采用Mesh网络后,每一个内核都会成为Mesh网络的一个节点,可以发送和接收数据,数据通路从之前的环形总线一条通路变成了很多条通路。这样一来,处理器内部的通讯就会变得非常顺畅。举例来说,环形总线情况下,两个环中距离最远的2个内核之间的数据通讯,在不考虑Switch Bar等其它延迟的情况下(其实这种延迟更高),光数节点,其延迟就要超过11个周期,但是在Mesh网络中,由于平铺设计,内核布局从环形的1D向2D迈进,因此28核心之间最远的两个核心,其延迟也仅需要大约9个周期。
英特尔在采用Mesh布局处理器内核后,轻易将处理器内核数量从24个提高到了28个。事实上,如果不需要殚精竭虑如何优化延迟,显然核心数量的扩张会更容易,而如果未来工艺方面进一步提升,Mesh网络还能容纳下更多核心。理论上这不会受Mesh架构本身的影响,而是受工艺和功耗限制,毕竟28核心处理器的TDP功耗已经高达205W了。
缓存和内存结构变化巨大
缓存结构是影响处理器性能的核心结构。在Mesh架构上,由于处理器内部结构变化,诸如缓存这样的关键性参数也发生了变化。之前的环形总线处理器的L3缓存可以做得很大,用于各个处理器共享。
在采用Mesh的Skylake-SP中,内存数据将直接写入L2,而不是像上代产品一样还需要同时写入L2和L3;L3在Skylake-SP上只是作为L2的“辅助”,并且是非包含结构,数据和L2互相独立。前代架构的L3是包含式结构,含有L2数据,被当做主力缓存使用。因此,Skylake-SP的L2缓存需要做得更大(大约1MB每核心,远超前代256KB每核心),L3缓存由于调用方式改变,不需要更大容量,因此被显著缩小(从前代2.5MB每核心降低至1.375MB每核心)。举例来说,至强可扩展处理器 Platinum 8168的L3缓存为33MB,但是同为24核心的至强 E7-8894的L3缓存却达60MB,这并非倒退,而是技术改进造成的。
▲由于Mesh结构和之前的环形总线结构差异巨大,因此Skylake-SP的缓存部分也作出了巨大改变,缓存改用了非包含式设计;根据英特尔数据,缓存性能表现还是非常值得称道的,值得注意的是L2和L3缓存延迟略有上升。
在缓存体系改变后,英特尔还给出了一些数据用于证明改变的有效性,包括:缓存命中率提升、缓存延迟轻微上升—在更多的核心下这是一个非常好的结果。除了缓存外,英特尔在内存上也做出了改善。现在Skylake-SP处理器上拥有2个内存控制器,每个控制器拥有三个DDR4内存通道,最高可达DDR4 2666,可以实现6通道内存模式。在内存控制器的布局上,英特尔将内存控制器加入Mesh网络,这就大大降低了多个核心在调用内存数据时的延迟,大大提升了内存工作时的效率并提升了实际有效带宽。根据英特尔的数据,Skylake-SP的内存带宽在延迟没有显著提升的情况下得到了极大的增长,更符合多核心处理器的设计和使用需求。
▲内存部分设计也改用了全新架构,六通道,最高支持DDR4 2666,支持RDIMM、LRDIMM、以及3DS-LRDIMM,每个插槽最大支持1.5TB内存。
核心架构进化
虽然Skylake-SP内核与桌面版Skylake架构有相近之处,但也做出了不少改进以适应企业级应用的要求。比较重要的核心部分改进包括—分支预测单元大幅度改进、提高了解码部分的吞吐能力以及更大的ILP提取窗口;调度器和执行引擎部分提高了效能、吞吐量并降低了延迟;缓存部分的改进在前文曾提到过一部分,主要在预取部分和缓冲区。
最值得关注的部分则是全新的AVX-512增强,包括每个内核配备1+1个FMA单元以及搭配1MB的缓存。在全新Skylake-SP上,英特尔在AVX指令集上又做出了重大升级,加入了对AVX-512的支持——AVX-512实现了单次计算512位的矢量数据,大幅度提升了系统的浮点性能,这个计算能力之前出现在英特尔的XeonPhi(Knights Landing)计算卡上,在至强中出现还是首次。
说起AVX-512指令集,就不得不提及AVX指令集。AVX指令集是英特尔继MMX、SSE之后提出的一整套名为Advanced Vector Extensions高级矢量扩展(简称为AVX)的指令集,指令集宣布时间为2008年3月,最早集成的实际产品是Sandy Bridge处理器,Windows 7 SP开始提供系统层面的支持。在最初的版本中,AVX指令集可以通过支持256位矢量计算大幅度提高浮点计算性能,并且可以实现包括数据重排、支持三操作数或者四操作数、支持不对齐的内存地址访问等功能。
由于AVX的存在,英特尔处理器在对浮点运算要求极高的视频实时编解码、FIR矢量操作、Matrix Addition操作等方面取得非常出色的性能提升。为了更好地支持AVX-512,英特尔在硬件设计上也有相应加强。比如Skylake-SP的内核不但有1个FMA用于加速AVX-512计算,Skylake-SP还可以通过加速接口Port 5外挂一个AVX-512加速单元,这样就能够实现同时处理2个AVX-512指令。
在指令规格上,根据英特尔说明,Skylake-SP的AVX-512加速可以运行诸如AVX-512-F、AVX-512-VL、AVX-512-BW、AVX-512-DQ、AVX-512-CQ等不同的指令,面向不同应用领域,不但快,而且全。由于硬件大幅度加强,性能自然不会弱。从微架构角度来看,支持AVX-512的Skylake微架构的每周期DP FLOPS能力高达32,单精度SP FLOPS高达64,相比以前的Haswell和Broadwell翻了一番,相比早期的Nehalem的单精度8、双精度4的计算能力更是不可同日而语。
在实际产品的性能方面,根据英特尔数据,AVX-512每瓦特GFLOPS性能是SSE4.2的4.83倍、AVX的1.74倍、AVX2的2.92倍;每GHz的GFLOPS性能是SSE4.2的4.19倍、AVX的1.95倍、AVX2的3.77倍。如此强悍的规格和性能提升,使得Skylake-SP在面对编解码、加密解密、数值计算、高精度渲染等应用上显得更游刃有余。另外,由于AVX-512的存在,Skylake-SP在目前大热的深度学习等方面也会有相对上代产品更为出色的性能表现。
搭配芯片组更强大
最后再来看看芯片组方面的改进。Skylake-SP采用全新LGA3647封装,搭配Socket P接口的C620芯片组,支持双路、四路或者八路处理器,在八路运行的情况下,系统中将存在224个处理器核心和448个线程。
▲在英特尔发布会体验区,有合作伙伴展出了支持新一代至强可扩展处理器的单路主板,适用于需要组建小型服务器、工作站的用户。
外部接口方面,Skylake-SP的芯片组可以提供14个SATA 6Gbps、10个USB3.0、20个PCIe 3.0、SATA Express、NVMe、RSTe、四个万兆以太网端口的等外部配置。如此强大的扩展能力与新一代至强可扩展处理器的48条PCIe 3.0通道搭配,可满足数据中心和云计算中心等需要大量存储场合的用户需求。
基准性能实测
2016年,《微型计算机》评测室在同一台英特尔双路服务器(基于S2600WT主板)上分别安装了至强E5 v3的旗舰型号E5 2699 v3和至强E5 v4的旗舰型号E5 2699 v4,内存统一为8条32GB DDR4 2400组成的256GB四通道内存(E5 v3由于内存控制器的限制,最大仅运行在DDR4 2133频率)进行了一系列测试。
▲Xeon SP的旗舰型号Platinum 8180处理器(左)实拍,右侧参照物为E5 2699 v4。
为了更直观地观测新一代至强可扩展处理器平台(双路Platinum 8180及六通道、12条DDR4 2666内存)在性能上相对上两代产品的进步幅度,我们搭建了与去年高度一致的系统环境。
测试环境
本次测试以行业公允的SPEC cpu2006 v1.2为主要考察对象,由于时间及版面的限制,同时为了使得测试成绩能与我们先前测试过的至强E5 V4、E5 V3等历史产品的成绩进行横向对比,本次测试暂时未采用SPEC cpu2017(2017年6月下旬发布)。为了运行SPEC cpu2006测试,我们为测试平台安装了Windows Server 2012 R2系统(与先前测试过的至强E5 V4、E5 V3一致),还安装了Visual Studio、C++/Fortran Compiler编译器。此外我们还额外加入了结果可读性更高、更便于理解的SiSoftware Sandra、CineBench R15测试。
测试结果点评
对于SPEC cpu2006测试,我们一般关心SPECint_base2006、SPECfp_base2006、SPECint_rate_base2006和 SPECfp_rate_base2006这4个得分,前一组(_base)得分衡量平台完成单个任务的快慢,后一组(_rate_base)得分衡量平台的运算吞吐性能。此外,SPEC CPU 测试还会给出两种类型的结果:Base基准测试结果和 Peak 峰值测试结果,Base 测试要求编译器套件按照指定的规则进行优化,而Peak测试则可以允许使用更多优化技术,作为平台对比,我们均选择 Base 测试结果。
▲SPEC cpu2006是行业公允的服务器、工作站处理器性能测试软件,可以看出,新一代双路至强铂金8180处理器相比上代双路E5 2699 V4平台有着全面性能优势。
▲CineBench R15结果表明新一代至强可扩展处理器在多核心性能上相对于消费级处理器的巨大优势,至强铂金8180处理器在单核心性能方面也有亮眼表现。
▲从SiSoftware Sandra的测试结果,我们可以一窥新一代至强可扩展处理器相比上一代产品在内存带宽、延迟、内联核带宽等方面的提升幅度。
最终测试结果显示新一代至强可扩展处理器比上一代产品在性能方面有显著提升,例如在SPEC cpu2006 Cint rate性能测试中,至强铂金8180的性能得分2720,比上一代型号E5-2699 v4的1690分高出了60.9%。通过对比,至强铂金8180的单个任务处理能力相比上一代产品分别提升15.5%(SPECint_base2006得分81.2)和33%(SPECfp_base2006得分153),由于该项测试大部分时候仅使用到单个核心(处理器运行在最高睿频),至强铂金8180(3.8GHz)相比 E5 2699 v4(3.5GHz)频率有所提升,可见主频及架构优势明显;在多核心满负荷测试(运行CineBench或SiSoftware Sandra)时,至强铂金8180全部核心可工作在2.9GHz~3.0GHz频率(Skylake-SP的睿频具有6档峰值频率),凭借主频、架构以及更多核心的优势,相对于满载全核心2.8GHz的E5 2699 v4而具可具有50%左右的综合性能提升。
写在最后
数字化经济在改变着每行每业,在2017英特尔至强可扩展处理器发布会上,英特尔行业解决方案集团中国区总经理梁雅莉女士举了一个例子—滴滴出行,一个没有车、没有司机的公司在五年之内改变了每个人出行的方式,将来也许会改变城市交通运营和管理的方式。我们生活在数据“洪流”的时代,随着技术不断创新,从互联网到移动互联网到物联网、云计算、人工智能和的无人驾驶,所有的数字化应用无论在消费市场还是在企业市场都处于快速增长之中。
据预测,到2020年为止,每天,每个互联网用户将产生1.5GB的数据、一个数字化的医院会产生3TB数据、一台无人驾驶汽车产生4TB数据。所有海量数据背后对大家意味着什么?意味着处理这些数据所需的服务器运算能力面临严峻考验。从新一代至强可扩展处理器的升级之处、应用实例来看,业界对更多核心、更高性能、更好互联性的追求是永无止境的。如何更好地把海量数据变成企业的竞争先机?这是留给新一代至强可扩展处理器这样的云时代基础设施及相关参与者的宏大命题。
2017至强可扩展处理器前沿应用实例
腾讯云:携手新至强共创更大价值
“过去十年,腾讯的数据存储量增长非常迅猛,我们预计很快我们到ZB级别。为处理这些数据,我们不断更新基础架构,使用英特尔最新的产品满足爆发式的需求。如今英特尔的多核并行技术,使用更高密度的CPU、更多核芯来并行处理数据,之前很多台服务器处理的数据现在单台就能完成,而Intel AVX-512,也使得新一代处理器的处理能力大大提升。基于我们与英特尔新产品的合作,我们目前单CPU的vCPU核数高达96个,较之前提升了71%,而功耗仅为1.25PUE—这相比目前国内的平均水平节能15%以上。根据最新的测试结果,搭配英特尔六通道的DDR4内存,相比下一代我们的第三代云服务器,内存性能提高高达60%,最受市场欢迎的定制化物理服务器黑石产品整体计算性能最高提升88%。对于云计算服务使用者这意味着更低功耗、更低的创新成本,带来更多的创新机会。我们相信随着腾讯云自然语言处理、语音识别、图像识别、大数据和人工智能服务的广泛应用,腾讯和英特尔的合作将基础继续加速社会的智能化创新以及创新发展”。
国家气象局:新至强助力“看云识天象”
“中央气象台除了向公众提供预报外,防洪减灾是我们气象部门每年工作的重中之重……定时定量的气象预报,背后的支撑就是‘数值天气预报系统’,我们国家‘数值天气预报系统’是建立在超级计算机之上的一个天气预报系统。天气预报是一个非常典型的高性能计算的问题。目前,国家气象中心采用的天气预报系统是建立在两台高性能计算机上,峰值性能500T FLOPS。这两台系统非常繁忙,就像高峰时期北京的交通一样不堪重负,所以我们计划很快将建立一个新的更高性能的高性能计算机。这台高性能计算机预计它的峰值性能应该在8P B左右,它的基础就是今天发布的新一代至强处理器。我们也对这个新的至强C PU进行了一点测算,测算结果是在没有改变任何程序的情况下,没有做任何针对至强优化的情况下,它的性能比上一代C P U计算性能提升30%。我们希望尽快的能够建立这套系统,在不久的将来我们能够让新一代至强可扩展处理器在我们的业务数值天气预报中采用,在我们国家未来的防灾减灾工作中发挥作用。”