“你怎么也这么关注9200?”浪潮服务器产品部副总经理陈彦灵的反问中夹杂着不解。
确认过眼神,我找到知音。和那些媒体、分析师们不同,我这么关注至强铂金9200恰恰是为了证明,它不值得被过多关注,猎奇心态倒还行。
4月3日英特尔(Intel)正式发布代号Cascade Lake(CLX)的第二代至强可扩展处理器(Xeon Scalable Processor,XSP),同步放出全线产品的主要规格已成为我们的保留曲目。然而,出于不便明说的原因,此次全球媒体提前拿到的资料中有一些错误,最为明显的一个就是Platinum 8256被标为24核——同时还拥有高达3.8/3.9GHz的频率和低至105W(瓦)的TDP,如果全部属实,那其所采用的制程就不是14nm了,怕是奔着4nm去啦……
再看前一代的8156,同样的105W,略低200MHz的基频和睿频,却“仅”为4核,可见8256也应该是一款4核型号,24核显然是笔误在“4”前面多写了一个“2”所致。
这和Platinum 9200又有什么关系呢?很简单:如果高频率低能耗的8256都能有24核,那还鼓捣出个9200系列干嘛?
用不起的超多核
地球人都知道,AMD基于7nm制程(I/O Die仍为14nm)的第二代EPYC处理器(代号Rome,罗马),将于近期推出;而大英基于10nm制程的Ice Lake-SP(Scalable Performance)还要等到明年,这段期间只能靠14nm(++)制程的Cascade Lake-SP和可能的Cooper Lake-SP硬撑,在核心数量等硬指标上呈现被甩开的态势。
为缓解这一压力,英特尔不惜以曾经非常不屑的“胶水”战术回应,推出代号Cascade Lake-AP(Advanced Performance)的至强铂金9200系列。Cascade Lake-AP的实现方式简单直接,就是把2个Cascade Lake-SP(对应至强铂金8200系列)封装为一,核心数量从去年11月面向高性能计算(HPC)市场放出的2×24(48核Platinum 9242),升级到已达Cascade Lake-SP上限的2×28(56核Platinum 9282),TDP也从350W来到了400W,都比以高功耗著称的GPGPU还要高。
直到正式发布,9222和9221都处于一种“薛定谔的250W”状态……还好它俩只是配角
大英官网上很难找到9200系列的完整规格信息,有限的资料表明,其封装形式为FCBGA5903,触点数比8200及以下(FCLGA3647)多出60%以上;AnandTech的报道显示,其封装尺寸为76.0×72.5mm,比8200及以下(76.0×56.5mm)大出近30%。其实,不用了解这些细节也可以想见,9200系列对现有服务器的设计(尤其是散热)提出了太大的挑战,且自身性价比很差,互联网、云计算公司和绝大多数企业客户不会仅仅因为能获得更多的核心就采购它。
英特尔自身当然最清楚这一点。如果把铂金9200系列看作是英特尔的“形象工程”,就不难理解,其采用BGA封装直接焊于主板上、直接以整机形式通过渠道合作伙伴销售(而不是向服务器ODM/OEM提供处理器)的做法,不是英特尔突然转性打算“吃独食”,而是这种欠缺技术含量的“二合一”本来就是无奈之举,不希望其成为常态。既然现在不会有多大的销量,未来也不打算继续发展,何必要增加一种插座规格呢?
搭载9200系列的Intel Server System S9200WK家族产品是半宽的1U或2U节点,需要配合2U的Intel Server Chassis FC2000使用,支持液冷方案。图中为2个2U节点,可以看到高大的散热片
有些产品的成功,对应着公司的无奈。反之,若是10nm的Ice Lake进展顺利,可能就没有必要再出一代14nm的Cooper Lake,对英特尔来说应该算是好事情。
然而,远处的Ice Lake解不了近渴,云计算公司当下的“核数不足恐惧症”既然不能指望9200,还能靠谁呢?开放计算项目(Open Compute Project,OCP)董事会成员、英特尔公司副总裁兼以数据为中心(Data Centric)首席战略官Jason Waxman的回答是——浪潮与Intel联合推出首款专为云计算优化的四路服务器Crane Mountain(NF8260M5)。其他厂商可以参考这个系统设计,开发更多面向云计算场景的四路服务器系统。
公有云服务提供商采用四路服务器,可以追溯到AWS在2015年发布X1超大内存实例:基于四路至强E7-8880 v3,最高可提供2TB内存,超过100个vCPU。这里使用四路服务器平台是为了打造超大型虚拟机(VM),以满足SAP HANA等超大型应用的需求,而不是为了在单台服务器或单位空间内提供更多较小型的虚拟机——仍然是典型的Scale-up(纵向扩展)场景,并非云计算主流的Scale-out(横向扩展)模式,所以没有普及开来。
当然,正如在Skylake发布之后,我在文章中所说:
根据作用范围的不同,Scale-up和Scale-out可以是相对的概念。举一个范围逐级递减的例子:服务器层面:一台有2个CPU(双路)的服务器,要得到4个CPU,在这台服务器内部增加2个CPU,变成四路的做法,通常被称为Scale-up;而再增加一台同样的双路服务器,两者之间通过网络连接,也形成一套共4个CPU的系统,通常被称为Scale-out;CPU层面:在这台双路服务器内部,要获得多一倍的内核数,把CPU升级到具有2倍内核数的型号,可以被称为Scale-up;CPU不变,但通过CPU之间的互连把数量增加到4个(四路),可以被称为Scale-out(在上一级属于Scale-up);……
公有云服务提供商不会纠结于这些概念,他们在乎的是单位计算能力的成本,以IaaS为例:在采用同款CPU的前提下,如果一台四路服务器能够比两台双路服务器更便宜,意味着提供同样VM的总成本更低,那就有可能获得较大范围的采用。
问题恰恰在于,对发展了四代的至强E5/E7,“同款CPU”这个前提就不成立:E5的双路(2600)和四路(4600)、四路的E7(4800)之间互不兼容,再加上其他一些人为因素,四路服务器的生态发展不起来,在双路服务器面前,毫无价格优势。
从Skylake开始,不管是UPI是2个还是3个,都可以配置为四路或双路,灵活性大为提升
以Skylake为代表的至强可扩展处理器(至少部分)打破了这一藩篱,至强铂金(Platinum)8000和金牌(Gold)6000系列都有3条UPI,可以自由配置为双路或四路。特别是国内领先的云服务提供商阿里云(Platinum 8163)和腾讯云(Gold 6133),定制的Skylake处理器正好落在这个区间,双路、四路都能上,关键就看系统和软件层面的支持了。
伴随着Skylake的发布,几家服务器大厂先后推出了可以在双路和四路之间自由切换的新一代服务器,这种设计充分利用了中高端至强可扩展处理器的新特性,比较体现技术含量,代价是提高了系统的复杂性和成本。企业客户可能喜欢这种灵活性,但其模块化程度还不足以打动部署量以千计的公有云服务提供商,经济性反而有所欠缺。
高密度云平台
代号Crane Mountain的浪潮NF8260M5是一款2U四路(2U4S)服务器,在主板、风扇、网卡等物料成本上都要低于2台2U双路(2U2S)服务器的组合,节省空间的优势就更为明显。浪潮集团副总裁胡雷钧在2019 OCP全球峰会的主题演讲中介绍,NF8260M5的高密度四路设计包括降低风扇能耗在内的TCO节约可达两位数(百分比),浪潮将与英特尔联合推向市场,并作为首个高密度云优化平台贡献到开源社区。
用户需要获得更多核,大英可以卖出更多CPU,以四路打双路不失为一种思路。
左侧是至强铂金8000系列和金牌6000系列(3或2UPI)的四路互连;右侧是至强珀金9200系列,只能配置到双路
有趣的是,由于双路至强铂金9200本质上相当于4个铂金8200互连,所以,不妨从CPU、内存、I/O扩展三个方面对比Crane Mountain与9200的实现效果,可以看到为什么说前者更适合云计算市场,而后者只聚焦在以HPC为代表的(相对)小众市场。
CPU:分布,更好散热
TDP 250W的至强铂金9222和9221只有32个核心,系列的门面还是350W的9242和400W的9282。这么高功率的CPU,对服务器的散热构成很严峻的挑战,搭载9200系列的Intel Server System S9200WK尤甚。如前所述,9200系列只能以双路的配置出现(铂金家族中无法正常支持四路的几朵奇葩),可能是出于进一步提高计算密度的考虑,S9200WK家族为1U或2U高度的半宽设计。
在如此狭窄的空间内排列两个400W的CPU,常规的风冷(Air-Cooling)技术已经难以支撑。所以,2U半宽型号采用高速风冷可以支持到350W的CPU(铂金9242),1U半宽型号就要求配合冷板式液冷(Direct-to-chip Liquid-Cooling via cold-plates)技术了。
Crane Mountain(浪潮NF8260M5)的效果图,可以看到整片主板上错位排列的4个CPU插槽,以及居中的风扇模组
就云计算的场景而言,2U全宽的NF8260M5计算密度已经够高,内部有充足的空间,将气流方向上的前后两个CPU略为错开排列,6组高转速风扇介于两者之间,从而保证了每个处理器都能获得所需的冷却气流。何况铂金8200系列最高只会到205W,散热压力明显低于9200系列。
内存:更大,更多选择
理论上,铂金9200系列的内存和I/O通道两倍于8200系列,但受限于S9200WK的高密度设计而无法达到。
Intel Server System S9200WK的9200(散热片下)及其12个DIMM,1DPC的设计只能使用“正经”内存,倒也符合其高性能计算的定位
铂金9200系列的内存通道数量高达12个,是8200系列的两倍,不过在半宽的S9200WK中,巨大的CPU(及其散热片)两侧只能容纳12个DIMM槽,即每个内存通道仅有1个DIMM槽(1DPC),这意味着其不能支持傲腾数据中心级持久内存(Intel Optane DC Persistent Memory),因为后者需要与DRAM(我们通常意义上理解的“内存”)配合使用。
NF8260M5则不打折扣的提供了48个DIMM槽(2DPC),总内存容量可以比双路9200更高,不仅可以全DRAM运行SAP HANA等超大型应用,也可以利用DCPMM(Optane DC Persistent Memory Module,傲腾数据中心级持久内存模块)的大容量、相对廉价、非易失等特性,支持更多的Redis实例(内存模式)或加快SAP HANA的重启速度(App-Direct模式)。
I/O:更多,更能扩展
半宽节点本来就很难发挥双CPU的全部I/O能力,每个S9200WK双路节点仅有80条PCIe,比双路Cascade Lake-SP的理论值(96条)还要少。陈彦灵认为这倒不是什么大问题,一般每个CPU出2个x16 PCIe,主CPU(CPU0)再多提供16条供板载网卡等用途,80条正好够用。
前面板24个2.5英寸驱动器槽位是2U双路服务器的常规操作,CPU数量翻倍至四路后,要求存储(硬盘/SSD)背板具有更好的通风能力,NF8260M5选用小尺寸的OCuLink连接器,以尽可能的减小背板面积
NF8260M5的四路Cascade Lake-SP理论上可以提供192条PCIe 3.0通道,多出来的这些PCIe能支持前面板的24个2.5英寸槽位全插入高性能的NVMe SSD。当然,云主机通常不太依赖所在节点的本地存储,高性能NVMe SSD还会增加对散热系统的压力,但这起码说明了“真·四路”系统较为均衡的能力。
多路互联网时代
作为一款四路服务器,Crane Mountain的定位主要体现在匹配云计算的高密度和低成本。
以机柜级的密度而论,云计算介于高性能计算和企业数据中心之间。由于功率密度很高,高性能计算市场对液冷技术的认知和接受情况较好,单个超算项目的规模也不会很大(与大型互联网/公有云相比),所以英特尔S9200WK家族产品的超高密度设计和至强铂金9200系列处理器的高成本、高功耗,以及由此产生的液冷需求,确实更适合高性能计算应用。
浪潮的数据显示,由于风扇数量减少(虽然单个风扇的风力更强),NF8260M5可以比2台双路服务器更节能
浪潮NF8260M5主要对标云计算市场广为采用的2U双路服务器,其2U四路设计具有双倍的计算密度,在提供同等计算资源的情况下,具有更低的BOM成本并更为节能,占用的机架空间、网络设备(网卡、线缆、交换机端口)和服务器数量可以降低一半,也有助于简化管理,从CapEx到OpEx都有不同程度的节省。
从上层软件的角度来看,即使在企业级市场,能够充分发挥四路服务器计算能力的应用也不是很多,互联网更是少之又少。IaaS类云服务则可以绕开这一阻碍,由hypervisor来分配硬件资源,“韩信将兵多多益善”,反正是切分成不同大小的VM,并不要求应用直接适配四路服务器,就能较为充分的利用其所提供的计算、存储和网络等资源,也是大家看好Crane Mountain这类四路服务器在公有云市场发展前景的依据之一。
同时,随着人工智能应用的兴起,越来越大的计算模型,需要服务器有越来越大的内存容量,以及连接更多加速器的能力,这些都是四路乃至八路服务器的天然优势,于是它们也开始获得大型互联网公司的青睐。
去年OCP美国峰会上,浪潮携手微软推出的Project Olympus体系中第一款四路服务器NF8380M5,应用场景之一便是连接HGX-1 GPU加速扩展节点;今年的OCP全球峰会上,Facebook更是公布了配合其开放加速模块(Open Accelerator Module,OAM)的模块化八路(4x 2S)计算平台Zion。从Jason Waxman的主题演讲来看,今年Cooper Lake处理器平台亦会有双路、四路(2x 2S)和八路(4x 2S)的设计……多路服务器的春天,怕是真的要来了?
变革与创新,从未停息。DT时代(微信号:DTtimes)聚焦最新基础架构设施和技术的的进展,关注企业数字化转型优秀案例,专注企业级方案和技术的传播和创新企业的成长,触及企业的变革与转型,目前覆盖的渠道有:搜狐新闻(DTValue)、今日头条、天天快报、凤凰新闻、网易新闻、大鱼、一点资讯等多家平台。
THANKS