意料之中的,英特尔再一次发布了全新一代的至强处理器,也是以“可扩展”为命名的第二代处理器。此时,距离英特尔推出第一款至强处理器的雏形,已经过去了18年,距离英特尔在与AMD的竞争中持续领先,也过去了10年的时间。
如果说,早在10年前的至强5500系列让英特尔彻底摆脱了“胶水”概念的话,如今的第二代至强可扩展处理器,则代表英特尔已经不局限于计算的单一领域,而是扩展到了包括存储、网络、加速、安全、软件等一系列软硬件基础设施的层面。可以说,在这一代平台中,英特尔给出了“全家桶”方案。
故事还是要从10年前开始说起,如此你才能理解英特尔这一路走来的不易。
Nehalem,破除胶水多核的“魔咒”
说起CPU的历史,就不能不提到这一对冤家——英特尔和AMD。
与英特尔不同,它的老对手AMD发挥一向不稳定,就好像在俱乐部和国家队判若两人的球王梅西那样。但是,这并不妨碍AMD会在某一个或者两个时刻“灵光乍现”,曾经的K7和K10就是它的业务巅峰。
如此也让当年的英特尔倍感艰难。对于CPU这种复杂的精密设备来说,设计一款产品往往需要多年的探索与研发,想向手机那样在短时间内拿出一段拳头产品无异于痴人说梦。这样的结果就是,AMD一直凭借着“真双核”、“真四核”的概念横行产业,而英特尔更多被人冠以“胶水”的诟病。
曾经的英特尔四核心处理器
这样的情况一直持续到了2009年,英特尔推出了一款名为Nehalem的产品,官方命名为至强5500。在它之前,英特尔已经有了至强5100到至强5400系列的全套产品,这些最高4核心的产品并没有比同时代的AMD K10架构的巴塞罗那或者上海好太多,而“巴塞罗那”更被称之为“没有技术缺陷的处理器”(当然这是AMD自称的)。
Nehalem就被当时的行业视为奋起反击的一款产品,也是英特尔真正将4核心的处理器性能发挥到了极致。当然对于广大IT玩家来说,这款核心在桌面消费类产品中有一个更为熟知的称呼——扣肉(因为采用的是Core微架构),也有人称之为“爱妻”(因为第一款采用这款核心架构的产品是酷睿i7)。
Nehalem架构芯片
这是英特尔第一次放弃传统的FSB总线转而集成内存控制器(虽然老对手AMD早在多年前就这么做了),同时采用共享三级缓存的形式(之前的奔腾D时代都是每个核心独享),这也使得Nehalem架构产品在性能上获得了一次新的飞跃,彻底甩掉了扣在头上多年的“胶水”帽子,凭借着制程和架构的双优势,牢牢站稳了脚跟。
当然,Nehalem并非是终结。作为英特尔著名的嘀嗒战略的延续(Tick-Tock),第二年旋即推出的Westmere架构在Nehalem之前进行了小幅度的概念,当然更重要的是从Nehalem采用的45nm工艺进化到了32nm工艺,这样一来相比还在使用45nm工艺的第二代AMD K10来说(是的,在英特尔演进的同时,AMD也从65nm进化到了45nm),依然保持了领先优势。新架构的产品被命名为至强5600,后来四路版本的Westmere-EX更名为第一代至强E7。
从SandyBridge走向行业巅峰
如果说Nehalem只是扭转了英特尔长久以来不利局面的话(当然这种不利也是相对的),那么随后的Tick一跳就诞生出了奠定英特尔在企业级市场绝对领导地位的产品——SandyBridge。
这个名字据说来源于英特尔公司不远处的一座小桥,但是我更宁愿希望这是一个关于名为Sandy女子的美丽传说。无论如何,SandyBridge的出现使得英特尔与AMD的差距进一步拉大,这种变化最终造成了两个结果——在接下来的相当长一段时间里,英特尔都不再把AMD视为竞争对手;另一个结果就是AMD在痛定思痛之后,决定向英特尔缴械投降,彻底放弃企业级市场(幸好在苏妈的带领下,如今AMD又卷土重来了)。
SandyBridge的确是非常神奇的架构。对比之前的Nehalem架构,我们会非常明显的看到SandyBridge在核心设计上采用了一种全新的方式——环形总线。这种看似圆环的东西并非是真实存在的,更多时候是一种计算的逻辑和运行法则。但是,恰恰是这条总线的存在,使得SandyBridge架构焕发出了强大的生命力,让多核心时代各个核心之间的数据通信变得“写意又自然”。第一款采用环形总线设计的处理器,被命名为至强E5。
从这时候起,英特尔至强处理器正式过渡到了3、5、7时代,正如宝马汽车命名的方式那样,让人一目了然。而作为E5系列的核心价值之一,环形总线在这其中承担的关键性的作用。从最初的8核心到最后的12核心、18核心再到最终的24核心,环形总线让至强E5连续4代都换发出了强大的生命力。可以说从2012年到2017年的5年前,英特尔能够全方位压制AMD、让曾经企业级领域的翘楚——IBM POWER彻底变成“趴窝”,有很大程度上都归功于环形总线的功劳。
演员总要谢幕,英雄总要离场。在成功完成了自己的历史使命之后,环形总线已经不能进一步满足越来越多处理器核心的需求。即便24核心已经是一个非常庞大的数字,但是对于已经走入智能化或者说AI化时代的计算需求来说,更多的计算核心已经成为大众追求的焦点,这一点从GPU的走红就能看得一清二楚。而在原有的环上加入更多的核心,对于英特尔来说已经变得越来越困难。
是时候采取全新的架构形态了。在这种理念的感召下,2017年英特尔推出了全新的Mesh架构,也就有了文章一开始我们提到的那款产品——至强可扩展处理器。
醉翁之意不在酒,在于数据中心
Mesh架构并不是什么新鲜的概念,熟悉网络的朋友都知道这是一个网络名词。而英特尔在放弃环形总线之后选择Mesh架构,恰恰是看中了Mesh架构能够满足未来多核心互联的应用需求。进而在第一代Mesh架构产品中,英特尔就一下子塞入了28颗处理器核心,而在今天发布的第二代可扩展处理器中,这个核心数量被提升到了56颗。
或许“可扩展”三个字的一层含义就是如此。以往,每增加几个核心都需要更新一代产品。比如第一代至强E5的8核心到第二代的12核心到第三代的18核心到第四代的24核心,每次更新的数量都不多。但是从可扩展处理器的28核心直接跳到56核心,说明“可扩展”的Mesh架构真的是可以随意扩展。
更重要的是,Mesh架构的运行机制与之前完全不同。相比于之前的环形总线,Mesh架构的改进就是进一步的降低了延迟,这种优势伴随核心的增长表现得尤为明显。就好比我们从北京到广州,如果坐火车的话,即便是时速300公里的高铁,也要途径石家庄、郑州、武汉、长沙等多个站点,免不了需要停车上下旅客,耗时8小时以上。而对于飞机来说,除去航班延误的因素,北京到广州只要2个半小时就可以到达,高下立判。
更不要提在Mesh架构之外,新一代至强可扩展处理器在指令集、AI应用、数据安全等方面进行的更多努力。从至强5500到如今的第二代至强可扩展处理器,已经过了10年的时间,那个曾经只有CPU的英特尔也变成了具备至强、至强D等计算产品、Optane存储产品、网络产品在内的数据中心全栈式解决方案供应商。很显然,英特尔不再满足计算一点,它所需求的甚至不是“计算存储两开花”,而是多点爆破,全面突进。
英特尔的“全家桶”战略
“英特尔是一家什么公司?”,许多人可能会脱口而出——卖CPU的。的确,CPU在英特尔的业务中长期处于绝对重要的地位,而且未来也将延续其地位。在最新的、被命名为CascadeLake的第二代至强可扩展处理器中,英特尔详细展示了全部产品。
按照英特尔的定义,CascadeLake系列处理器还是延续了铂金、黄金、银、铜等四个系列的产品。不过值得一提的是,新一代的产品中增加了一款名为至强9200系列的产品,并且定义为“新一代领先性能”。
具体看来,全新的至强9200系列产品共有4款,其中的旗舰级产品具备了56颗处理器核心,这是至强8200系列的两倍;不仅如此,Cascade Lake系列处理器还增加了许多自定义的特殊型号,比如面向虚拟化的V系列、面向搜索应用的S系列和面向网络应用的N系列等等。
值得一提的是,8200系列的铂金和黄金等系列都能够支持Optane存储,银牌和铜牌系列绝大部分不支持(这个可以理解,毕竟低端)。但是为何最高端的至强9200系列也不支持Optane存储,这一点很让人纳闷。
当然,在架构层面,Cascade Lake系列处理器还是采用了Mesh架构,不过在内存支持上进行了更多的优化,比如6通道DDR4。值得一提的是,在优化之后Cascade Lake还能够提供对于Optane Persistent内存的支持,这一点是上一代产品所不具备的。而且在支持的指令集等方面,Cascade Lake系列处理器也有所突破。
更重要的是,CascadeLake系列处理器新增了对于AI计算的支持。如今在IT产品,AI已经成为所有人口中的热门词,而对于AI的支持产品也是五花八门,除了最热门的GPU之外,许多企业都在自研专用的AI芯片,国内包括华为、寒武纪等公司就已经拿出了具体的产品。
这无疑让以计算起家的英特尔倍觉尴尬。虽然x86平台是通用架构,可以进行包括深度学习在内的多种计算,但是在效率上显然没有GPU或者专业的AI芯片更优秀。意识到这个差距之后,英特尔在Cascade Lake系列处理器上也新增了对于AI的支持,准确来说是通过一款名为VNNI的指令集提供了对于AI计算中“推理”部分的支持。
上面这张图是典型的AI深度学习数据推理模型,从这里我们也可以看到,从用户行为的数据收集到最终的智能应用,其中需要经历两个重要的步骤,即——训练和推理。而如今,训练部分往往被来自于英伟达的Tesla系列GPU所实现,这很大程度上得益于GPU的架构特性和CUDA算法的优化。
在意识到自己在AI应用上的差距之后,英特尔着重在推理应用上进行了优化。按照官方数据,最新一代Cascade Lake系列处理器的推理性能有了数倍的提升,相对于NVIDIATesla V100和专用于推理的T4来说,旗舰级产品至强9282都实现了超越。
针对AI应用的问题,我也在现场采访到了英特尔副总裁兼英特尔至强产品与数据中心营销总经理Lisa Spelman——的确,我们的竞争对手在AI领域表现很出色,但是你知道的,深度学习的AI应用包括了训练和推理两部分,英特尔第二代可扩展处理器在推理应用上进行了大幅度的提升,可以节省客户额外购买设备的费用;与此同时,推理应用也可以使得客户的处理器利用率得到进一步的提升,可谓是一举两得。
其实刚刚我们提到的OptanePersistent内存是这次至强Cascade Lake系列处理器的一大亮点,甚至对于数据中心应用来说也是非常抢眼。所谓Optane Persistent内存,就是一条内存形态的Optane固态盘。只是相对于传统的英特尔SSD来说,Optane Persistent的系统位置介乎于内存与硬盘之间(更靠近内存),也可以帮助客户获得近似于内存应用的性能,最关键的还是其非易失性。
从上面这个图上,我们可以更清楚的看到Optane Persistent的工作状态。首先,它可以安装在内存插槽中,而且是靠近处理器的那一条插槽上(这个“靠近”有两个含义,其一是在物理位置上距离处理器最近,或者是在主板走线上离处理器最近)。根据英特尔的资料显示,每款至强Cascade Lake处理器最多可以搭配6条Optane Persistent内存(与真正的内存实现1比1配置),而Optane Persistent内存的容量则分为128GB、256GB和512GB三种。
其实,英特尔早在去年就公布了Optane Persistent内存的相关信息,只是这一次我们终于伴随着CascadeLake处理器看到了实物而已。当然,同时发布的还有新端口的Optane DC D4800X和“40米长的大刀”D5-P4326 E1.L,后者在定制化的互联网数据中心中更被客户青睐。整体说来,英特尔此次发布的存储核心就是Optane Persistent内存,也是适合Cascade Lake处理器的最佳“拍档”。
我们常说服务器三大件,计算、存储和网络。刚刚说过了计算和存储,那么网络部分英特尔也不会错过。这次,英特尔还发布了型号为Ethernet 800系列的网络产品,这也是英特尔面向100G以太网发布的全新系列,并且具备了ADQ智能诊断功能(Application Device Queues)。
ADQ的作用,就好像一条高速公路。在此之前,网卡中传输的不同数据由于大小、等级不同,所以经常造成堵塞,形成延迟。ADQ的作用就是在于将不同应用的数据进行有效的统一管理,从而通过设置“收费站”的方式识别不同的数据应用,进而让同一类型的数据跑在同一条通道上,进而实现效能的提升。就好比高速路上,时速120公里的车在最左道,时速60公里的车只能在最右车道一样。而判断何种数据运行在哪条道上,则是通过DDP功能来预先定义实现的(Dynamic Device Personalization)。
从计算到存储,从网络到应用,英特尔已经不再是曾经那个只生产处理器的企业。经过最近10年的发展,英特尔至强处理器在数据中心领域已经奠定了无可撼动的领先地位,而它的存储、网络也能够在数据中心占据一席之地。在前几天的英特尔春季媒体分享会上,英特尔公司全球副总裁兼中国区总裁杨旭特别强调了其“六大支柱”,其中就明确了其在基础设施领域的领导者地位。
正如LisaSpelman在演讲中提到的,英特尔正在打造强大的基础设施生态系统(built a strongarchitectucal foundation),同时英特尔也希望更能够借助于在计算、存储、互联三大领域的优势,帮助客户节省更多的投资成本,实现以小博大(deliver more for less)。
正如英特尔所描述的那样——动更迅,存愈广,算无穷。