ZD至顶网服务器频道 04月01日 新闻消息:英特尔公司今天正式发布了已经稍稍延后亮相的至强E5 v4服务器处理器。
这批芯片属于2014年至强E5 v3方案的继任者,前代产品使用22纳米制程以及Haswell微架构。英特尔公司将Haswell制程缩小至14纳米,并添加其它一些调整设计,最终将其命名为Broadwell。
各服务器与工作站处理器早在2015年就开始将Broadwel纳入发展蓝图。现在Broadwell-EP至强E5 v4终于登场,且主要面向横向扩展型服务器。
至强E5-2600 v4处理器概述
上图所示为新一代至强E5 v4芯片参数概要以及与上代v3版本的对比结果。其中E5-2600可最高容纳22个计算核心或者单插槽44个硬件线程,最高55 MB三级缓存,支持2400 MHz内存以及DDR4写入CRC。每个计算核心拥有2 KB一级缓存与32 KB指令一级缓存,外加256 KB二级缓存。
更多计算核心,小小的架构调整再加上制程缩小使得Broadwell获得了全面超越Haswell的能力。
上图为双插槽至强E5-2600 v4阵容,其中14C代表着14核心。图表中还提供各款处理器的功率水平与时钟速率,可以看到基本上在2.4 GHz上下浮动。如果大家紧跟硬件市场形势,那么这些产品不久后就将开放订购。另外,至强E5 v4能够与E5 v3 Grantley芯片实现插槽兼容。
好了,现在概述已经完成,接下来说点更有用的。
核心如何排布
与Haswell一样,英特尔的Broadwell同样采用总线对称环状结构将物理CPU核心与缓存及外部加以对接。在高核心数量芯片当中,例如包含22个计算核心与72亿晶体管,处理器拥有由两套互连机制构成的两套独立环状结构。其一负责对接QPI以及PCIe第三代接口,而两套环还共同与自身内存控制器通信且各拥有两条通道。
三级缓存则被拆分为块,每个块被插入计算核心对应的环状总线结构。当某个计算核心访问内存时,所请求的物理地址会进行散列处理并利用结果定位环中的缓存位置以作为缓存行保存区。环内的三级缓存片段并非被指定至其对应的核心; 相反,这些片段亦可包含来自其它核心的数据。其散列算法使得英特尔方面能够将内存请求分发至整套结构当中。一条缓存请求所带来的缓存寻址任务大约需要占用十几个CPU周期,整个计算过程旨在保证以最短路径将发出请求的核心与承载该数据的缓存位置对接起来。
英特尔公司的工程师们并没有透露其实际使用的算法,因此大家无法调整内核以确保各核心能够解析与其距离最近的缓存块。换言之,我们无法利用算法最大限度降低内存的物理延迟。
在下图中,我们可以看到高核心数量处理器内的两套环状系统,外加英特尔针对低核心数量处理器给出的设计方案。
微架构调整
英特尔方面预计,Broadwell的单线程性能在每秒指令执行能力上约较Haswell高5%。根据我们得到的消息,其利用细微调整实现了这一提升。
向量的浮点乘法指令MULPS与MULPD已经将延迟周期从5个降低至3个。同样的,各类浮点除法指令(DIVSS、DIVSD、DIVPS以及DIVPD)亦实际了延迟削减。举例来说,256位单精度向量计算由Haswell的20个周期降低至16个周期,而双精度计算则由34个周期降低至22个周期。纯量计算将被一分为二且并行执行。
ADC、CMOV以及PCLMULQDQ指令(后者用于AES加密)现在亦得到细微调整,从而加快执行速度。翻译缓冲器(简称TLB)也已经将STLB数量由1000项增加至1500项,同时分支地址预测与返回亦得到改进,这一切都稍稍提升了执行效率。Boradwell当中包含大量此类小型调整,从而更为顺畅地完成代码执行任务。
运行混合运算时提升能源利用效率
英特尔利用向量数学手段调整AVX指令,从而帮助处理器降低时钟频率以节约功耗。在此之前,当英特尔处理器核心运行AVX代码时,封装内的全部核心都会进行频率降低。但在Broadwell上,未运行AVX代码的核心不会被拖慢,这意味着其将独立正常运行。换言之,Broadwell能够在互不干扰的前提下实现AVX与非AVX软件的混合处理。
在某一核心在一定时间周期内未运行任何AVX指令时——具体约为1毫秒——其会重新恢复时钟频率。如果大家的服务器应用中包含大量高强度浮点运算任务,那么新一代处理器将解决此前困扰着各位的AVX性能缩水难题。
加密加速
英特尔公司指出,其已经能够加快AES加密外加ECDSA、RSA以及DSA签名与验证速度,这要归功于Broadwell芯片将PCLMULQDQ指令从7个周期降低至5个周期,同时引入了新的加密算法指令。此次引入的两条新指令分别为ADOX(使用溢出标记输入/输出的无符号整数)以及ADCX(使用进位标记输入/输出的无符号整数)。采用新芯片及其新增指令的服务器将能够更快完成加密、解密以及个人数据验证任务。
上图所示为8核心Broadwell至强D(2 x 8 GB内存)对18核心Haswell至强E5-2699 v3(4 x 32 GB内存)之性能比较,二者皆在Linux环境下利用OpenSSL-1.0.2-beta3进行加密测试。举例来说,Boradwell至强在利用2048位密钥执行RSA验证时,速度可达Haswell的1.5倍。
另外值得一提的还有RDSEED,其负责利用随机值实现伪随机数生成器(简称PRNG),这一机制在强加密方案中非常关键。
Broadwell还引入了管理模式访问保护(简称SMAP)机制。其允许内核在控制寄存器(CR4)中设置一个标记以阻止内核模式代码访问用户模式内存。如此一来,应用程序中的受信底层代码就不会受到意外篡改——无论是有意还是无意。内核可以暂时取消该标记以禁用这项检查,从而帮助用户应对确实需要访问进程内地址空间的情况——例如在维护系统调用的同时对应用程序数据进行拷入/拷出。
顺带一提,曾曝出问题的事务性同步扩展(简称TSX)在Broadwell中重新回归——包括至强E5 v4。
TSX允许程序员标记出代码中临界区的起始与结束点,并在执行内存特定区域访问时对其进行监控。指向内存的写入与读取将被重新定向至硬件缓冲区,而且在临界区的结尾,数据将被自动提交至内存当中。
如果有两个线程试图在同一时间对特定部分内的同一数据进行修改,该缓冲区将被弃用,而线程则回滚至临界区的起始处。接下来,处理器会利用传统的锁机制挂起其中一个线程,并允许另一线程首先运行。
因此,如果两个线程正在使用同一数据结构中的不同部分,那么二者将互不干扰也无需使用锁机制:处理器会将每个线程视为一个原子性事务。开发人员可利用受限事务内存(简称RTM)或者硬件锁省略(简称HLE)以标记临界区。
通过避免使用锁并采取优化执行机制,软件能够更为顺畅地完成数据处理:数据库能够更快处理事务,应用则无需浪费太多时间与资源。考虑到其复杂性,我们非常理解英特尔为什么要用两代处理器才能将其实现。
缓存无处不在
英特尔公司推出一套名为资源管理技术(Resource Director Technology)的功能集,其核心作用在于帮助操作系统监控软件对缓存资源的使用方式。操作系统能够为线程、进程或者整个虚拟机分配一个资源监控ID(简称RMID)。当某一线程按规划运行时,其内核会获得独特的RMID,同时将其写入至一套特殊的每核心CPU寄存器(IA32_PQR_ASSOC,即PQR)。在线程的执行过程中,其访问的任何内存都会利用RMID被记录在PQR当中。
在此之后,该内核将由CPU利用其RMID进行遥测,从而允许其读出三级缓存占用等信息。Boradwell微架构服务器芯片所能支持的RMID数量为Haswell的两倍,另外其亦可监控内存带宽使用情况。
另一大缓存机制为服务分类(简称CLOS)。内核可利用一组服务质量(简称QoS)分类进行处理器进行编程,其中每种分类拥有对应的缓存占用水平定义。在每次背景切换时,该内核会同样利用PQR寄存器为接下来需要运行的线程、进程或者虚拟机分配一个分类ID。当该线程访问内存时,处理器会提取其分类ID并提供与该分类对应的缓存容量。如此一来,线程或者进程就不会出现缓存资源冲突,例如三级缓存副本循环或者预期外的数据覆盖。
最后冲刺:虚拟化更新
至强E5 v4提供公示中断机制,而英特尔也为此宣传了相当长一段时间。具体来讲,虚拟机管理程序能够直接将硬件中断路由至虚拟机当中。一般来讲,当中断被触发时,当前运行中的访客虚拟机会被迫停止并由虚拟机管理程序负责处理硬件请求——这一虚拟机退出过程往往需要占用大量时间以及成百上千个CUP周期。在此之后,虚拟机管理程序需要继续对自身进行中断或者调度一套虚拟机处理这项任务。
而公示中断允许虚拟机管理程序对CPU进行编程,从而确保中断操作直接指向访客并能够在虚拟机之内进行处理——无需退出当前虚拟机管理程序。公示中断还能够进行分段,这样当前正在运行的虚拟机能够继续完成自身的高优先级任务,而被分配为执行最新中断操作的访客则被排在其后。这意味着虚拟机管理程序能够避免在每次中断操作时于各虚拟机间往来切换,而相关延迟自然也将不复存在。
这种作法的优势非常明显:这意味着虚拟机能够更快反映硬件事件,同时提升延迟敏感性任务的性能表现。英特尔方面将公示中断机制视为网络功能虚拟化(简称NFV)系统中的必要组成部分——顺带一提,这类系统旨在将计算机网络负载由硬件移交给软件负责实现。负责处理软件包交换任务的虚拟机必须能够实时反映输入中断,而虚拟机管理程序则不再需要对其进行停止、中断处理以及调度。在公示中断机制的帮助下,无需退出虚拟机即可实现来自硬件的通知提醒。
在使用公示中断机制将以太网卡中断直接发送至运行有netperf基准测试的虚拟机时,英特尔表示256比特数据包的每秒传输数据仅相当于原有系统的59%,而1 KB数据包的传输性能亦增强了19%。
另一项虚拟化增强为页面修改记录(Page-Modification Logging)。当软件对内存页面进行修改时,处理器将在系统的页面表结构当中为该页面入口设置一个“dirty”位。这项机制拥有多种用途,其一在于了解哪些页面会在内容被写入磁盘时遭到清除,其二则是了解哪些页面将运行中的应用程序由一台设备迁移到了另一台。
举例来说,如果我们在服务器A上运行一款程序,而后希望将其迁移至服务器B,且服务器B的内存中已经承载了该程序的只读可执行文件与初始状态信息,那么大家肯定只希望迁移内容有所区别的其余部分。
对页面表中的全部“dirty”位进行检查显然是件苦差事,特别是在实时迁移场景之下。因此,英特尔方面的页面修改日志(简称PML)在内存中保留这样一份日志,其grok速度要远超实际页面结构。
英特尔方面热衷于开发其实时迁移技术,因为这也正是网络功能虚拟化的关键性部分。软件定义网络的一大核心卖点就是根据实际需要迁移及向外扩展工作负载的能力。如果迁移过程耗时太长,那么电信客户将无法忍受由此带来的服务中断。
其它新消息
还有哪些新消息?此次至强E5 v4将采用硬件控制型功耗管理(简称HWPM)机制,其能够帮助处理器更好地在不涉及操作系统的前提下实现功耗管理。这一新选项可随意配置及关闭,而操作系统则可提供提示以帮助用户了解CPU该如何在功耗与性能之间取得平衡点。基本上,HWPM意味着处理器能够自行实现更理想的P-状态。
最后,英特尔还提供新的处理器追踪功能以实现深层调试:其能够向内存中写入数据包以描述软件相关分支与事件,同时通过控制寄存器CR3内的指针及其处于用户还是内核模式等指标进行执行追踪过滤,外加其它多种面向底层开发者的硬核选项。
面对供应商发布的基准测试结果,我们当然应该保持审慎的态度。不过下图所示为至强E5 v4家族之内的比较结果——即全新E5-2699 v4与E5-2699 v3间的内战——应该还是比较可信的。
可以看到,从v3 Haswell到v4 Broadwell的基准测试性能提升到约1.2倍,而且后者比前者还要多出4个计算核心。以上提到的不少指标都是首次出现。E5-2600 v4基本上属于在微架构层面做出改进,且主要面向向外扩展服务器——即用于构建云及软件定义网络的硬件设备。
这是新一轮E5-2600家庭聚会,而至强的特色也依然鲜明。我们将其插进设备,而后接入互联网,就这么简单。这不仅给了需要升级硬件的IT部门一个有力的更新理由,同时也让开发者们能够更好地享受由公示中断、TSX以及新型加密指令所带来的便利。一年一次的升级能够做到这样已经足够了,而英特尔的至强系列也凭借着这样的坚实脚步在数据中心计算机市场上获得了99%份额占比。