科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

ZDNet>CSC频道>Intel Skylake-SP处理器评测(一)

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

Intel推出了最新一代的Skylake-SP可扩展服务器处理器,并弃用了一直应用的Xeon E5/E7 v1/v2/v3/v4的命名方式。

来源:至顶网CBSi企业方案解决中心频道 2017年07月11日

关键字:处理器 至强 英特尔 Xeon Scalable Processor Xeon Scalable Xeon E5 Xeon Intel

【至顶网实验室】上次我们说到,Intel(英特尔)的处理器已经从Tick-Tock钟摆策略转变为“Process-Architecture-Optimization”——“制程-架构-优化”策略。Tick-Tock策略大约是每两年更换一次工艺制程(Tick)、每两年更新一次微架构(Tock),最终就是每年换一次制程或微架构,从而每年都能有新产品推出。尽管“Process-Architecture-Optimization”策略也是大约一年一次新产品,但工艺制程和微架构刷新的时间从原有的两年变成了三年,从而适应越来越接近10nm带来的难度,这个策略从Broadwell-Skylake-Kaby Lake开始,下一个循环将是Cannon Lake-Ice Lake-Tiger Lake。以下图片如非特别注明,均来自Intel。

Intel Broadwell-EP处理器评测
从“Tick-Tock”变为“Process-Architecture-Optimization”,笔者将其称为“Tick-Tock-Tock”(非官方)

  显然,“Tick-Tock-Tock”策略的前两个和之前一样,都是“Tick-Tock”,因此这个策略对于Broadwell和Skylake来说无甚作用,不过,这并不意味着Skylake不重要,实际上,对服务器处理器来说,新一代Skylake极为重要,可谓是Intel的一个大招,重要到处理器的命名方式都改变了。

Intel Skylake-SP处理器评测(一)
2017年7月12日,全新一代的Intel Xeon Scalable Processor——可扩展至强处理器,以后简称为Xeon Scalable处理器

  新一代Skylake服务器处理器的完整代号为“Skylake-SP”,缩写为“SKL-SP”,而上一代Broadwell服务器处理器的完整代号为“Broadwell-EP”,缩写为“BDW-EP”,虽然两代处理器后缀都带有一个“P”,但它们的含义不同,前者后缀全称是“Scalable Processor”,后者后缀全称是“Efficency Performance”。顺便一提,和“EP”对应的“EX”、“EN”、“E”的全称分别是“Expandable”和“Entry”、“Extreme”,EX就是Xeon E7-8800,EN就是Xeon E5-2400,E的话,就是桌面的Core i9-7900X。

2017-07-14勘误:E是以前由对应Xeon的某个型号改头换面的Core i7至尊版酷睿的代号后缀,Skylake的对应版本已经更改为X后缀——Skylake-X,对应地,Core命名的系列名变成了i9。

  从Skylake-SP开始,Xeon Scalable处理器家族不再使用之前的Xeon E5/E7 v1/v2/v3/v4命名方式,而是变成了“金属”加数字命名,如上图所示,新一代处理器家族分为四个等级,分别为“Platinum”(铂/白金)Gold(金/黄金)Silver(银/白银)Bronze(青铜),这总有点让人想到各式圣衣……有趣的是,各种金属的“色彩”是真实存在的,上图中就可以看出,Bronze确实用的是“红色”,这个色彩辨识方式也体现在了包装盒子上:

Intel Skylake-SP处理器评测(一)
在Portland的Intel秘密会议上拍到的四种色彩处理器盒子,Bronze是黄中偏红,原因见下一页。来源:盘骏/Lucifer

  虽然笔者很怀疑服务器处理器的包装盒有多少人能看到,不过无论如何,这次新的命名方式的四种层次是显而易见的,不难区分。难点在于处理器层次所对应的应用方向。显而易见的是,Xeon Bronze对应的是入门级应用,大致有些像之前的Xeon E5-2400,而Xeon Silver则大致对应于之前的Xeon E5-2600,它们均只能搭建双路平台;Xeon Gold与Xeon Platinum则可以搭建多路服务器,其中Xeon Gold限制为四路,大致相当于Xeon E7-4600,Xeon Platinum大致相当于Xeon E7-8800,当然,Scalable——可扩展——的真正含义尚未凸显,接下来我们就会首先介绍一下,然后开始对Skylake-SP的架构与微架构进行一个Deep Dive深入分析,最后是一部分已经完成的评测内容,更多的内容需要留待更后面的文章——因为时间总是不够用,整个平台的更新实在太多了。

Intel Skylake-SP处理器评测(一)
2017年7月,Intel Xeon Scalable处理器初代,代号Skylake-SP by 盘骏/Lucifer

  Skylake前三代处理器的评测:

Intel Broadwell-EP处理器评测
2016年4月,Intel Xeon E5-2600 v4处理器,代号Broadwell-EP

Intel Haswell-EP处理器评测
2014年9月,Intel Xeon E5-2600 v3处理器,代号Haswell-EP

Intel Haswell-EP处理器评测
2013年9月,Intel Xeon E5-2600 v2处理器,代号Ivy Bridge-EP

  任何产品线都需要一个旗舰,对于Xeon Scalable处理器而言,Platinum就是(以下元素资料均整理自维基百科):

Intel Skylake-SP处理器评测(一)
这个Xeon Platinum inside Logo是在Xeon Scalable Processor改名会议上发布的

Intel Skylake-SP处理器评测(一)
Platinum,铂/白金,来源:维基百科

  Platinum,铂,白金,化学符号Pt,原子序数78,贵金属、重金属、非常不活泼金属和抗腐蚀金属。纯铂带光泽、有延展性、银白色,其可延展性在所有纯金属中最高,胜过金、银和铜。铂金属的抗腐蚀性极强,高温下非常稳定,电性能也很稳定。铂在任何温度下都不会氧化,但可被各种卤素、氰化物、硫和苛性碱侵蚀。铂不溶于氢氯酸和硝酸,但会在热王水中溶解,形成氯铂酸(H2PtCl6)。铂非常罕见,地壳中的浓度只有百万分之0.005,丰度排在第71名,平均丰度大约为5μg/kg,因为稀有,铂常被认为是尊贵的象征。

Intel Skylake-SP处理器评测(一)
Intel Xeon Platinum 81xx处理器

  作为Skylake-SP当中的旗舰,Xeon Platinum 81xx具备了最多的处理器核心:28核心,56线程;它也包含了最高的频率:3.6GHz(4核心版本),并支持最大化的扩展能力:2路/4路/8路/更多路;Xeon Platinum 81xx提供48个PCIe 3.0信道和6个内存通道、最多最快的处理器互联接口:3个10.4GT/s的UPI(Ultra Path Interconnects,极速路径互联);最快的内存:DDR4-2666以及最高档次的AVX-512(每个核心具有两个FMA融乘加引擎);还有最高级的RAS(Reliability,Availability,Serviceability;可靠性、可用性、可服务性)以及支持Node Controller(以支持超过8路处理器的系统),另外,Turbo Boost睿频技术和Hyper-Threading超线程技术也是标配。Xeon Platinum 81xx提供了最强大的性能、扩展性、可用性,可以用来承担Mission-Critical关键任务应用。

  接下来是Gold:

Intel Skylake-SP处理器评测(一)
Gold,黄金,来源:维基百科

  Gold,金,黄金,化学符号Au,原子序数79,贵金属、重金属、非常不活泼金属和抗腐蚀金属。纯金有明亮光泽、黄中带红、柔软、密度高、延展性极强。金较稳定,通常以游离单质形式存在,能和银形成固溶体琥珀金,能溶于水银形成汞齐,也能和铜、钯形成合金。矿物中金化合物较不常见,主要为碲化金。金不溶于硝酸,但会被王水溶解形成H2AuCl4。此外,金也能溶于碱性氰化物溶液。维基百科提到哈佛大学的研究认为宇宙中的金主要来自于中子星的碰撞,但笔者认为,地球——太阳系内的重元素主要来自于前代太阳或前前代太阳的超新星爆发时的极端状况。笔者同意的是,早期的金几乎全部随着熔融的地球沉入地核,目前地球上地壳和地幔的金多是拜后来后期重轰炸期(约40亿年前)的小行星撞击所赐。金也非常稀少而富有价值,这点大家都知道。

Intel Skylake-SP处理器评测(一)
Intel Xeon Gold 51xx/61xx处理器

  与支持8路及以上的Xeon Platinum 81xx相比,Xeon Gold 51xx/61x仅支持2路/4路Glueless配置。Gold 61xx最多只具备22个核心,44线程,运行频率也被限制到3.4GHz(4核心版本),内存和Platinum 81xx一样可以达到DDR4-2666MHz;Gold 51xx则只具备14个核心,28个线程,内存只能达到DDR4-2400MHz。尽管Glueless均只能支持4路,但支持3个UPI 10.4GT/s的Gold 61xx还可以支持Node Controller,因此可能可以支持更多路的配置,而只支持2个UPI的Gold 51xx只能最多支持环形的四路配置。此外Gold 61xx和Platinum 81xx一样支持最高档次的AVX-512(每个核心具有两个FMA融乘加引擎),Gold 51xx的AVX只有一个FMA融乘加引擎;需要特别之处的是,Gold和Platinum全系列都具有一致的RAS特性,可以承担Mission-Critical关键任务应用,这一点可以认为是传统2路4路Xeon E5的特性得到了升级。

  再下来是Silver:

Intel Skylake-SP处理器评测(一)
Silver,白银,来源:维基百科

  Silver,银,白银,化学符号Ag,原子序数47,贵金属、较不活泼金属和较不易受腐蚀。纯银柔软有白色光泽、导电率、导热性、反射率在金属中最高,延展性强仅次于金。银较稳定,但主要以化合物形式存在,游离单质形式较稀少,银能溶解于硝酸或热浓硫酸中,也能与卤素反应,对硫有很强的亲合势,也易于与硒、碲结合。有趣的是银与金、铜同为11族元素,导电性与导热性都不错,在电路中都不算少见(当然最常见的还是便宜的铜)。

  最后是比较特别的Bronze,它是青铜——约88%纯铜(Cu,Copper)与约12%锡(Sn,Tin)的混合物,而前面提到过的铂、金、银三种都是单质,尚不清楚Intel为什么用的是Bronze而不是Copper。青铜的实际颜色是黄色偏红,称为青铜是因为氧化变成青灰色。与铜相比,青铜强度高而熔点低,因而铸造性好,其耐磨而化学性质稳定,在人类历史上起到了重要的作用——青铜时代与青铜器。

Intel Skylake-SP处理器评测(一)
Intel Xeon Silver 41xx处理器与Intel Xeon Bronze 31xx处理器,Bronze的背景是不是黄色偏红?

  Xeon Silver 41xx与Xeon Bronze 31xx仅支持2路配置,Silver 41xx最多具备12个核心,24线程,运行频率限制为2.2GHz(10核心版本),内存和Gold 51xx一样是DDR4-2400MHz,UPI亦被限制为二条9.6GT/s;Bronze 31xx最多为8个核心,没有超线程与睿频,运行频率最多1.7GHz,内存只能达到DDR4-2133MHz,不过,UPI和Silver 41xx一致。Silver和Bronze一致的还有AVX-512能力:每个核心只有一个FMA融乘加引擎,看起来Bronze 31xx是前代Xeon E5-2400的弱化版本,Intel对其定位为:Xeon E3的升级版。颇为有趣的是,Xeon E3将继续存在,不纳入Xeon Scalable处理器家族,这倒不是不可以理解:Xeon E3主要与桌面端处理器相似,而Xeon E5/E7均是重新设计过的Uncore架构,更符合企业级应用。

Intel Skylake-SP处理器评测(一)
Intel Xeon Scalable四色处理器家族,似乎剩余11xx、21xx、71xx和91xx未被用到

  但实际上71xx系列已经被确定有所应用,剩下的11xx/21xx/91xx或许可以凑个Iron以及Titanium出来?不过钛似乎称不上是贵金属,总而言之,目前新一代Xeon Scalable处理器的命名方式可见如下:

Intel Skylake-SP处理器评测(一)
四色金属后是四位数字,第二位代表产品代数,最后的后缀字母目前有三个

  附加的三个字母,其中F代表Fabric,也就是附带OPA(Omni-Path Architecture,Intel的一种InfiniBand改良型结构)接口的型号,T是High Tcase/Extended Reliability(高耐温、强化可靠性),实际上,它是包含FPGA功能的信号,考虑到Intel收购的Altera。最后的M是与无后缀对应的,带M型号的内存支持容量是不带M的两倍,达1.5TiB每插槽。

2017-07-13勘误:实际上,已知的附加后缀有4个,包含FPGA功能的型号应为P(目前未公布),T型号为高耐温高可靠,不带FPGA功能。

Intel Skylake-SP处理器评测(一)
Intel Xeon Scalable处理器初代Skylake-SP型号一览

  右上角说明了新的产品线的特点:新增加了205W TDP的数个型号,最高可以达到28核心2.5GHz,此外,特地增加了极高频率但核心数量较少、大Cache每核心的型号(8156/5122,四核心3.6GHz,16.5MiB Cache,每核心4.125MiB)的选择。总的来说,Xeon Scalable处理器家族的“Scalable”体现在方方面面,有更方便地组建多路系统,有更平民化的RAS特性,有更多的型号适应更广阔的应用——特别是,考虑到F(OPA附加版本)、T(高耐温高可靠版本)、P(FPGA版本)以及71xx系列型号(Xeon Phi还是人工智能芯片?)的加入,整个Xeon Scalable处理器将会覆盖前所未有的应用范围。

  接下来我们准备开始详细介绍Skylake-SP处理器的架构与微架构,首先我们将会开始一段概览。

  Intel将上一代Broadwell-EP处理器的改进分为了三个方面:Orchestration(编排)Security(安全)Performance(性能),其中,Orchestration(编排)是一个在Broadwell-EP上提出的新概念,核心就是Intel Resource Director Technology(RDT,资源管理技术),笔者认为,这是Broadwell-EP上带来的最重要也是最显著的一个变化。到了Skylake-SP,Xeon家族的信念具有了一个飞跃,新的重点囊括为三个:Performance(性能)Security(安全)Agility(敏捷)

  如下图所示,可以看出:

Intel Skylake-SP处理器评测(一)
Intel Xeon Scalable Processor: Performance,  Security and Agility

  敏捷取代了编排,可以很容易认识到的是,敏捷包含了编排,可以说,Xeon Scalable处理器具有着更多的野心,也搭载了更多的特性,从而,它也需要着更多的微架构/架构改变:

Intel Skylake-SP处理器评测(一)
Intel Skylake-SP——初代Xeon Scalable处理器家族的特性改进一览

  我等不及要对这些提升一一讨论了:

Intel Skylake-SP处理器评测(一)
Intel Skylake-SP处理器:历代性能提升

Intel Skylake-SP处理器评测(一)
Intel Skylake-SP处理器:历代安全性提升

Intel Skylake-SP处理器评测(一)
Intel Skylake-SP处理器:敏捷性与效率提升

Intel Skylake-SP处理器评测(一)
Intel Skylake-SP——初代Xeon Scalable处理器特性一览

  Intel Skylake-SP搭配的Lewisburg PCH芯片组的进化也颇值得一提,但这部分内容我们决定放在以后的文章当中。

Intel Skylake-SP处理器评测(一)
由于每处理器最多具有3个UPI外联总线,因此Glueless模式仍然支持到8路系统为止,但现在2个UPI的型号也可以支持环形的四路配置;理论上,环形配置可以支持无限多的处理器(考虑一个无限大的处理器首尾连接的圆环),只是延迟也会线性地增加

Intel Skylake-SP处理器评测(一)
Intel Xeon Scalable Processor: Re-architected from the Ground Up

  初代Xeon Scalable处理器搭配了支持AVX-512指令集的微架构,可以一次性处理512位数据,并且可以每处理器达到28个核心,支持6个内存通道,更多的PCIe 3.0信道,更多的性能、安全特性以及更新更强的PCH。Intel号称其为Re-architected from the Ground Up,从头重新架构,且让我们从头开始,从Skylake的微架构开始一一介绍。

  一般而言,尽管采用了共享微架构的方案,但由于企业级别应用所需要的更多的RAS,以及更多的面向企业级应用的特性,服务器处理器版本的发布一直要晚于客户端处理器版本,Skylake的桌面版就早在2015年发布,比服务器版早了两年。共享微架构就意味着,桌面版本和企业版本的微架构是一致的,但到了Skylake-SP,情况有了些变化,且让我们从Haswell/Broadwell微架构图开始:

Intel Haswell-EP处理器评测
Haswell Core at a Glance,Haswell以及其下一代Broadwell的微架构变化不算太大

Intel Haswell-EP处理器评测
Haswell与其上一代Ivy Bridge相比最大的变化就是执行单元端口从6个提升到了8个

Intel Broadwell-EP处理器评测
Intel Broadwell的核心微架构改进

  可见,Broadwell的微架构算是小修小补,而Skylake和Haswell一样都是架构明显变化,下图是官方文档《Intel 64 and IA-32 Architectures Optimization Reference Manual》中的Skylake微架构截图:

Intel Skylake-SP处理器评测(一)
Intel Skylake Microarchitecture,这个Skylake是桌面端的

Intel Skylake-SP处理器评测(一)
Hot Chips 2016上的报告《Inside 6th generation Intel Core Code Name Skylake》也给出了类似的微架构

  可见看到,即使是桌面版的Skylake,也具有着非常明显的变化,对处理器关注不多的同学可能难以留意到Skylake在处理器微架构前端的变化:

Intel Skylake-SP处理器评测(一)
Skylake Core Front-End: The wider Issuses Width

  请记住,在Skylake之前,Intel的处理器除了安腾,都是4 Issue(称为4发射)的,一直以来,Intel都将其称为“Wide Dynamic Execution(宽动态执行)” ,指的就是解码器的输出宽度,Skylake的解码器输出宽度从4提升到了5,这可以进一步Xeon处理器家族的性能。

Intel Skylake-SP处理器评测(一)
Core 2 Duo上出现的Intel Wide Dynamic Execution

  需要知道的是,解码器用于将强大但是复杂、不定长的x86指令(被称为macro-op)翻译为简单、定长的uops(micro-op),从而实现了RISC-like的微架构执行,同时获得了CISC和RISC的优点——核心就在于解码器。Skylake上不仅(包括简单解码器以及microcode解码器)在内的解码器宽度得到了提升,与分支预测单元合作的uop Cache也得到了加大,分支单元有所强化。

Intel Skylake-SP处理器评测(一)
Skylake Core Back-End: Out-of-Order Execution

   Front-End为IOE(In-Order Execution,顺序执行)架构,Back-End则是OOOE(Out-of-Order Execution,乱序执行)架构,在这里,会首先通过一个Rename单元将寄存器重命名,这个单元有时也与Retire回退单元结合,在Skylake上,整数寄存器增加了12个而达到180个,这与AVX-512指令集的增加有关。在共享的Skylake微架构上,除法和平方根(SQRT)运算得到了吞吐量的加强和延迟的降低(SQRT一般依赖于除法器),另外,浮点ADD、MUL和FMA的吞吐量和延迟性能也得到了增强,AES加密指令的延迟也得到了显著的降低。Skylake的Sheduler条目从60提升到97,ROB(Reorder Buffer)条目从192提升到224,Allocate Queue(与寄存器重命名一起工作)从Broadwell的56条目提升到了每线程64(合计128)条目,Intel预计Skylake-SP具有超过10%的IPC性能提升:

Intel Skylake-SP处理器评测(一)
Intel Skylake-SP Core Microarchitecture Enhancements

  大家都知道,Skylake-SP一个显著的变化就是引入了Xeon Phi最先装备的AVX-512指令集,它将向量运算的宽度从AVX2的256位提升到了512位,除了要求寄存器宽度同样加大一倍之外,它也需要运算单元的宽度加大一倍,在Skylake-SP上可以同时执行两个512位AVX向量运算,其中一个由原本256位宽度的Port 0和Port 1融合而成,另一个则是由Port 5端口扩展而成,这两个512位执行端口都可以支持512位FMA融乘加操作,但是,只有高端的Skylake-SP(Platinum 81xx和Gold 61xx)才具备Port 5的FMA融乘加单元。此外,桌面端(除了与Skylake-SP同源的Skylake-E之外)不支持AVX-512指令,这是因为这个功能需要额外的晶体管:

 Intel Skylake-SP处理器评测(一)
Skylake-SP Core:在标准Skylake Core微架构之外附加额外的512位端口5能力扩展与额外的768KiB L2 Cache扩展

  Skylake-SP(以及Skylake-E)的AVX-512和第二个FMA,以及与普通Skylake相比多出的768KiB L2缓存,是在标准的Skylake Core之外的地方实现的,这部分区域已经属于Uncore核外区域,但被Skylake-SP拿来融入Core核内做核内用途。只有Skylake-SP有这些可能性进行这个操作,因为企业级处理器的Uncore区域向来都是采用与桌面端Uncore不同的特别设计。由于Skylake-SP的额外占用Uncore空间的设计,Skylake-SP的每核心L3 Cache容量比以往有所降低,测试表明这样的设计仍然是值得的,因为Skylake Core的内存子系统进行了相当多的优化:

2017-07-14勘误:E是以前由对应Xeon的某个型号改头换面的Core i7至尊版酷睿的代号后缀,Skylake的对应版本已经更改为X后缀——Skylake-X,对应地,Core命名的系列名变成了i9。

Intel Skylake-SP处理器评测(一)
Skylake-SP Core:内存子系统

  从参数上看,Skylake-SP的L1 D-Cache的吞吐量得到了倍增,以满足AVX-512向量指令的数据宽度倍增的情况,Skylake的Cache/TLB子系统也得到了全面的提升。关于AVX-512指令集,以及内存子系统方面的内容,我们放在了下一篇文章当中,接下来我们先看看我们先完成的SPEC CPU2006测试套件的其中一个配置的测试。

  笔者获得了一套四路的Skylake-SP测试样机,内存为768GiB DDR4-2666。为了对最新的Skylake-SP系统测试,笔者需要使用最新版本的系统和软件,笔者安装了Debian GNU/Linux 9.0.0 Stretch x64操作系统,并升级到了最新的Linux Kernel 4.12.0-041200-lowlatency #201707022031 x64,这个Kernel可以完善地支持AVX-512指令集,但相关的测试代码仍然在运行当中。笔者也尝试了RHEL 7.3/CentOS 7.3/SLES 12 SP2,均因为Kernel版本过低无法启动。

Intel Skylake-SP处理器评测(一)
Intel 4S Purley/Skylake-SP测试平台说明 by 盘骏/Lucifer,每一个标点符号都经过了反复确认

2017-07-13勘误:实际上,10.4GT/s的UPI的理论带宽应为41.6GB/s。额外地,由于编码方式的改变,效率提升巨大,这部分内容将会在后续文章进行介绍。

Intel Skylake-SP处理器评测(一)
Kernel booting with AVX-512/XSAVE

Intel Skylake-SP处理器评测(一)
Last level TLB状况

Intel Skylake-SP处理器评测(一)
Intel HWP与RDT技术的支持

Intel Skylake-SP处理器评测(一)
众所周知,Linux Kernel引导的时候会简单测试RAID 5/6的软件性能,上图中,AVX512x4的gen()算法达到了最高的生成性能:33093MB/s,也就是33.093GiB/s

Intel Skylake-SP处理器评测(一)
一共224个逻辑处理器,支持AVX-512(F/CD/DQ/BW/VL)指令集

  SPEC CPU是一个应用广泛的大型CPU性能测试项目,SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称,这是一个由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。除了SPEC CPU之外,SPECviewperf系列产品也是常见的测试工作站/图形卡部件所用到的测试软件,类似的项目还有如SPECjbb 2015(Java应用性能)、SPEC SFS2015(文件服务器性能)等。

  SPEC CPU是SPEC组织推出的一套CPU子系统评估软件,目前最新版本是SPEC CPU2006,它包括CINT2006和CFP2006两个子项目,分别用于测量整数性能和浮点性能。SPEC CPU的测试组件均来源于真实的应用程序,并经过修改以降低对IO子系统的影响,在测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户按照规则进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常之小。

2017-07-13勘误:实际上,最新的版本应是SPEC CPU2017,在2017年6月20日发布,笔者会在不久的将来开始SPEC CPU2017的测试,届时会推出一系列介绍文章。

  SPEC CPU2006包括了12项整数运算和17项浮点运算,除此之外,还有两个随机数产生测试程序998.sperand(整数)和999.specrand(浮点),它们虽然也包含在套件中并得到运行,但是它们并不进行计时以获得得分。这两个测试主要是用来验证一些其他组件中会用到的PRNG随机数生成功能的正确性。各个测试组件基本上由C和Fortran语言编写,有7个测试项目使用了C++语言,而Fortran语言均用来编写浮点部分。SPEC CPU2006以一台Sun Ultra Enterpirse 2工作站作为基准参考系统,系统基于一颗296MHz的UltraSPARC II处理器,测试的得分就表明这个项目中测试系统相对基准系统性能的比值。

Intel Skylake-SP处理器评测(一)
SPEC CPU2006测试子项目 by 盘骏/Lucifer

  我们计划测试最新的Skylake-SP AVX-512指令集,但很多地方仍然在调试当中,因此我们先进行了AVX1的测试。我们使用了SPEC CPU2006最新的1.2版本的同时,以及接近最新的Intel C&Fortran Compiler编译器17.0 update 3,同时代码还使用了MicroQuill的SmartHeap 10.2进行了编译。

  除了整数运算和浮点运算的差别之外,SPEC CPU2006测试还分两种:SPEED测试和RATE测试,SPEED测试类型运行单个实例,用来测试系统运行单作业的时候的运算能力,RATE测试则是运行多个实例,用来测试系统的总运算吞吐能力。SPEC CPU测试还会给出两种类型的结果:Base基准测试结果和Peak峰值测试结果,Base测试要求编译器套件按照指定的规则进行优化,而Peak测试则可以允许使用更多的优化技术,可以看出,前者可以用来简单对比不同的平台,而后者则在对比因素中加入了编译器等因素,有实力编写编译器的厂商可以从中获益。本页给出的是SPEED测试结果,按照整数到浮点、Base测试到Peak测试排列四个成绩图标,每个图表给出了测试系统及对比系统的每个子项目的成绩。图表图例文字中最后的"4S112C224T"字段指的是4 Sockets、112 Cores、224 Threads,意思是“4插槽112核心224线程”。

  我们先进行了AVX1编译代码的SPEED测试,AVX1当中,浮点向量为256位,但整数向量仍然为128位:

Intel Skylake-SP处理器评测(一)
SPECint_base2006,整数,SPEED测试,Base基准测试

Intel Skylake-SP处理器评测(一)
SPECint2006,整数,SPEED测试,Peak峰值测试

  可以看出,性能惊艳,部分地是因为在2个核心的情况下,2.5GHz的Skylake-SP/Xeon Platinum 8180可以Turbo至3.8GHz,而Broadwell-EP/Xeon E5-2699 v4和Haswell-EP/Xeon E5-2699 v3的这个频率都是3.6GHz,Ivy Bridge-EP/Xeon E5-2697 v2则是3.5GHz。顺便一提,Sandy Bridge-EP/Xeon E5-2690 v1是较高的3.8GHz,但这里放不下。总的来说,SPEED测试大部分时间下是一个频率游戏,但Skylake-SP的性能提升超过了频率的差异。每一代处理器的IPC确实会有一些提升。

Intel Skylake-SP处理器评测(一)
SPECfp_base2006,浮点,SPEED测试,Base基准测试

Intel Skylake-SP处理器评测(一)
SPECfp2006,浮点,SPEED测试,Peak峰值测试

  我们确信,新的编译器做了很好的优化,同时Skylake-SP/Xeon Platinum 8180的性能也确实强悍。

  除了整数运算和浮点运算的差别之外,SPEC CPU2006测试还分两种:SPEED测试和RATE测试,SPEED测试类型运行单个实例,用来测试系统运行单作业的时候的运算能力,RATE测试则是运行多个实例,用来测试系统的总运算吞吐能力。SPEC CPU测试还会给出两种类型的结果:Base基准测试结果和Peak峰值测试结果,Base测试要求编译器套件按照指定的规则进行优化,而Peak测试则可以允许使用更多的优化技术,可以看出,前者可以用来简单对比不同的平台,而后者则在对比因素中加入了编译器等因素,有实力编写编译器的厂商可以从中获益。本页给出的是SPEED测试结果,按照整数到浮点、Base测试到Peak测试排列四个成绩图标,每个图表给出了测试系统及对比系统的每个子项目的成绩。图表图例文字中最后的"4S112C224T"字段指的是4 Sockets、112 Cores、224 Threads,意思是“4插槽112核心224线程”。

  SPEED测试关注的是延迟为主,而RATE测试关注的是吞吐量,这也是一般服务器应用关注的指标。根据Spec,在所有核心满负荷的时候,Ivy Bridge-EP/Intel Xeon E5-2697 v2工作在3.0GHz,Haswell-EP/Intel Xeon E5-2699 v3和Broadwell-EP/Intel Xeon E5-2699 v4都工作在2.8GHz,Skylake-SP/Xeon Platinum 8180的情况有些复杂,留待以后分析:

Intel Skylake-SP处理器评测(一)
SPECint_rate_base2006,整数,RATE测试,Base基准测试

Intel Skylake-SP处理器评测(一)
SPECint_rate2006,整数,RATE测试,Peak峰值测试

Intel Skylake-SP处理器评测(一)
SPECfp_rate_base2006,浮点,RATE测试,Base基准测试

Intel Skylake-SP处理器评测(一)
SPECfp_rate2006,浮点,RATE测试,Peak峰值测试

  毫无疑问,四路Skylake-SP/Xeon Platinum 8180吊打各种二路,由于笔者没有双路的Skylake-SP,因此无从分析内里因素各占多少,但从4650/3200的整数/浮点rate_base成绩来看,对上一代三倍多的提升幅度,超过了线程数量的提升。我们认为,Skylake-SP/Xeon Platinum 8180的性能非常强劲。

【至顶网实验室】系列文章的第一篇对Skylake-SP/Xeon Scalable处理器家族进行了分析以及微架构deep dive,并进行了传统的AVX 1.0代码的SPEC CPU2006测试,获得的SPEED成绩是75.2/120(整数/浮点),RATE成绩是4650/3200(整数/浮点),后者是上一代对比平台的三倍以上,前者也超过了频率的差异,因此剩下的性能提升因素就是架构的提升以及ICL编译器的提升。

Intel Skylake-SP处理器评测(一)
Xeon Scalable处理器家族四色处理器盒子,来源:盘骏/Lucifer

  整个平台的更新实在太多了,接下来我们会对Skylake-SP的AVX-512指令集进行解析,并进行AVX-512性能的测试,敬请期待。

Intel Skylake-SP处理器评测(一)
2017年7月,Intel Xeon Scalable处理器初代,代号Skylake-SP by 盘骏/Lucifer

  Skylake前三代处理器的评测:

Intel Broadwell-EP处理器评测
2016年4月,Intel Xeon E5-2600 v4处理器,代号Broadwell-EP

Intel Haswell-EP处理器评测
2014年9月,Intel Xeon E5-2600 v3处理器,代号Haswell-EP

Intel Haswell-EP处理器评测
2013年9月,Intel Xeon E5-2600 v2处理器,代号Ivy Bridge-EP

综合评分:8.13 分
云能力:8.3 分
营业额:533亿美元[2012]
云服务:英特尔云计算

查看更多 >>

推广二维码
邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题