科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

ZDNet>CSC频道>Intel Haswell-EP处理器评测

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

Intel最新的Haswell-EP是服务器处理器的一次大更新,不管是性能、特性上,都具有极为明显的变化。

来源:ZDNetCBSi企业方案解决中心频道 2014年09月09日

关键字:SPEC 2016 SPEC CPU2006 SPEC Xeon E5-2699 v3 Xeon E5 v3 Xeon E5 Haswell-EP Haswell 处理器 Intel

【ZDNet企业解决方案中心】Intel——英特尔的Tick-Tock钟摆策略我们已经耳熟能详:每两年更换一次工艺制程、每两年更新一次微架构来交替给处理器更新换代。按照计划,今年推出微架构更新的新一代企业级处理器产品线——因为同样微架构的消费级产品在上一年已经发布。从上一年的6月2日英特尔发布代号为Haswell的消费级第四代酷睿处理器,到代号为Haswell-EP的企业级第三代至强E5处理器(Xeon E5 v3),中间的跨度超过了一年,这其实可以说间隔有些长,虽然有些人认为第三代至强E5和第二代至强E5(Xeon E5 v2)之间的间隔不足一年而显得更新频率有些快了。

Intel Haswell-EP处理器评测
Tick Tock Tick Tock,Haswell微架构属于Tock

  这些时间上的问题都是因为Haswell-EP上的大变动,首先在这一代产品当中,整个平台已经向DDR4内存进行迁移,由于牵涉到内存和主板改动,因此这方面的工作早已经在两年前就开始进行了,实际上,在发布Xeon E5 v2时,OEM厂商们就已经在对Xeon E5 v3平台进行测试了。

Intel Haswell-EP处理器评测
2014年9月,Intel Xeon E5-2600 v3处理器,代号Haswell-EP(22nm,Haswell微架构)

  厂商们拿到样品要远远早于媒体。大约在一个月前,我们拿到了最新的Xeon E5-2600 v3处理器的样机——包括一整台白牌服务器、处理器以及搭配的DDR4内存,另外还有几个特别部件。在收到服务器的同时,在Oregon的Hillsboro,笔者也见到了Xeon E5-2600 v3处理器的晶圆,万幸的是,笔者有把它拍了下来。时间并不宽裕,Intel提供的资料也很不充足,晶圆的官方照片现在仍未能拿到。

Intel Haswell-EP处理器评测
Intel Xeon E5 2600 v3的晶圆,仔细看的话,是可以看出这块晶圆里面是其最顶级的型号E5-2699 v3

Intel Haswell-EP处理器评测
先不说E5-2699 v3是什么,要认出这块晶圆里面是E5-2699 v3,显然需要一些知识点,看完本文就能明白

  和Haswell-EP同期,但是略早数天推出的是其消费级的姊妹产品Haswell-E,也就是Intel的高端桌面产品,在它们发布的时候我们可以获知到很多信息。和Ivy Bridge-EP不一样,Haswell-EP会带给我们极不一般的体验,并不仅仅是DDR4内存——实际上,DDR4内存的威力现在还未能充分展现,吸引我们的是Haswell-EP的微架构改变,以及架构上的改变,它可能比一般用户认为的变化还要大上一点。

Intel Haswell-EP处理器评测
Intel Haswell-EP处理器评测 by ZDNet企业解决方案中心 Lucifer

  接下来,我们会先对Haswell-EP的架构进行一个概述,结论党可以看一下,接着是对Haswell-EP的微架构进行解析,然后轮到架构改进,再轮到电气方面的改进,最后是平台方面的变化,并对Intel的白牌服务器进行拆解展示,最后就是启动Haswell-EP并和Ivy Bridge-EP等处理器进行性能测试对比。

  上一代处理器Ivy Bridge-EP的评测:

Intel Haswell-EP处理器评测
2013年9月,Intel Xeon E5-2600 v2处理器,代号Ivy Bridge-EP

  Intel Haswell-EP和其上一代Ivy Bridge-EP基于相同的22nm工艺,然而在微架构上得到了很大的进步,其架构变化也很大,相对来说,在整个系统平台的范围,变化要小上一点。包含Haswell-EP处理器以及Wellsburg PCH芯片在内的整个平台被称之为Grantley。其中,Wellsburg PCH(C610芯片组)是上一代Patsburg PCH(C600芯片组)的继任者,整个平台的更新如下:

Intel Haswell-EP处理器评测
Intel Xeon E5-2600 v3处理器平台又被称为Grantley平台

  Grantley平台当中最重要的自然就是Haswell-EP处理器了,Wellsburg芯片组的更新再稍后面会提及,我们下面将会花较大篇幅介绍Haswell-EP:

Intel Haswell-EP处理器评测
Intel Xeon E5-2600 v3 Processor Overview,概览

  上面列表当中黄色的部分表明了相对上一代Ivy Bridge-EP的改进,包括多达18个CPU核心、集成电压调制器、AVX 2.0指令集,以及更好的电源管理和内存技术,这个概览可以大略展示出架构层次上的改进,没有提及微架构的改进,下表亦然:

Intel Haswell-EP处理器评测
Xeon E5-2600 v2对比Xeon E5-2600 v3

  每一代处理器Intel都会带来一些指令集更新,但Haswell带来的尤其多,所以前面的图当中还提出了Haswell New Instruction(HNI)的概念,其包括了AVX 2.0、FMA等一系列的新指令,这些指令对X86架构来说很重要,后面我们也会对AVX 2.0进行介绍。

  最后我们来看看当前Haswell-EP具有的型号:

Intel Haswell-EP处理器评测
Haswell-EP分成了很多个分段,核心数量从6核到18核不等,一共具有22个型号

  大略了解Xeon E5-2600 v3/Haswell-EP之后,接下来我们先详细介绍一下,Haswell的微架构相对上一代Sandy Bridge微架构具有哪些改进。

  从Nehalem开始,Intel的处理器就可以分为Core和Uncore两大部分,其中,同一微架构的处理器,其Core部分是一致的,根据消费端、企业端的需求不同,使用不同的Core数量以及Uncore部分搭配组合,就得到了整个家族不同的处理器。其中,Core,核心或者核内,属于微架构的范畴。Intel将Haswell的Core改进划分为三个方面:

1.面向提升IPC(Instruction Per Cycle,每周期指令数)的微架构改进
2.供给运算单元的核心微架构改进
3.提升性能的指令集

  如下图所示,Haswell号称IPC比Ivy Bridge提升17%

Intel Haswell-EP处理器评测
Intel Haswell的核心改进

  我们介绍的顺序大抵和上面一致,接下来先介绍的是面向提升IPC的微架构改进。

面向提升IPC的微架构改进

  微架构的改进设计方方面面,不过大致上就是上面列出的5点:

1. 更好的分支预测
2. 更深的缓冲区
3. 更大的TLB(Translation Lookaside Buffer,旁路翻译缓冲)
4. 更多的执行单元
5. 改进的前端单元

  首先我们来看Haswell的微架构图示:

Intel Haswell-EP处理器评测Haswell Core at a Glance,Haswell核心一目了然

  At a Glance,一目了然的意思,果然可以很直观地看到Haswell微架构上重点在于改进的前端部分(包括改进分支预测)以及执行单元的改进。下图是上一代微架构Sandy Bridge:

Intel Haswell-EP处理器评测
Sandy Bridge微架构

  实际上,在Intel的NDA会议上并没有介绍到微架构的层次,因此也没有更多的资料可以介绍更进一步的细节。相对来说,缓冲区以及执行单元的改进倒是可以一说:

Intel Haswell-EP处理器评测
Haswell在各种硬件缓冲资源上得到了改进,提升幅度大约在5~15%左右,可谓颇为明显

Intel Haswell-EP处理器评测
Haswell的执行单元架构时代

  从Nehalem以来,Intel除了如Atom、Quark之外的处理器均一直具有6个执行端口,每个端口具有不同的执行单元但共享相同的入口,这样每个时钟周期前端可以Issued(发射)6条μop。在Haswell当中,执行端口的数量增加到了8个,新增加的端口6是整数ALU、Shift,以及分支单元;端口7这是Store Address。在以往的微架构当中,整数ALU在端口0和端口1和端口5各有一个,然而在端口0和1的任务十分繁重,各种SIMD操作都要占用,因此增加的ALU有利于解放端口0和1,同样地,分支单元一直以来只有端口0具有,端口7新增的分支单元让分支能力倍增,并减少了对端口0的依赖。端口7的Store Address功能以往由端口2和端口3来实现,而在上一代微架构当中,端口2和端口3的宽度为128位,意味着256位的AVX操作需要同时占用两个端口,也就是占用了端口当中的AGU地址生成单元,现在通过额外的端口7,可以允许更多的操作并行运行,同时,端口2和3的宽度也从以往的128位提升到256位,也就是每端口每个时钟周期可以Load多达32字节的数据,同样,端口4(Store Data)的宽度也得到了翻倍,总的来说,笔者认为,Haswell微架构当中,端口数量的增加——最明显的就是Load/Store能力的增加,对于IPC的提升有着显著的影响,因为L1缓存带宽的翻倍对大量的数据处理作用是很明显的,Haswell在L2带宽上也同时得到了倍增:

Intel Haswell-EP处理器评测
Haswell核心的缓冲大小、延迟以及带宽的改进

  除了Load/Store能力的明显改进之外,Haswell的端口2额外增加了FMA FP Mult(融合乘加、浮点乘)的能力,FMA性能翻倍。

  总的来说,Haswell更进一步地发掘了处理器的ILP(Instruction Level Parallelism,指令集并行度)能力,在各个方面增加并行运算资源,预计除了IPC,超线程的表现也会得到提升。

  前面有所提及,Haswell搭载了强大的指令集更新,甚至用了Haswell New Instruction的词语来形容:

Intel Haswell-EP处理器评测
Haswell New Instruction,Haswell新指令集

  AVX2,或者AVX 2.0,其改进首先是将AVX 1.0未涉及的整数SIMD提升到与浮点SIMD一致的宽度:256位,翻倍的处理宽度让整数SIMD性能大为提升,如多媒体处理、高性能计算等应用都能从中获益。AVX2还加入了FMA(Fused Multiply-Add,融合乘加)的支持,对图形应用程序员来说,FMA指令不会陌生,它可以显著提升相关浮点处理的性能。AVX2.0中的FMA属于三操作数的FMA3,AVX2.0也加入了一些离散的整数相关指令。

Intel Haswell-EP处理器评测
AVX2的最明显改进首先就是实现256位AVX整数运算

  双倍的FMA单元和双倍的缓存带宽:

Intel Haswell-EP处理器评测
FMA性能看起来很美好

  最后是专门用来提升程序同步性能的指令集,限于时间关系,不详细介绍:

Intel Haswell-EP处理器评测
Intel Haswell专门针对锁和同步性能进行了加强

Intel Haswell-EP处理器评测
TSX:Transactional Synchronization Extensions,事务同步扩展

Intel Haswell-EP处理器评测
使用Intel TSX实现锁消去

  和核心架构的改进不同,指令集的增强需要程序使用新的指令集进行编译。不过,256位整数AVX运算以及FMA的实现让人对AVX2的性能很是期待。

  虚拟化已经成为现代IT当中极为重要的一项技术,每一代Intel的处理器都在虚拟化方面进行持续的增强。同样地,由于虚拟机切换(VM entry/exit)在虚拟化开销当中的重要性,每一代Intel处理器都致力于降低VM entry/exit的时间,Ivy Bridge处理器当中搭载的是APICv(Advanced Programmable Interrupt Controller Virtualization,高级可编程中断控制器虚拟化),通过降低虚拟机内部中断而导致的VM exit来降低虚拟化切换的次数,提升虚拟化效率:

Intel Haswell-EP处理器评测
Haswell的虚拟化改进,从数字来看,Haswell的VM entry/exit Roundtrip降低到了上上一代Westmere的约70%,不高于500个时钟周期

  Haswell不同,它通过直接降低VM entry/exit Roundtrip时间来提升虚拟化效率,最新一代的Roundtrip Time降低到了不高于500个时钟周期。

  Haswell也带来了面向嵌套虚拟化的改进,被称之为VMCS Shadowing:

Intel Haswell-EP处理器评测Haswell通过允许客户VMM直接访问VMCS Shadowing Structure来降低VM entry/exit

Intel Haswell-EP处理器评测
EPT A/D:EPT Access/Dirty Bits,EPT(Extended Page Tables)是管理虚拟机内存地址到物理内存地址转换的硬件机制

  EPT A/D从图片上看起来和上面的VMCS Shadowing很相似,不过作用是不同的,EPT A/D的作用在于降低VMM监控虚拟机的开销,因为软件检测方案需要VMM将EPT表设置为低权限的方式,从而导致VM exit/entry开销,而EPT A/D则可以避免这种开销,由于在虚拟化环境下,EPT会持续作用,而VMM对虚拟机的检测也不可缺少,因此预计EPT A/D将会有比较明显的效果。

Intel Haswell-EP处理器评测

  笔者计划之后测试不同Hypervisor的虚拟化性能,敬请期待。

  看完Core核内的改进之后,我们再来看看Uncore核外的改动,首先是核心互联架构的改进:

Intel Haswell-EP处理器评测
Haswell-EP核外改进

  我们已经知道Haswell-EP具有18个核心,那么,这18个核心的互联就是一个挑战,它会影响到Uncore的设计。上一代的12个核心就已经迫使Ivy Bridge-EP采用了三环形总线的设计,那么Haswell-EP呢?

Intel Haswell-EP处理器评测
Haswell-EP核心内部互联的进化,这个进化只有十核心及以上核心数量的型号才具有

  答案果然是四环形总线,不过是环形总线并不是重点,最主要的地方在于,Haswell将核心分为两组,每组通过一对环形总线连接,就如同低核心数量时一样,并且——Haswell在两组核心之间加入了Buffered Switch(缓冲交换机),这才是重点。根据核心数量的不同,Haswell-EP和上一代一样具有三种不同的晶圆布局,其中HCC(High Core Count)和MCC(Medium Core Count)两种具有Buffered Switch设计。

Intel Haswell-EP处理器评测
Haswell-EP的三种晶圆设计

  显然,Buffered Switch将CPU分为了两个区域,从而让处理器可以容纳更多的CPU核心,不过,Buffered Switch会引入延迟,根据笔者的问询,Intel方回答是,Buffered是FIFO的设计,并具有4~5个时钟周期的延迟,这样的延迟并非刻意忽略,实际上,Intel针对Haswell-EP的状况还准备了一个新的Cluster-on-Die的工作方式:

Intel Haswell-EP处理器评测
在具有2个Home Agent的SKU才具有Cluster-on-Die特性

  Buffered Switch的存在让两个不同的CPU组/分区对其它不同的部件有着不同的延迟,这实际上就和NUMA架构一样,因此Cluster-on-Die显的做法就是在CPU里面实现NUMA——每个CPU组各自拥有各自的内存控制器、Home Agent等,L3 Cache也同时进行分割,整体来说,Cluster-on-Die模式用于降低两个CPU分区之间的通信,从而提升性能,因此,Cluster-on-Die也是一种Snoop模式:

Intel Haswell-EP处理器评测
Cluster-on-Die也是一种Snoop模式,因为它影响到了L3 Cache的工作方式

  对于系统来说,打开Cluster-on-Die模式实际上就是让一个处理器被认为了两个处理器,如此,支持的OS/VMM就可以对应用进行本地调度,尽量降低CPU分区之间的通信。

Intel Haswell-EP处理器评测
Intel Xeon E5 2600 v3的晶圆,仔细看的话,是可以看出这块晶圆里面是其最顶级的型号E5-2699 v3

Intel Haswell-EP处理器评测
先不说E5-2699 v3是什么,要认出这块晶圆里面是E5-2699 v3,显然需要一些知识点,看完本文就能明白

Intel Haswell-EP处理器评测
如何看出晶圆上是Intel Xeon E5-2699 v3?将上图向右旋转90度,从左到右一共有四列规整的处理器核心+L3缓存,数量分别是4、4、4和6,刚好和前面的核心配置图一致

  通过Buffered Switch的设计,Haswell-EP实现了18个处理器核心,这一点是比较让人惊奇的,因为包括Nehalem、Sandy Bridge这样的处于Tock阶段的处理器,都不会对处理器核心做出如此之多的增加。

  除了互联架构的大改变之外,Haswell的Uncore也带来了一系列能源方面的改进,起源来自于Haswell已经集成了Voltage Regulator电压调制器:

Intel Haswell-EP处理器评测
IVR(Integrated Voltage Regulator,集成电压调制器)让E5-2600 v3的功耗增加,同时降低了主板的供电设计的复杂度

Intel Haswell-EP处理器评测
Intel Grantley平台处理器供电明显有所简化

  IVR的目的显然不是让CPU的功耗有所上升(因为主板电压调制器的功耗转移到CPU内部了),它主要是用来实现新的电源管理能力:

Intel Haswell-EP处理器评测
最明显的地方就是Per Core P-States(PCPS)Uncroe Voltage/Frequency Scaling(UFS)

  PCPS是什么意思呢?它和UFS紧密相关,在上一代Ivy Bridge-EP处理器当中,Core和Uncore部分是一体的,所有核心、Uncore部分都运行在一致的频率,到了Haswell,不仅Core和Uncore部分得到了解耦,不同的Core之间也得到了解耦,也就是说,Core和Uncore部分将可以运行在不同的电压和频率(UFS),不同的核心也可以运行在不同的电压和频率,这显著降低了系统的总运行功耗,这也是同为22nm工艺,Haswell-EP却能比Ivy Bridge-EP多50%核心的原因之一。

  看完CPU部分的改变之后,我们再来看看Haswell-EP采用的DDR4内存架构,在Intel的Press Workshop上,这个部分的介绍是由三星来进行:

Intel Haswell-EP处理器评测
DRAM的发展历史

Intel Haswell-EP处理器评测
DDR4的工作从2004年就开始了

  RDRAM的错误看起来Intel没有再犯,DDR4应该是一个可以接受的规范。

Intel Haswell-EP处理器评测
DDR4是符合工业界需求的产品

  DDR4能提供什么?更好的性能,更低的功耗,更高的可靠性。

Intel Haswell-EP处理器评测

  DDR4使用了1.2V的电压,甚至比低电压版的DDR3L还要低,加上其他的几项技术,DDR4可以提升20~40的每瓦特性能。

Intel Haswell-EP处理器评测

  同样,由于增加了6个RAS特性,DDR4也变得更可靠了。

Intel Haswell-EP处理器评测性能也有所提升

  唯一需要担心的是,旧的内存将无法应用到新的平台上,你需要投资购买新的内存。

  看完处理器的简单介绍之后,我们接下来看看Intel送来的Grantley/Haswell-EP测试样机,貌似做工比上一代的要好:

Intel Haswell-EP处理器评测
2U,8个热插拔槽,前面板可以明显看到两个蓝色的USB 3.0端口

Intel Haswell-EP处理器评测
顶盖上是Quick Reference——这个顶盖略有些沉重,机器也是

Intel Haswell-EP处理器评测
和上一代不同,新一代服务器只给我们配置了单个冗余电源,一点也不冗余

Intel Haswell-EP处理器评测
架构上并没有什么突出的地方

Intel Haswell-EP处理器评测
最突出的可能是上面的一块Intel SSD DC P3700固态硬盘,它的测试也已经在进行中,并且已经有一些数据了,不过本文当中不会出现

  唯一可以说的是,Intel SSD DC P3700的性能很不错!

Intel Haswell-EP处理器评测
  主板的存储接口和上一代有所不同:不再使用mini SAS(SFF8087)接口,而是使用两个mini SAS HD(SFF8643),这是因为Intel的Wellsburg提供了10个SATA 6Gb/s端口,因此Intel这块板采用两个mini SAS HD和两个独立SATA的设置,题外话,Patsburg(Wellsburg的上一代)提供的SCU真是没什么用,性能也有问题,这一代干脆取消了……SAS SCU的设计(SCU仍然存在)。

Intel Haswell-EP处理器评测

  USB 3.0以及10个SATA 6Gb/s接口就是Wellsburg(C610芯片组)的最大改进,此外,之前纷乱的多版本Patsburg(C600芯片组)现在变成了只有一个版本,这样对大家都好,真的。

  拆下一个铜底散热器就可以看到CPU,尽管Haswell-EP的插槽仍然为LGA2011,然而由于内存架构的改变,和之前的插槽无法通用,实际上新平台的插槽叫做Socket B3,以和上一代的Socket B2做区分。

Intel Haswell-EP处理器评测
Socket B3插槽的样式也略有所不同

  Socket B3的Intel Xeon E5-2699 v3处理器看起来有些Xeon E7的风格,看起来有一股高大上的气息。

Intel Haswell-EP处理器评测
Intel Xeon E5-2699 v3长的是长方形是因为18个核心的排布

  Intel Xeon E5-2699 v3,最高端的18核心型号,目前18个核心也只有2699一个型号。Intel Xeon E5-2699 v3采用四环形总线+双Buffered Switch布局,具有45MiB的L3 Cache,TDP是145W,主频2.3GHz,比上一代E5-2697 v2的2.7GHz要低,不过其最大睿频可以达到3.6GHz(两个核心时),所有核心睿频可以达到2.8GHz,整体效能也不算低了;Xeon E5-2697 v2最大睿频是3.5GHz(双核心时)。

Intel Haswell-EP处理器评测
Intel Hashwell-EP——Xeon E5-2699 v3处理器

Intel Ivy Bridge-EP处理器评测
上一代的Ivy Bridge-EP——Intel Xeon E5-2697 v2处理器正面+背面

  每个Intel Xeon E5-2699 v3具有18个核心和36个线程,双路配置就能达到36核心72线程。

Intel Haswell-EP处理器评测
DDR4内存(上) vs DDR3内存(下)

  顺便提一下,Grantley平台不再支持使用普通的Unbuffered内存,上一代的平台是支持的,这个改动对笔者这样的边缘用户影响略大。

  我们使用了这台Intel样机测试了双路Xeon E5-2699 v3处理器的性能,随机搭配的是三星的DDR4-2133内存。在抵达ZDNet企业解决方案中心时,Intel样机的主板Firmware版本是0556,后来我们刷新了Firmware,不过并不影响到性能:

Intel Haswell-EP处理器评测可以看到,主板是Intel S2600WT
Intel Haswell-EP处理器评测
Intel Xeon E5-2699 v3,18个核心,45MiB L3Cache
Intel Haswell-EP处理器评测
Cluster-on-Die模式被放在了NUMA选项的下面,它跟NUMA关系密切
Intel Haswell-EP处理器评测
主板自带的LOGO让人眼前一亮……居然不是很难看

  我们首先安装了Windows Server 2012 R2 Datacenter进行了简单的测试,安装过程很平滑,完全没有试验其它Linux系统的痛苦体验。

Intel Haswell-EP处理器评测
CPU-Z 1.70 x64,Intel Xeon E5-2699 v3识别状态很正常
Intel Haswell-EP处理器评测
CPU-Z 1.70 x64,Intel Xeon E5-2699 v3的Cache状态
Intel Haswell-EP处理器评测
CPU-Z 1.70 x64,Intel Xeon E5-2699 v3被认作了桌面版的Haswell-E处理器,芯片组也被认作了X99(Wellsburg的桌面版本)
Intel Haswell-EP处理器评测
CPU-Z 1.70 x64,Intel Xeon E5-2699 v3的内存工作状态
Intel Haswell-EP处理器评测
CPU-Z 1.70 x64,Intel Xeon E5-2699 v3的SPD信息

  Windows Server 2012 R2在达到、超过64个逻辑处理器之后,每个逻辑处理器就不再显示历史曲线,而变成了色块显示,这一点不好。

Intel Haswell-EP处理器评测
Intel Haswell-EP/Xeon E5-2699 v3在Windows Server 2012 R2下的任务管理器图

  限于时间关系,AIDA64的测试成绩没有整理。AIDA64可以展现出大量硬件参数:

Intel Haswell-EP处理器评测
基本信息

Intel Haswell-EP处理器评测
标出了不同Turbo Boost核心数量下可以达到的频率

Intel Haswell-EP处理器评测
每一项的信息都是有用的

Intel Haswell-EP处理器评测

Intel Haswell-EP处理器评测

Intel Haswell-EP处理器评测

Intel Haswell-EP处理器评测

Intel Haswell-EP处理器评测
AIDA64的CPUID功能

  CineBench是来源于真实应用程序的一款性能测试软件,它基于Maxon的Cinema4D三维设计软件(CineBench同属Maxon公司的产品),可以用来粗略评测系统在渲染方面的效能,它既可以测试CPU,也可以测试显卡的OpenGL渲染能力。我们使用了最新版本CineBench R15套件中的64位版本。

Intel Haswell-EP处理器评测
Intel Haswell-EP的CineBench性能

  CineBench系列很适合发挥多线程的能力,72个硬件线程的双路Haswell-EP平台,其多核加速倍率达到了46.54x,多路渲染得分是3890 cb

  SPEC CPU是一个应用广泛的大型CPU性能测试项目。SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。除了SPEC CPU之外,SPECviewperf系列产品也是常见的测试工作站/图形卡部件所用到的测试软件。

  SPEC CPU是SPEC组织推出的一套CPU子系统评估软件,目前最新版本是SPEC CPU2006,它包括CINT2006和CFP2006两个子项目,分别用于测量整数性能和浮点性能。SPEC CPU的测试组件均来源于真实的应用程序,并经过修改以降低对IO子系统的影响,在测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常之小。

  SPEC CPU2006包括了12项整数运算和17项浮点运算,除此之外,还有两个随机数产生测试程序998.sperand(整数)和999.specrand(浮点),它们虽然也包含在套件中并得到运行,但是它们并不进行计时以获得得分。这两个测试主要是用来验证一些其他组件中会用到的PRNG随机数生成功能的正确性。各个测试组件基本上由C和Fortran语言编写,有7个测试项目使用了C++语言,而Fortran语言均用来编写浮点部分。SPEC CPU2006以一台Sun Ultra Enterpirse 2工作站作为基准参考系统,系统基于一颗296MHz的UltraSPARC II处理器,测试的得分就表明这个项目中测试系统相对基准系统性能的比值。

子项目
说明
整数测试
400.perlbench
PERL编程语言
负载由三个script组成:
主负载是垃圾邮件检测软件SpamAssassin
一个是email到HTML的转换器MHonArc
最后一个是specdiff
401.bzip2
压缩
负载包括六个部分:
两个小的JPEG图片
一个程序
一个tar包起的几个源程序文件
一个HTML文件
混合文件,包括压缩起来的高可压缩文件及不怎么可压缩的文件
测试分别使用了三个不同的压缩等级进行压缩和解压缩
403.gcc
C编译器
对9组C代码进行了编译
429.mcf
组合优化
MCF是一个用于大型公共交通中的单站车辆调度的程序
429.mcf运行于32/64位模型时分别需要约860/1700MB的内存
445.gobmk
人工智能:围棋
围棋
456.hmmer
基因序列搜索
使用HMMS(Hidden Markov Models,隐马尔科夫模型) 基因识别方法进行基因序列搜索
458.sjeng
人工智能:国际象棋
国际象棋
462.libquantum
物理:量子计算
libquantum是模拟量子计算机的库文件,用来进行量子计算机应用的研究
464.h264ref
视频压缩
使用两种配置对两个YUV格式源文件进行H.264编码
471.omnetpp
离散事件仿真
包括约8000台计算机和900个交换机/集线器,以及混合了各种从10Mb到1000Mb速率的大型CSMA/CD协议以太网络模拟
473.astar
寻路算法
实现了2D寻路算法A*的三种不同版本
483.xalancbmk 
XML处理
XML文档/XSL表到HTML文档的转换
浮点测试
410.bwaves
流体力学
对三维瞬跨音速粘性流中冲击波的模拟计算
416.gamess
量子化学
三种SCF自洽场计算:
胞嘧啶分子
水和Cu2+离子
三唑离子
433.milc
量子色动力学
四维SU(3)格点规范理论的模拟,用来研究QCD量子色动力学、夸克及胶子
434.zeusmp
物理:计算流体力学
用来计算理想、非相对论条件下的流体力学和磁流体力学,434.zeusmp模拟计算了一个统一磁场中的3D冲击波
435.gromacs
生物化学/分子力学
GROMACS是一个分子力学计算套件,然而也可以用于非生物系统,435.gromacs模拟了在一个水和离子溶液中的蛋白质溶菌酶结构在各种实验手段如核磁共振的X光照射下的变化
436.cactusADM 
物理:广义相对论
436.cactusADM对时空曲率由内部物质决定的爱因斯坦演化方程进行求解,爱因斯坦演化方程由10个标准ADM 3+1分解的二阶非线性偏微分方程组成。
437.leslie3d
流体力学
LESlie3d是用来计算湍流的计算流体力学程序,437.leslie3d计算了一个如燃油注入燃烧室的时间分层混合流体。
444.namd
生物/分子
NAMD是一个大型生物分子系统并行计算程序,444.namd模拟了了92224个原子组成的A-I载脂蛋白
447.dealII
有限元分析
deal.II是定位于自适应有限元及误差估计的C++库,447.dealII对非常系数的亥姆霍兹方程进行求解,它使用了基于二元加权误差估计生成最佳网格的自适应方法,该方程在3维得解
450.soplex
线形编程、优化
SoPlex使用单纯形算法解线性方程
453.povray
影像光线追踪
POV-Ray是一个光线追踪渲染软件,453.povray渲染一幅1280x1024的反锯齿国际象棋棋盘图像
454.calculix
结构力学
CalculiX是一个用于线性及非线性三位结构力学的有限元分析软件,454.calculix计算了一个高速旋转的压缩盘片在离心力的作用下的应力和变形情况
459.GemsFDTD
计算电磁学
459.GemsFDTD使用FDTD(有限差分时域)方法求解三维时域中的麦克斯韦方程,计算了一个理想导体的雷达散射截面
465.tonto
量子化学
Tonto是一个面向对象的量子化学程序包,465.tonto计算面向量子晶体学,它基于一个符合X光衍射实验数据的、约束的分子Hartree-Fock波函数
470.lbm
流体动力学
470.lbm使用LBM(格子波尔兹曼方法)模拟非压缩流体,它模拟了两种情况:类似活塞推动的剪切驱动流体和管道流体,测试包含了3000个步骤
481.wrf
天气预报
481.wrf基于WRF(Weather Research and Forecastin)模型,对NCAR的数据进行了计算,数据包括了UTC 2001.06.11到UTC 2001.06.12以三小时为间隔的数据
482.sphinx3
语音识别
语音识别

  我们使用了SPEC CPU2006的1.2版本进行测试,成绩与之前的双路Xeon E5-2690、Xeon E5-2697 v2、Xeon E5-2650L v2进行对比。测试使用的Inte C&Fortranl编译器版本是13.0,代码基于Intel的AVX指令集进行了优化。测试使用平台操作系统略有不同,对比的三款Sandy Bridge-EP/Ivy Bridge-EP处理器均基于CentOS 6.4操作系统,而由于主板Firmware的关系,Haswell-EP平台目前仅能安装SUSE Enterprise Linux Server 11 SP3,除了需求透明大页之外,SPEC CPU2006测试对操作系统没有太大要求——当然种类也不能相差太远,例如同为Linux影响就不大。另外,如前面所述,Haswell-EP的一大特色是支持AVX2和FMA指令集,然而由于时间关系,相关代码仍然在进行优化,因此我们的测试仍然基于AVX编译的代码。和以往一样,代码还使用了MicroQuill的SmartHeap 10.0进行了编译,SmartHeap可以让程序更好地管理Heap堆。

  除了整数运算和浮点运算的差别之外,SPEC CPU2006测试还分两种:SPEED测试和RATE测试,SPEED测试类型运行单个实例,用来测试系统运行单作业的时候的运算能力,RATE测试则是运行多个实例,用来测试系统的总运算吞吐能力。SPEC CPU测试还会给出两种类型的结果:Base基准测试结果和Peak峰值测试结果,Base测试要求编译器套件按照指定的规则进行优化,而Peak测试则可以允许使用更多地优化技术,可以看出,前者可以用来简单对比不同的平台,而后者则在对比因素中加入了编译器等因素,有实力编写编译器的厂商可以从中获益。本页给出的是SPEED测试结果,按照整数到浮点、Base测试到Peak测试排列四个成绩图标,每个图表给出了测试系统及对比系统的每个子项目的成绩。图表图例文字中最后的"2S36C72T"字段指的是2 Sockets、36 Cores、72 Threads,意思是“2插槽36核心72线程”。

  我们先进行了SPEED测试:

Intel Haswell-EP处理器评测
SPECint_base2006,整数,SPEED测试,Base基准测试

  可以看出,Haswell-EP/E5-2699 v3性能比Ivy Bridge-EP/E5-2697 v2提升了16.6%,由于SPEED测试是单实例测试,很多时候都是仅使用到一个核心(462.libquantum除外),因此它们实际的频率对比在某些时候是3.6GHz vs 3.5GHz,因此Haswell-EP的IPC是确实有所提升的。特别注明的是462.libquantum 物理:量子计算项目,尽管它是一个能应用多核的测试,不过在刨除1.5倍的核心系数之外,Haswell-EP的架构仍然有所增益。

Intel Haswell-EP处理器评测
SPECint2006,整数,SPEED测试,Peak峰值测试

  和SPECint_base2006的状况类似。

Intel Haswell-EP处理器评测
SPECfp_base2006,浮点,SPEED测试,Base基准测试

  浮点测试中,性能的提升要略微低一点,为13.5%

Intel Haswell-EP处理器评测
SPECfp2006,浮点,SPEED测试,Peak峰值测试

  同上。

  除了整数运算和浮点运算的差别之外,SPEC CPU2006测试还分两种:SPEED测试和RATE测试,SPEED测试类型运行单个实例,用来测试系统运行单作业的时候的运算能力,RATE测试则是运行多个实例,用来测试系统的总运算吞吐能力。SPEC CPU测试还会给出两种类型的结果:Base基准测试结果和Peak峰值测试结果,Base测试要求编译器套件按照指定的规则进行优化,而Peak测试则可以允许使用更多地优化技术,可以看出,前者可以用来简单对比不同的平台,而后者则在对比因素中加入了编译器等因素,有实力编写编译器的厂商可以从中获益。本页给出的是RATE测试结果,按照整数到浮点、Base测试到Peak测试排列四个成绩图标,每个图表给出了测试系统及对比系统的每个子项目的成绩。图表图例文字中最后的"2S36C72T"字段指的是2 Sockets、36 Cores、72 Threads,意思是“2插槽36核心72线程”。

  SPEED测试关注的是延迟为主,而RATE测试关注的是吞吐量,这也是一般服务器应用关注的指标。需要注意的是,在所有核心满负荷的时候,Intel Xeon E5-2699 v3工作在2.8GHz,Intel Xeon E5-2697 v2工作在3.0GHz

Intel Haswell-EP处理器评测
SPECint_rate_base2006,整数,RATE测试,Base基准测试

  462.libquantum的成绩终于不再如前面的那样突兀,其单项提升是35.2%,总性能提升是37.1%462.libquantum是一个内存密集型的测试,L1带宽的提升也很有影响,这是SPEED测试性能提升明显的原因之一,不过,在多实例的情况下,L3 Cache和内存带宽限制了Haswell强大的Load/Store能力的发挥。

Intel Haswell-EP处理器评测
SPECint_rate2006,整数,RATE测试,Peak峰值测试

  仅供参考。

Intel Haswell-EP处理器评测
SPECfp_rate_base2006,浮点,RATE测试,Base基准测试

  浮点运算的提升仍然比整数低一点,为30.0%

Intel Haswell-EP处理器评测
SPECfp_rate2006,浮点,RATE测试,Peak峰值测试

  仅供参考。

【ZDNet企业解决方案中心】在使用AVX编译代码的情况下,Haswell-EP/Xeon E5-2699 v3相对Ivy Bridge-EP/Xeon E5-2697 v2具有37.1%(SPECint_rate_base2006,整数)和30.0%(SPECfp_rate_base2006,浮点)的综合性能/吞吐量提升,在满负荷测试时,Intel Xeon E5-2699 v3工作在2.8GHz,Intel Xeon E5-2697 v2工作在3.0GHz,后者要高出7%(或前者要低6.7%),因此Haswell-EP的总体提升幅度是值得肯定的。

Intel Haswell-EP处理器评测
2014年9月,Intel Haswell-EP处理器评测 by ZDNet企业解决方案中心 Lucifer

  在SPEC CPU的RATE测试当中看不到,而在SPEED测试当中看到的是处理器微架构的提升,例如,462.libquantum 物理:量子计算就达到了122%的提升幅度,完全超过了核心数量的提升(462.libquantum 物理:量子计算是少数可以利用到多核的SPEED测试),可见Haswell的微架构改变确实有用。

Intel Haswell-EP处理器评测
Haswell-EP核心内部互联的进化,当然,这个进化只有十核心或十二核心数量的型号才具有

  除了性能的提升之外,Haswell-EP还通过集成电压调制器实现了Per Core P-States(PCPS)和Uncroe Voltage/Frequency Scaling(UFS),可以降低整个平台的使用功耗,提升性能功耗比值,Haswell-EP将会是一款很绿色的Xeon处理器。

Intel Haswell-EP处理器评测
Intel Xeon E5-2699 v3晶圆

Intel Haswell-EP处理器评测
如何看出晶圆上是Intel Xeon E5-2699 v3?将上图向右旋转90度,从左到右一共有四列规整的处理器核心+L3缓存,数量分别是4、4、4和6,刚好和前面的核心配置图一致

Intel Haswell-EP处理器评测
Intel Xeon E5-2600 v3平台的改进

  由于时间关系,测试中并没有使用AVX2编码,也没有用到FMA,并未有完全发挥Haswell处理器的实力。更进一步的测试我们还在进行当中,另外还有虚拟化等方面的测试,请继续期待我们的相关评测文章。

  上一代处理器Ivy Bridge-EP的评测:

Intel Haswell-EP处理器评测
2013年9月,Intel Xeon E5-2600 v2处理器,代号Ivy Bridge-EP

推广二维码
邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题