Intel Ivy Bridge-EP处理器评测
作者:盘骏/Lucifer 来源:ZDNetCBSi企业方案解决中心频道 【原创】 2013-11-28 19:00:02
Core,核内,属于微架构的范畴。尽管按照Tick-Tock来说,不会有大的变化,然而细节的改进确实必不可少的,每一代均是如此。按照Marketing的文档,粗略来说Intel Ivy Bridge-EP的改进有下面4点:
1. Intel Advanced Vector Extensions (AVX): Float 16 Format Conversion
2. Virtualization: APIC Virtualization (APICv)
3. Security: Intel Secure Key (DRNG)
4. Security: Intel OS Guard (SMEP)
这四个都是指令集的改进,前面两个分别用于改进AVX指令集以及在虚拟化环境下的性能,后面两个则是添加了两个安全特性,从它们具有自己独立的名称以及缩写可以看得出来,这些都是比较值得一说的地方。除此之外,也会有一些没有单独命名的改进,一般文档并不会标注出来,例如下面列出的多项增强一般人就不会知道(除了里面的Float16<->SP conversion就是前面的第一项 Float 16 Format Conversion改进):
Ivb Bridge-EP核内改进,内容来自Intel Reviewer's Workshop 2013,NDA文档
Ivy Bridge微架构改进,Technology Insight: Intel Next Generation Microarchitecture Codename Ivy Bridge,IDF2011
按照列表可以分出三个分类来:面向提升IPC的微架构改进、ISA指令集增强以及单独列出的一项FS/GS基址寄存器相关项目。下面我们先来看看这些项目,下一页再讨论前面所说的四项中的另外三项。
面向提升IPC的微架构改进
在微架构上我们可以总结出4个改进点来,它们可以持续地提升处理器的IPC:
1. MOV指令不再占用执行端口,因此称为“MOV elimination”,这是因为使用了PRF(Physical Register File,物理寄存器文件)架构后带来的持续改进(PRF在SNB微架构中引入),MOV指令现在只需要在寄存器重命名阶段将寄存器内容重定向到目标寄存器就能完成,而不是像以往那样需要占用一个执行端口并占用时钟周期进行读取/写入寄存器操作
2. Prefetcher预取器改进
3. Divider除法器改进,据称是快了一倍,这一点特别值得一提:
Intel Penryn微架构(2006)的Fast Radix-16 Divider具有,每时钟周期可以生成结果的4个位,Early-out的算法可以允许更低的输出延迟
Intel Penryn微架构(2006)的Fast Radix-16 Divider的构造清晰可见,里面的重点是QSL和Hybrid 68-bit Adder(CSA/CPA双用);
CSA:Carry-Save Adder,CPA:Carry-Propagate Adder;QSL:Quotient Selection Logic
相比加法器和乘法器,除法器要复杂得多,并且难以流水线化;Intel的除法器设计一直处在业界领先水准,早在Penryn时代Intel使用Radix-16时就已经比竞争对手的Radix-4要快了一倍。Penryn的快速Radix-16除法器每时钟周期可以处理4个bit(其它处理器是2个bit),因此延迟可以降低一半,总吞吐量可以提升一倍。现在Ivy Bridge的除法器仅仅提到吞吐量提升了一倍(包括整数和浮点),怎么实现的还是个谜团
4. shift/rotate和split/load指令改进
显然,这些改进比起直接引入宽了一倍的256bit寄存器(Sandy Bridge微架构)或者执行端口直接加两个(Haswell微架构)来显得微小,不过根据负载的不同,其性能提升有时也不能忽略,在一些测试中可以观测到较为明显的变化。这些微架构的改进不需要软件进行任何的改动。
ISA指令集增强
指令集包含了两个部分:
1. Intel Advanced Vector Extensions (AVX): Float 16 Format Conversion
Intel在Sandy Bridge微架构中引入了AVX指令集,将浮点运算从128bit扩展到了256bit宽度,相应地,浮点寄存器也扩展到了256bit宽度
除了传统的32位SP(Single Precision,单精度)和64位DP(Double Precision,双精度)浮点格式之外,在很多图形和影像处理当中还存在着一种“半精度”的浮点格式,它的长度只有16位,因此可以很明显地降低数据的容量以及提升处理的速度。在Ivy Bridge-EP中,Intel引入了对半精度浮点格式的支持,并提供了两条在半精度和单精度之间转换的指令(因为半精度只是一个存储格式,并不对它进行直接处理):
vcvtps2ph:单精度到半精度转换(速度是独立的AVX实现的4倍)
vcvtph2ps,半精度到单精度转换(速度是独立的AVX实现的2.5倍)
2. REP MOVSB/STOSB指令增强
这类指令让程序员不再需要编写自己的copy/fill功能,并且在面对不同的字长的时候都能得到更为一致的性能。
用户线程快速FS/GS基址寄存器快速存取
跨时代的32位处理器:Intel 80386引入了保护模式,将80286原有的16位寄存器扩展为32位寄存器并增加了FS和GS两个段寄存器
Intel的80386处理器在引入386保护模式的同时,引入了两个新的通用数据段寄存器,FS和GS,作为之前4个段寄存器的补充(CS、DS、ES和SS),不过,现代的x86-64处理器在Long模式中不再使用CS、DS、ES、SS段寄存器而仅仅使用FS和GS段寄存器。不同的操作系统对寄存器的使用不同, Windowss操作系统使用FS和GS寄存器指向Win32 Thread Information Block(TIB),也叫 Thread Environment Block(TEB)——保存着当前运行线程的一些信息。在Ivy Bridge中,Intel引入了4条在Ring-3(用户Ring)下访问FS和GS寄存器的指令,从而达到宣称的“Critical optimization for large thread-count server workloads(大量线程数量服务器负载的重大优化)”的目的。不过跟所有新增的指令集一样,这需要对应用程序使用新的指令进行重新编译。
Intel Tick-Tock与Ivy Bridge-EP
1Intel Ivy Bridge-EP处理器:改进概览
2Intel Ivy Bridge-EP处理器:核内改进(一)
3Intel Ivy Bridge-EP处理器:核内改进(二)
4Intel Ivy Bridge-EP处理器:核外改进
5Intel Ivy Bridge-EP处理器真相
6Intel Ivy Bridge-EP座驾:DELL PowerEdge R720
7Intel Ivy Bridge-EP处理器:测试环境
8SPEC CPU2006处理器性能测试介绍
9SPEC CPU2006:SPEED测试
10SPEC CPU2006:RATE测试
11超线程对比:SPEC CPU2006 SPEED测试
12超线程对比:SPEC CPU2006 RATE测试
13Intel Ivy Bridge-EP处理器:测试总结
14
最新文章
Prem Natarajan谈在第一资本领导AI创新是怎样一种体验
行者无疆,共越关山!2024创业邦100未来独角兽大会圆满举办
“拥抱开源,All in AI”,润和软件闪耀2024南京软博会
三大驱动,Fortinet打造全球安全网络防线
数仿现实 智真融合丨“2024软通动力AI+数字孪生创新发展论坛”成功举办
大咖畅谈AI发展前景:数据、生态仍是关键,AI Agent极具潜力
SUSE发布2025年技术趋势预测
Avnet CIO:以一种实用的方式驾驭云和AI
金融服务公司Discover CIO:混合云之旅正在初见成效
AI以全新方式助力医生获取专业知识
IBM Instana: AI赋能智能运维方案
IBM AI 赋能的资产管理解决方案(Maximo Application Suite)