扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
随着Intel Xeon E5处理器平台的发布,相关服务器厂商都很快推出了基于Xeon E5平台的产品,戴尔的PowerEdge R720服务器是当中的佼佼者,它的硬件设计十分优秀,在《各有侧重双子星:Dell PowerEdge R720/R720xd》一文中我们可以看到详细的介绍。
DELL PowerEdge R720服务器(上)及其前代R710服务器(下)
内部架构:R720(右)与R710(左),两者的架构相差甚大,然而图上仅可以看到R720的内存DIMM数量增加了1/3
服务器的应用种类繁多,除了如Web服务器、文件服务器以及数据库服务器这样常见的应用之外,还有一些较不为人知的应用,如集群渲染(又被通俗地称为渲染农场Render Farm),在DCC(Digital Content Creation,数字内容创作)领域中得到了广泛的应用。我们现在观赏的各种大片,其特效一般都需要使用集群渲染来完成。我们CBSi企业解决方案中心测试了大众配置下PowerEdge R720服务器的性能表现,主要侧重于CPU子系统的性能测试,另外我们也测试了这种配置下的PowerEdge R720在渲染方面的性能,可以为DCC行业在组建渲染农场的时候作为参考。
测试平台、测试环境
|
|||||
测试分组 | |||||
类别 | DELL PowerEdge R720服务器 双路Intel Xeon E5 2630 64GiB RAM |
DELL PowerEdge R710服务器 双路Intel Xeon E5620 48GiB RAM |
|||
处理器子系统 | |||||
处理器 | 双路Intel Xeon E5 2630 | 双路Intel Xeon E5620 | |||
处理器架构 | Intel 32nm SandyBridge | Intel 32nm Westmere | |||
处理器封装 | Socket 2011 LGA | Socket 1366 LGA | |||
处理器规格 | 六核 | 四核 | |||
处理器指令集 | MMX,SSE(1,2,3,3S,4.1,4.2),EM64T,VT-x,AES,AVX | MMX,SSE(1,2,3,3S,4.1,4.2),EM64T,VT-x,AES | |||
主频 | 2.3/2.6/2.7/2.8GHz | 2.4/2.53/2.66GHz | |||
处理器外部总线 | 2x QPI 3600MHz 7.2GT/s 单向14.4GB/s(每QPI) 双向28.8GB/s(每QPI) |
2x QPI 2933MHz 5.86GT/s 单向11.72GB/s(每QPI) 双向23.44GB/s(每QPI) |
|||
L1 D-Cache | 6x 32KiB 8路组关联 |
4x 32KiB 8路组关联 |
|||
L1 I-Cache | 6x 32KiB 8路组关联 |
4x 32KiB 4路组关联 |
|||
L2 Cache | 6x 256KiB 8路组关联 |
4x 256KiB 8路组关联 |
|||
L3 Cache | 15MiB @ Core Speed 20路组关联 |
8MiB @ 2668.7MHz 16路组关联 |
|||
内存控制器 | 每CPU集成四通道R-ECC DDR3 1333 | 每CPU集成三通道R-ECC DDR3 1066 | |||
内存 | 8GiB R-ECC DDR3 1333 SDRAM x8 @ DDR3-1333 |
8GiB R-ECC DDR3 1333 SDRAM x6 @ DDR3-1066 |
|||
软件环境 | |||||
操作系统 | Microsoft Windows Server 2008 R2 Datacenter Edition SP1(64-bit) |
Microsoft Windows Server 2008 R2 Datacenter Edition SP1(64-bit) |
测试时我们还使用了一台戴尔的PowerEdge R710服务器,就是R720的上一代产品。需要注意的是,在测试过程中我们打开了Turbo Boost睿频功能,在R710平台上,需要手动设置电源计划为“高性能”才能激活这个功能,而在R720平台上,默认的“平衡”模式就可以激活睿频,这也是新一代服务器带来的优势之一。
SPEC CPU是一个应用广泛的大型CPU性能测试项目。SPEC是标准性能评估公司(Standard Performance Evaluation Corporation)的简称。SPEC是由计算机厂商、系统集成商、大学、研究机构、咨询等多家公司组成的非营利性组织,这个组织的目标是建立、维护一套用于评估计算机系统的标准。除了SPEC CPU之外,SPECviewperf系列产品也是常见的测试工作站/图形卡部件所用到的测试软件。
SPEC CPU是SPEC组织推出的一套CPU子系统评估软件,目前最新版本是SPEC CPU2006,它包括CINT2006和CFP2006两个子项目,分别用于测量整数性能和浮点性能。SPEC CPU的测试组件均来源于真实的应用程序,并经过修改以降低对IO子系统的影响,在测试中,测试系统的处理器、内存子系统和使用到的编译器(SPEC CPU提供的是源代码,并且允许测试用户进行一定的编译优化)都会影响最终的测试性能,而I/O(磁盘)、网络、操作系统和图形子系统对于SPEC CPU2006的影响非常之小。
SPEC CPU2006包括了12项整数运算和17项浮点运算,除此之外,还有两个随机数产生测试程序998.sperand(整数)和999.specrand(浮点),它们虽然也包含在套件中并得到运行,但是它们并不进行计时以获得得分。这两个测试主要是用来验证一些其他组件中会用到的PRNG随机数生成功能的正确性。各个测试组件基本上由C和Fortran语言编写,有7个测试项目使用了C++语言,而Fortran语言均用来编写浮点部分。SPEC CPU2006以一台Sun Ultra Enterpirse 2工作站作为基准参考系统,系统基于一颗296MHz的UltraSPARC II处理器。
子项目
|
说明 |
---|---|
整数测试
| |
400.perlbench
PERL编程语言 |
负载由三个script组成: 主负载是垃圾邮件检测软件SpamAssassin 一个是email到HTML的转换器MHonArc 最后一个是specdiff |
401.bzip2
压缩 |
负载包括六个部分: 两个小的JPEG图片 一个程序 一个tar包起的几个源程序文件 一个HTML文件 混合文件,包括压缩起来的高可压缩文件及不怎么可压缩的文件 测试分别使用了三个不同的压缩等级进行压缩和解压缩 |
403.gcc
C编译器 |
对9组C代码进行了编译 |
429.mcf
组合优化 |
MCF是一个用于大型公共交通中的单站车辆调度的程序 429.mcf运行于32/64位模型时分别需要约860/1700MB的内存 |
445.gobmk
人工智能:围棋 |
围棋 |
456.hmmer
基因序列搜索 |
使用HMMS(Hidden Markov Models,隐马尔科夫模型) 基因识别方法进行基因序列搜索 |
458.sjeng
人工智能:国际象棋 |
国际象棋 |
462.libquantum
物理:量子计算 |
libquantum是模拟量子计算机的库文件,用来进行量子计算机应用的研究 |
464.h264ref
视频压缩 |
使用两种配置对两个YUV格式源文件进行H.264编码 |
471.omnetpp
离散事件仿真 |
包括约8000台计算机和900个交换机/集线器,以及混合了各种从10Mb到1000Mb速率的大型CSMA/CD协议以太网络模拟 |
473.astar
寻路算法 |
实现了2D寻路算法A*的三种不同版本 |
483.xalancbmk
XML处理 |
XML文档/XSL表到HTML文档的转换 |
浮点测试
| |
410.bwaves
流体力学 |
对三维瞬跨音速粘性流中冲击波的模拟计算 |
416.gamess
量子化学 |
三种SCF自洽场计算: 胞嘧啶分子 水和Cu2+离子 三唑离子 |
433.milc
量子色动力学 |
四维SU(3)格点规范理论的模拟,用来研究QCD量子色动力学、夸克及胶子 |
434.zeusmp
物理:计算流体力学 |
用来计算理想、非相对论条件下的流体力学和磁流体力学,434.zeusmp模拟计算了一个统一磁场中的3D冲击波 |
435.gromacs
生物化学/分子力学 |
GROMACS是一个分子力学计算套件,然而也可以用于非生物系统,435.gromacs模拟了在一个水和离子溶液中的蛋白质溶菌酶结构在各种实验手段如核磁共振的X光照射下的变化 |
436.cactusADM
物理:广义相对论 |
436.cactusADM对时空曲率由内部物质决定的爱因斯坦演化方程进行求解,爱因斯坦演化方程由10个标准ADM 3+1分解的二阶非线性偏微分方程组成。 |
437.leslie3d
流体力学 |
LESlie3d是用来计算湍流的计算流体力学程序,437.leslie3d计算了一个如燃油注入燃烧室的时间分层混合流体。 |
444.namd
生物/分子 |
NAMD是一个大型生物分子系统并行计算程序,444.namd模拟了了92224个原子组成的A-I载脂蛋白 |
447.dealII
有限元分析 |
deal.II是定位于自适应有限元及误差估计的C++库,447.dealII对非常系数的亥姆霍兹方程进行求解,它使用了基于二元加权误差估计生成最佳网格的自适应方法,该方程在3维得解 |
450.soplex
线形编程、优化 |
SoPlex使用单纯形算法解线性方程 |
453.povray
影像光线追踪 |
POV-Ray是一个光线追踪渲染软件,453.povray渲染一幅1280x1024的反锯齿国际象棋棋盘图像 |
454.calculix
结构力学 |
CalculiX是一个用于线性及非线性三位结构力学的有限元分析软件,454.calculix计算了一个高速旋转的压缩盘片在离心力的作用下的应力和变形情况 |
459.GemsFDTD
计算电磁学 |
459.GemsFDTD使用FDTD(有限差分时域)方法求解三维时域中的麦克斯韦方程,计算了一个理想导体的雷达散射截面 |
465.tonto
量子化学 |
Tonto是一个面向对象的量子化学程序包,465.tonto计算面向量子晶体学,它基于一个符合X光衍射实验数据的、约束的分子Hartree-Fock波函数 |
470.lbm
流体动力学 |
470.lbm使用LBM(格子波尔兹曼方法)模拟非压缩流体,它模拟了两种情况:类似活塞推动的剪切驱动流体和管道流体,测试包含了3000个步骤 |
481.wrf
天气预报 |
481.wrf基于WRF(Weather Research and Forecastin)模型,对NCAR的数据进行了计算,数据包括了UTC 2001.06.11到UTC 2001.06.12以三小时为间隔的数据 |
482.sphinx3
语音识别 |
语音识别 |
我们使用了SPEC CPU2006的1.1版本进行测试,测试使用的Inte C&Fortranl编译器版本是12.0,代码基于Intel的SSE4.2指令集进行了优化。
SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。
SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子色动力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。
尽管PowerEdge R720使用的Xeon E5处理器支持AVX指令集,它可以大幅度增强处理器的浮点处理能力,然而我们选择了SSE4.2版本进行测试,测试结果令人满意,测试使用的R720比R710整数提升71.7%,浮点提升79.2%。其中,R720的核心数量要多50%提供了一部分提升,Turbo Boost睿频启动的情况下R720运行在2.6GHz,R710则运行在2.53Ghz,剩下的10%~20%则是处理器架构改进带来的提升。
需要解释的是,这些是处理器平均的性能提升,本文中我们要关注的是浮点测试中的453.povray 影像光线追踪项目,它可以代表DCC中的渲染步骤,新的R720服务器性能提升了94.1%,比性能提升的平均值要高,这表明新的SandyBridge-EP架构很适合担任渲染工作。我们测试的SPEC CPU2006经过了Intel编译器彻底的SSE4.2优化,常见的渲染程序来说通常达不到这样的提升,一般需要用户另行准备相关优化的组件。
CineBench也是来源于真实应用程序的一款性能测试软件,它基于Maxon的Cinema4D三维设计软件(CineBench同属Maxon公司的产品),可以用来粗略评测系统在渲染方面的效能,它既可以测试CPU,也可以测试显卡的OpenGL渲染能力。我们使用了CineBench R11.5套件中的64位版本。
戴尔PowerEdge R720服务器CineBench性能
戴尔PowerEdge R710服务器CineBench性能
CineBench性能对比
R720平台的性能比R710提升了69.1%,基本上和SPEC CPU的整体性能提升一致。
Autodesk 3ds Max Design 2013
3ds Max是Autodesk公司出品的著名三维设计软件,和同门的Maya软件一起,应用非常广泛,它们组建的渲染农场也很容易碰到。3ds Max的最新版本是2013,我们使用3ds Max 2013的64位版本进行了一个简单的实际渲染测试,测试场景是一匹玻璃马,使用了默认的NVIDIA Mental Ray渲染器并选择了多种渲染分辨率:
3ds Max 2013测试场景
Autodesk 3ds Max 2013测试成绩 | ||||||
类别 | DELL PowerEdge R720服务器 双路Intel Xeon E5 2630 64GiB RAM |
DELL PowerEdge R710服务器 双路Intel Xeon E5620 48GiB RAM |
DELL PowerEdge R720服务器 性能提升 |
|||
NVIDIA Mental Ray渲染器 | ||||||
渲染分辨率 | 测试时间:秒(数值越小越好) | |||||
1920x1200 | 134(2:14) | 188(3:08) | 40.3% | |||
4000x3000 | 443(7:23) | 761(12:41) | 71.8% | |||
10000x10000 | 2718(45:18) | 5507(1:31:47) | 102.6% |
3ds Max 2013性能对比
可以看出,使用不同的运算负荷,得到的性能提升各不相同,这是因为从打开文件到渲染完成,中间由一系列工作组成,并不是所有的负荷都可以有效地并行化,因此R720更多的核不一定能完全发挥出来。可以看出,负荷越大,性能提升的幅度也越大,在DCC领域,特效需要的运算量是非常巨大的,因此它们很适合进行负荷分割,通过大量的渲染服务器并行加速。在我们测试的最大负荷上,PowerEdge R720渲染花费的时间是45分18秒,在PowerEdge R710上则是1小时31分47秒,性能提升幅度达102.6%,跟SPEC CPU2006中的453.povray 影像光线追踪子测试项目的结果维持了一致。
因为主流的DCC数字内容创作仍然大量依赖于CPU,因此我们测试了一台戴尔PowerEdge R720服务器的处理器子系统性能,以及其在DCC渲染方面的表现,根据我们收到的消息,在不久之后,戴尔将会推出具有GPU加速能力的R720服务器, 同样面向DCC领域。
内部架构:R720(右)与R710(左),两者的架构相差甚大,然而图上仅可以看到R720的内存DIMM数量增加了1/3
新一代R720服务器基于Intel Romley-EP平台,也就是Xeon E5平台,架构比上一代Westmere-EP有较大变化,详见《强内至外 E5能容 ZDNet全面评测至强E5-2600服务器平台》
我们测试系统的配置十分大众化,R720搭载的Xeon E5 2630和R710搭载的Xeon E5620处理器都是频率适中的型号,主频分别为2.3GHz和2.4GHz。在DCC行业,渲染农场通常由大量廉价的机器组成,这些机器都会选择较低频率的处理器以达到合适的性价比,我们的测试表明,得益于新的系统架构,戴尔新一代R720服务器的性能提升非常明显,在和上一代相比价格基本不变的情况下大为提升渲染效率。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。