科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

ZDNet>CSC频道>科技观察:神威·太湖之光超级计算机

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

【ZD Research】神威·太湖之光(Sunway TaihuLight)是一套由40960个申威SW26010处理器组成的超级计算机,申威SW26010看起来则是一种AMP不对称多处理、NUMA不一致内存访问架构的处理器。

来源:ZDNetCBSi企业方案解决中心频道 2016年06月22日

关键字:太湖之光 神威 HPC 超级计算机

【ZD Research】日前,在德国法兰克福宣布了最新版的全球超级计算机TOP500排行榜,榜首的是一台新机器——神威·太湖之光(英文名Sunway TaihuLight),这是一台由NRCPC(National Research Center of Parallel Computer Engineering & Technology,中国国家并行计算机工程与技术研究中心)负责研发,安装在江苏无锡的国家超级计算机中心的超级计算机系统。

科技观察:神威·太湖之光超级计算机
神威·太湖之光超级计算机(The Sunway TaihuLight Supercomputer System)

  太湖之光在很多方面吸引了我们的注意,但最主要的原因是,由于各方面资料的缺乏,国内外对其解读都有不少的误会。本文若无特别注释,所有关于神威·太湖之光(Sunway TaihuLight)的资料均来自于Jack Dongarra(后面还会详细提到此人)的《Report on the Sunway TaihuLight System》。

科技观察:神威·太湖之光超级计算机
神威·太湖之光超级计算机规格表,内存总容量为1.25PiB

  神威·太湖之光一共由40960个节点组成,每个节点就是一个CPU组成的一台独立主机,这个CPU由国家高性能集成电路(上海)设计中心提供,每个CPU由260个核心组成,系统一共具有10,649,600个核心,每个CPU搭配32GiB的内存,总内存数量就是1310720GiB,参数表里面写的是1.31PB——然而,这个写法并不精确,区别在于“GiB”与“GB”、“PiB”与“PB”。

  在容量单位的运用上,一直存在着两种不同的方式:硬盘厂商一直使用的是标准的SI国际单位制,也就是十进制,1KB = 1000B,1MB = 1000KB;在操作系统中使用的则是接近我们教科书的记法,也就是用2的10次方递进,如1KB = 1024B,1MB = 1024KB(基于后面解释的原因,这里只是一个不准确的运用)。这两个记法的不同导致了各种软盘U盘硬盘容量的“缩减”,为了澄清类似的大量误会,IEC(International Electrotechnical Commission,国际电工委员会) 在1998 年提出了新的二进制词头——在通常的SI十进制词头后面增加了一个字母i,这个i表示的是binary,例如,1KiB = 1024B,1MiB = 1024KiB,依次类推,这套记法被称为IEC 60027-2单位制,并演变成后来的ISO/IEC IEC 80000-13:2008。

  可以肯定的是,内存厂商尽管一般都用的是SI单位制标识,但其实际容量遵循的是IEC 60027-2单位制,也就是说,神威·太湖之光每个节点的内存容量肯定是32GiB而不是32GB,总容量是1310720GiB = 1280TiB = 1.25PiB。基于保持精确的原因,笔者所有的文章中都会尽量应用二进制的IEC 60027-2单位制。

科技观察:神威·太湖之光超级计算机国家高性能集成电路(上海)设计中心的申威SW26010处理器,一种被称为many-core众核的处理器

  在整套系统当中,处理器占据了重要的一部分内容。提供了申威SW26010处理器的国家高性能集成电路(上海)设计中心在之前也设计过一系列的处理器,它们基于如雷贯耳的DEC Alpha指令集(DEC,Digital Equipment Corporation,后被COMPAQ收购,COMPAQ又被HP收购,HP现在拆分为了HP Company和HP Enterprise,等等),但基于某些不为人知的原因,申威SW26010处理器特别声明其使用的Shenwei-64指令集并非基于DEC Aplha指令集,这种声明很难说具有什么作用,就笔者来看,重复制造轮子并非不可以,但要造出比现有更好的轮子是很难的,并且配套的应用是个大问题,这点在后面还会详谈。

科技观察:神威·太湖之光超级计算机
申威SW26010的Core Group,上图和后面的图略微不太一致

  按照资料,申威SW26010(Shenwei SW26010)是一个异构的处理器,内部包含了4个CG(Core Group,核心组),每个CG分为两个部分:Master Core(主核心)和Slave Cores(从核心),Master Core(主核心)包含一个MPE(Management Processing Element,管理处理单元),内容就是一个CPU核心;Slave Cores(从核心)包含一个CPE Cluster(CPE:文档写的是Computer Processing Element,计算处理单元,但从我的角度看,用“Compute Processing Element”更好,CPE Cluster就是计算处理单元簇,这里Cluster不是宏观意义上的“集群”的意思),这个簇包含了64个CPE核心。

科技观察:神威·太湖之光超级计算机
100核心Tilera Tile-Gx处理器

  在Core Group内部,CPE Cluster由8x8的Mesh网络(也就是二维网格网络)组成,内部采用Mesh架构的处理器典型的例子有Tilera(现已被Mellanox收购)的可以达到100核心的Tile-Gx处理器,以及Intel的可以达到72核心的KNL(Knight Landing)协处理器,这种拓扑结构的优点就是易于扩展,缺点是不同的核心间延迟不太均衡,某些路径会形成热点,并且如果要考虑亲和性的话还需要做额外的工作,总的来说,这是一个考虑扩展性多于效率的架构。

科技观察:神威·太湖之光超级计算机
申威SW26010处理器的外部接口只有两种:4个128bit数据宽度的DDR3内存接口和1个x8规格的PCI Express 3.0

  每一个Core Group内部都由一个总线负责连接Master Core、Slave Cores和MC(Memory Controller,内存控制器),而4个Core Group的连接比较简单,NoC(Network on Chip)只是一种统称,而并不代表具体的架构,按照笔者猜测,应该是一种共享总线,这个总线通过SI(System Interface,系统界面)连接CPU外部,SI应该也是一个统称,它实际上就是一个PCI Express界面,按照文档,规格是PCI Express 3.0 x8,单向速率8GiB/s,双向速率16GiB/s,文档中还提到了其延迟为1us,这点后面会继续讨论。整个申威SW26010具有4个Core Group,每个Core Group具有一个MPE Core和64个CPE Core,因此每个CPU具有260个物理核心,这应该是“SW26010”当中的“260”的由来,后面的“10”应该是代数序号。

  申威SW26010处理器是一个64位、支持SIMD单指令多数据流的乱序架构RISC处理器,64位是Master Core——也就是MPE Core的规格,而Slave Core——CPE Core则是奇葩的62位,如下图所示。由于文档中仅出现了一次“62-bit”,因此这有可能是typo(输入错误)。如果CPE Core真是62位,那么主处理器和从处理器的指令集很可能是不完全一致的,但这并没有太大的必要,因为从另一方面来看,主从处理器都同样提供了264位的“向量指令集”,它们应该是一致的,不然真是雪上又加霜。最新的消息表明,Jack Dongarra的2016-06-20日的《Report on the Sunway TaihuLight System》的62-bit和264-bit都属于拼写错误,现在2016-06-24日(美国时间)的新版本文档已经修正该错误。

 科技观察:神威·太湖之光超级计算机
注意里面出现了64-bit、264-bit和62-bit三个特征字符;文中“Each CPE Cluster is composed of a MPE...”这样的句式是错误的

  如果主处理器和从处理器位宽不同,从而指令集有差异,那么申威SW26010处理器就是一种异构处理器,并且,它还是一种AMP(Asymmetric Multi-Processing,不对称多处理)架构的多核处理器,其中,按照文档,主处理器可以运行用户模式和系统模式(注意这和正规说法的user mode和kernel mode有些差异),从处理器仅能运行用户模式。从逻辑上说,主处理器和从处理器都是完整的处理器,而不是和一些人所想的那样,从处理器仅处理浮点运算。

  主处理器和从处理器的主频都是1.45GHz,按照文档,主处理器核心具有两条流水线,具有32KiB的L1-I Cache和32KiB的L1-D Cache,以及256KiB的L2 Cache,从处理器核心则具有16KiB的L1-I Cache,没有L1-D Cache和L2 Cache,取而代之的是每个核心都配置了64KiB的SRAM(静态内存,使用6到8个晶体管保存一个bit数据的双稳态开关),称为SPM(Scratch Pad Memory,暂存内存),SPM和Cache是两种不同的策略,通常来说,Cache是全自动硬件管理的,而SPM是一种内存,由应用程序进行管理。Cache的全自动硬件管理一般来说具有自动同步的优点,但相应电路会比较复杂,SPM则将复杂性抛给了应用程序,避免了大量核心环境下的同步问题。几乎所有的处理器都基于Cache机制,而SPM一般应用于嵌入式处理器,面向固定的、具有确定性行为的应用程序,进一步地,SPM的大小一般也比较固定的,难以增大或缩小。Intel Knight Landing协处理器采用的是Cache机制,但其架构中包含的MCDRAM有些类似于SPM。

2016-06-25更新:

科技观察:神威·太湖之光超级计算机
最新版本的 《Report on the Sunway TaihuLight System》报告,对比上一个图可以看到264-bit没有了,变成了256-bit,62-bit变成了64-bit

最新的消息表明,Jack Dongarra的2016-06-20日的《Report on the Sunway TaihuLight System》的62-bit和264-bit都属于拼写错误,现在2016-06-24日(美国时间)的新版本文档已经修正该错误。正确的应该是64-bit和256-bit,因此,按照更新的消息,Master Core和Slave Core都是完全一致的指令集:64位通用+256位向量。因而,申威SW26010不是异构处理器,神威·太湖之光也不是异构计算机。

  前面说过,申威SW26010的外部接口只有两个:4个128bit数据宽度的DDR3内存接口和1个x8规格的PCI Express 3.0,其中,CPU内每个Core Group都具有一个独立的128bit内存控制器,它们具有独立的地址空间,因此和我们常用的多通道内存有所不同,如下图所示:

科技观察:神威·太湖之光超级计算机
一块节点主板插卡上具有两个节点,也就是具有两套CPU和内存,它们可以共享供电部分(可能还有水冷散热部分),其它都是各自独立的

  从节点主板上看,每一路内存上都具有9个芯片,因此这是一种ECC配置,话说,没有ECC的大型系统是很难以想象的。内存控制器的规格应该是DDR3-2133,位宽128bit,因此每一路的带宽为33.3GiB/s,每一个CPU,或节点的总带宽为133.2GiB/s(在文档中写为136.51GB/s)。内存芯片是固定在主板上的,每节点总容量为32GiB。从空间上看,要增加容量需要重新设计主板。

科技观察:神威·太湖之光超级计算机
每块插板具有四块插卡,其中插卡朝上,两块插卡朝下,每块插卡两个节点,因此每块插板就是8个节点

  从节点插卡和插板来看,它们没有外部设备,并且也都没有可以扩展CPU、内存的空间,也就是说,神威·太湖之光不仅仅CPU内部是固化的,节点、插板乃至插卡都是固化的,甚至机柜也是:

科技观察:神威·太湖之光超级计算机
Supernode,超级节点,由32块插板组成,一共是256个节点,Supernode具有互联逻辑上的实际含义,后面会提到

科技观察:神威·太湖之光超级计算机
一套机柜可以放置4个机箱——4个Supernode,也就是1024个节点,机柜只是一个安置上的划分,不是互联逻辑上的划分

  机柜也是独立设计的,可以说,这是一套和业界没有太多共性的系统,并且,所有部件都是固化的简化设计,唯一可以扩展的就是节点的数量。

科技观察:神威·太湖之光超级计算机

  层次架构如下:

科技观察:神威·太湖之光超级计算机
这个架构图质量不高,当然,文档也语焉不详

  因为神威·太湖之光的节点是固化不可扩展的,所以,其互联架构大概是最重要的但也是最语焉不详的部分,文档中粗略描述了系统的三个网络层次,但在图上,Storage Network并没有线条指示它们连接到哪里,并且,文档中有两处地方提到了使用的互联技术:一处写用的是PCI Express,一处描述了使用了Mellanox提供的HCA(Host Channel Adapter,主机通道适配器),然而Mellanox并不生产PCI Express交换机,它生产的是InfiniBand互联设备(同时,也能当作Ethernet设备使用)。根据我们最合理的猜测,它们都有用到,也就是,混用了PCI Express Fabric和InfiniBand Fabric

  在每个Supernode超级节点内使用的是PCI Express Fabric,之所以特地提到Fabric,是因为PCI Express传统上只是一种“Connect”(连接能力)而不是“Fabric”(网络架构),因为其缺乏主机外连接能力,以及多主机互联的机制。传统上,超级计算机使用的是InfiniBand,也有少量使用RDMA Ethernet的类型,它们都能提供Fabric的能力。

  PCI Express具有比较有限的多机互联能力,例如存储控制器中通常会用到PCI Express的NTB(Non-Transparent Brdiging,非透明桥)进行Active-Active高可用配置,这时,NTB将桥接两台主机的内存区域,并通过DMA进行数据传输,原则上,它和RDMA(Remote DMA,远程DMA)有些类似,困难来自于大规模的核心交换,原因在于一般的PCI Express DMA使用的是内存地址,导致其交换、路由不如InfiniBand和Ethernet简便。另一个问题在于PCI Express的交换机端口和带宽都受限制,目前,业界最先进的PCI Express交换机芯片具有96个可用PCIe Lanes,可以配置为最多48个端口,但此时每个端口仅为PCI Express 3.0 x2,也就是单向2GiB/s。显然,对于超级计算机来说,使用x8甚至x16的PCI Express端口是必须的,此时单个PCI Express交换芯片提供的交换端口仅为6到12,远小于InfiniBand和Ethernet。对于神威·太湖之光而言,由于CPU仅提供PCI Express 3.0 x8,因此对应每个PCI Express交换机芯片端口数量大概应该是12,因此,对应的一个比较合理的猜测是每一块具有8个节点的节点插板上部署一个PCI Express交换机芯片,然后在每一个机柜上进行类似ToR(Top of Rack,机架顶)的进一步级联

科技观察:神威·太湖之光超级计算机
PCI Express Fabric需要使用大量的设备,文档中提及太湖之光的“network diameter”是7,也就是至少也是8层设备级联,PCI Express Fabric应该部署在靠近计算节点的位置

  总体而言,要想使用PCI Express建立大规模的Fabric是可能的,PCI Express使用内存地址进行数据交换可以通过一些交换机具有的ID Routing特性来解决,而端口数量则只能靠使用大量的设备级联。某种意义上,市场上确实有可用的PCI Express Fabric方案,但会需要使用到大量的PCI Express交换机,相对这些困难而言,通过使用光纤或者主动铜缆解决PCI Express信号距离的问题完全不值一提。

科技观察:神威·太湖之光超级计算机
唯一确定提到PCI Express互联的地方,后面提及的Sunway Network增加了这个说法的可信度,因为如果没有用PCI Express Fabric而全部使用InfiniBand的话,就没必要起个新名字,至少原则上如此

  难度在于文档中几乎完全没有提及PCI Express Fabric的信息,包括厂商、规格、数量,等等等等。除此之外,由于Mellanox并没有PCI Express Fabric相关设备,因此,很可能在Storage Network上使用了Mellanox的InfiniBand方案,Mellanox的HCA卡也提供了Ethernet模式操作(以及听起来很怪但实际使用也不少的IPoIB——IP over InfiniBand模式)的能力,但我们认为,如果采用的话,应该就是InfiniBand模式。至于Central Switch Network,可能是PCI Express,也可能是InfiniBand,但在后面我们可以看到,它应该是InfiniBand。

  Central Switch Network接口速率上,从上图最后一句来看,有些像是最新的100Gb/s规格,但100Gb/s并不等于12GB/s,而且12GB/s本身也不清楚是单向还是双向带宽,再而且,前面说过,每一个申威SW26010对外仅为一个PCI Express 3.0 x8,也就是单向8GiB/s,双向16GiB/s,因此“Communication between nodes via MPI is at 12 GB/second...”要不是100Gb/s理论带宽的误读,要不就是PCI Express 3.0 x8的实测双向带宽,如此数值才能有比较合理的解释,而从1us的延迟来看,包含PCI Express Fabric在内的网络半径确实应该在7左右。

  在确定了每个节点的对外互联带宽为PCI Express 3.0 x8理论上的双向16GiB/s最后,我们可以算出神威·太湖之光的40,960个节点的总带宽应该是480TiB/s,与文档中的“70TB/s”带宽相差较远,因此这个带宽指的应该不是PCI Express Fabric,而应该是采用了InfiniBand的Central Switch Network,但此时并不清楚“70TB/s”的数字中是否包括了存储网络。70TB/s = 560Tb/s = 560,000Gb/s,假如对应160个Supermode,每个则是3500Gb/s,也就是说,每个Supernode的实际InfiniBand双向带宽是不高于3500Gb/s,单向带宽不高于1750Gb/s,按照笔者的猜测,有可能是采用了10块双端口100Gb/s的Mellanox ConnectX-4 InfiniBand HCA,分散连接于每个Supernode的多个PCI Express交换机芯片上。

科技观察:神威·太湖之光超级计算机
图中提到了太湖之光在Supernodes之间使用了InfiniBand做Interconnect,这应该是肯定了我们的猜想

  综上所述,神威·太湖之光的网络架构为PCI Express与InfiniBand混合:在256个节点组成的Supernode内部使用的是PCI Express Fabric,规格应该是PCI Express 3.0 x8,理论单向带宽8GiB/s,理论双向带宽16GiB/s;而在160个Supernode之间,使用的则是InfiniBand,速率规格应该是100Gb/s。外部存储网络也通过InfiniBand与中央网络连接。从搭配了Linux操作系统来看,它仍然属于多计算机组合而成的计算机集群系统,在每个节点上都需要运行一个OS,不同的节点OS之间通过MPI(MPI是一种并行计算中常用的消息通信API/机制)进行通信。

  我们在前面提到过,申威SW26010处理器是一个64位的乱序架构、支持SIMD单指令多数据流的RISC处理器,其中,64位是Master Core——也就是MPE Core的规格,而Slave Core——CPE Core则是奇葩的62位,它们都同样提供了264位的“向量指令集”,根据文档,CPE Core只具有一个浮点运算流水线,它每时钟周期可以做8个64位的双精度浮点运算,8个64位其实是512位,超过了向量指令集的264位宽度,因此这个性能是通过类FMA(Fused Multiply-Add,融合乘加)运算来达到,FMA指令可以同时对三个操作数进行乘和加的运算,因此被视为同时进行了两个浮点运算。这个技术在下表的Intel KNC(Knight Corner)和KNL(Knight Landing)中都有用到,但Intel Ivy Bridge-EP当中没有。Intel从Haswell开始也搭载了FMA指令。顺便提一下,Intel的KNC和KNL搭载了同样的512位宽度的向量指令集——可以同时容纳8个64位的双精度浮点数——但它们并不兼容,后者搭载的AVX512指令集在未来的Intel x86-64处理器当中也会搭载,目前包括Broadwell、Sky Lake在内的Intel x86-64处理器仅支持AVX256。

2016-06-25更新:

最新的消息表明,Jack Dongarra的2016-06-20日的《Report on the Sunway TaihuLight System》的62-bit和264-bit都属于拼写错误,现在2016-06-24日(美国时间)的新版本文档已经修正该错误。正确的应该是64-bit和256-bit,因此,按照更新的消息,Master Core和Slave Core都是完全一致的指令集:64位通用+256位向量。因而,申威SW26010不是异构处理器,神威·太湖之光也不是异构计算机。

Intel Haswell-EP处理器评测
Intel从Haswell开始搭载的FMA,融乘加,作为让运算性能翻倍的特性,已经得到了广泛的部署,我们相信申威SW26010也具有这一特性

  申威SW26010处理器的MPE Core具有两条浮点运算流水线,浮点能力就是CPE Core的两倍,不过,在整个处理器中,MPE Core还要负责运行操作系统——一个称为RaiseOS的Linux——并同时负责与外界的各种通信事务。在历史上,一开始的多处理器计算就是AMP不对称多处理,其中OS运行在一个独占的处理器上,后来发现运行OS的这个处理器经常成为系统瓶颈……随后就出现了SMP(Symmetric Multi-Processing,对称多处理),通常来说,SMP机器上,OS和应用可以自由运行于所有的CPU/Core上。

  在算上CPU的主频后,我们最后得到申威SW26010处理器的理论双精度浮点运算能力为3.0624TFLOPS。在这里,1TFLOPS = 1000GFLOPS。整个系统提供了125.4PFLOPS,1PFLOPS = 1000TFLOPS。

科技观察:神威·太湖之光超级计算机
从左到右:ORNL Titan、NUDT Tianhe-2(天河二号)、Sunway TaihuLight(神威·太湖之光)

  但有时候,理论只是理论,在这里我得说申威SW26010偏离的太多。同样采用了Mesh架构,Intel KNL在达到3.456TFLOPS——比申威SW26010处理器要高12.9%,但这不是重点——的双精度浮点性能情况下,提供了8个128位的MCDRAM通道(容量可达16GiB),并具有6个DDR4-2400外部内存(容量可达384GiB),无论带宽还是容量都要高得多。额外地,KNL每个核心具有4个硬件同步多线程,用来隐藏内存访问延迟,作为对比,每个申威SW26010提供4个128位DDR3-2133内存控制器,不支持硬件多线程。总的来说,申威SW26010处理器在持续数据供给方面比较很欠缺,同时ILP(Instruction Level Parallelism,指令集并行)上也仅仅具有OoOE(Out-of-Order Execution,乱序执行)一个特性。另一方面,申威SW26010对外仅具备一个PCI Express 3.0 x8也是一个问题,相对来说,互联架构上的PCI Express Fabric不算瓶颈。具体如下图所示:

科技观察:神威·太湖之光超级计算机
Intel KNC、Intel KNL、SW26010,希望未来能有机会观察下Intel KNL

  理论性能峰值基本没有可能达到,在数据供给完全不成问题,并且程序完全能达到单流水线完美执行、核心之间通信没有或很少的时候可以接近。目前TOP500使用的一个评估指标是HPL(High Performance LINPACK,LINPACK本身是LINear system PACKage的缩写,这是一种使用高斯消元法求解N元一次稠密线性方程组的测试)测试,这种测试比较简单,并可以配置一些参数用来配合机器以掩盖数据访问的延迟。例如,神威·太湖之光测试中使用了163,840个MPI进程,每个进程具备64个线程,也就是说,申威SW26010处理器的每一个Core Group上运行了一个MPI通信节点进程,然后在每一个CPE Core上运行一个MPI线程,这种方式下取得了74.15%的HPL效率(也因为这个配置在测试中没有用到MPE Core的浮点运算能力,所以结果的74.15%效率是以所有CPE Core提供的总能力125PFLOPS为准)。

科技观察:神威·太湖之光超级计算机
HPL测试:太湖之光:93PFLOPS,效率74%,可以看到天河2号的62%有点低(这应该是由于Intel KNC的原因),而后面的K Computer(93%)和BlueGene/Q(85%)的效率却是惊人,其中,K Computer使用的是Tofu互联,BlueGene/Q是定制互联

  显然,实际的应用程序不可能只是求解N元一次稠密线性代数方程组,目前,一个新兴的测试标准是HPCG(High Performance Conjugate Gradient,高性能共轭梯度),共轭梯度算法是一个用于求解线性方程组的迭代算法,HPCG测试使用到了目前高性能计算中常见的计算和通信模式,目测可以更好地表达高性能计算机系统的性能。推动HPCG测试的Jack Dongarra既是LINPACK标准的创始人,又是HPCG标准的创始人之一,他在负责全球超级计算机TOP500排名工作的同时也撰写了《Report on the Sunway TaihuLight System》(也就是本文的资料来源之一)。

科技观察:神威·太湖之光超级计算机
HPCG性能TOP10

  可以看出,HPCG TOP10按顺序分别是天河2号(0.580 HPCG PFLOPS,1.1% Peak)、K Computer(0.550 HPCG PFLOPS,4.9% Peak),然后是太湖之光(0.371 HPCG PFLOPS,0.3% Peak),0.3%的峰值理论性能效率与其他系统具有明显的差距。至于差距的来源很清楚,按照前面的分析,太湖之光/申威SW26010的处理器微架构到架构都过于简化,CPE核心是单线程单流水线(MPE核心是单线程双流水线),没有超标量,也就是分别对应单发射和双发射,指令吞吐量会有些问题,SPM暂存内存是个亮点,但实际上是将运行复杂度抛给了应用软件。

  另外,随着处理器独有指令集而来的一个大问题就是,所有的软件组件都需要为独有的指令集重新编译,并为Mesh架构和SPM架构进行优化,此外,太湖之光的PCI Express Fabric当前问题不大,但如果要继续扩大规模,申威SW26010仅具备的PCI Express 3.0 x8接口可能会成为一个问题。另外显而易见的是,高频率、高带宽的内存控制器和PCI Express控制器都不好做,具有这些特征的处理器的功耗都不算低。总之,就我们来看,神威·太湖之光现在的设计思想仍然是先驱者性质,要在实际应用中取得好表现是极具挑战的。

科技观察:神威·太湖之光超级计算机
一个大问题在于,一切的软件都要为独有指令集环境进行重新开发、编译、调试,乃至——优化

  最后的最后还有几个有趣的数字,这里一并给出:神威·太湖之光(Sunway TaihuLight)的造价大概是18亿人民币,约合2.7亿美元,并由中央、江苏省、无锡市分摊,造价包括了硬件、搭建、研发以及软件。运维成本没有包括在内。

参考文献:

Jack Dongarra,《Report on the Sunway TaihuLight System》
Jack Dongarra,《Toward a New Metric for Ranking High Performance Computing System》
Jason Sewall,《Preparing for a smooth landing: Intel's Knights Landing and Modern Applications》
Ravi Budruk,Don Anderson,Tom Shanley,《PCI Express System Architecture》
Akber Kazmi,《PCI Express Basics & Applications in Communication Systems》
盘骏/Lucifer ,《Intel Ivy Bridge-EP处理器评测》,http://solution.zdnet.com.cn/2013/1125/2996552.shtml
盘骏/Lucifer ,《Intel Haswell-EP处理器评测》,http://solution.zdnet.com.cn/2014/0909/3032770.shtml

推广二维码
邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题