Intel Broadwell-EP处理器评测

作者：盘骏/Lucifer

基于最新的14nm制程，Broadwell-EP现在具有22个核心。

　　看完Core核内的改进之后，我们再来看看Uncore核外的改动，首先是核心互联架构的改进，大致上，下面这张图表格里面的内容都属于Uncore领域：

Broadwell-EP产品概览

　　基于最新的14nm制程，Broadwell-EP现在具有22个核心，数量上，比上一代Haswell的18个核心增加并不是太多，实际上，同期推出的Broadwell-EX最多有24个核心。我们咨询了Intel，回答是：“我们认为22个核心数量对用户是最合适的”，听起来非常官方。当然，缘由我们也可以理解，那就是：功耗，Broadwell-EX的TDP要高那么一些，而其降低的频率被附加的额外线路（用于更多路CPU系统）抵消，因此，Broadwell-EP的核心数量要少那么两个。这可以理解。

Intel Xeon E5-2600 v4 HCC，High Core Count，高核心数量

Intel Xeon E5-2600 v4 MCC/LCC，Medium/Low Core Count，中/低核心数量

　　可见，与上一代Haswell-EP其实非常相像：

Haswell-EP核心内部互联，这个进化只有十核心及以上核心数量的型号（HCC）才具有

Haswell-EP的HCC/MCC/LCC三晶圆设计

　　Broadwell-EP和Haswell-EP一样，只有在HCC和MCC上才有四环形总线设计，LCC只有两条环形总线。HCC/MCC中，CPU核心被分为了两组，每组通过一对环形总线连接，然后在两组核心之间通过Buffered Switch（缓冲交换机）互联，Buffered Switch会引入延迟，根据Haswell-EP Workshop上笔者的问询，Intel方回答是，Buffered是FIFO的设计，并具有4~5个时钟周期的延迟。在这次笔者重新确认了一下，Intel的回答改为了3～4个时钟周期，并再次重复了这个确认。这种延迟天生将CPU分为了两个略有距离的两个部分，一般情况下用户可以忽略这个不同，但对于延迟极为敏感的应用，Intel从Haswell-EP开始还准备了一个新的Cluster-on-Die的工作方式：

在具有2个Home Agent的SKU（HCC与MCC）才具有Cluster-on-Die特性

　　Buffered Switch的存在让两个不同的CPU组/分区对其它不同的部件有着不同的延迟，这实际上就和NUMA架构一样，因此Cluster-on-Die显的做法就是在CPU里面实现NUMA——每个CPU组各自拥有各自的内存控制器、Home Agent等，L3 Cache也同时进行分割，整体来说，Cluster-on-Die模式用于降低两个CPU分区之间的通信，从而提升性能，因此，Cluster-on-Die也是一种Snoop模式：

Cluster-on-Die也是一种Snoop模式，因为它影响到了L3 Cache的工作方式

Broadwell-EP Workshop上再次重申了各种Snoop方式的不同

　　对于系统来说，打开Cluster-on-Die模式实际上就是让一个处理器被认为了两个处理器，如此，支持的OS/VMM就可以对应用进行本地调度，尽量降低CPU分区之间的通信。根据上图，COD模式可以提供最低的LLC和本地内存延迟以及最高的本地内存带宽，但远程内存延迟不太稳定，而内存带宽这比较适中，因此，这是一个需要操作系统和应用优化支持的特性。

　　接下来就是晶圆图片，以下图片经过了Intel的审核：

Intel官方“模特”手持Intel Xeon E5 v4晶圆