看完Core核内的改进之后,我们再来看看Uncore核外的改动,首先是核心互联架构的改进,大致上,下面这张图表格里面的内容都属于Uncore领域:
基于最新的14nm制程,Broadwell-EP现在具有22个核心,数量上,比上一代Haswell的18个核心增加并不是太多,实际上,同期推出的Broadwell-EX最多有24个核心。我们咨询了Intel,回答是:“我们认为22个核心数量对用户是最合适的”,听起来非常官方。当然,缘由我们也可以理解,那就是:功耗,Broadwell-EX的TDP要高那么一些,而其降低的频率被附加的额外线路(用于更多路CPU系统)抵消,因此,Broadwell-EP的核心数量要少那么两个。这可以理解。
Intel Xeon E5-2600 v4 HCC,High Core Count,高核心数量
Intel Xeon E5-2600 v4 MCC/LCC,Medium/Low Core Count,中/低核心数量
可见,与上一代Haswell-EP其实非常相像:
Haswell-EP核心内部互联,这个进化只有十核心及以上核心数量的型号(HCC)才具有
Broadwell-EP和Haswell-EP一样,只有在HCC和MCC上才有四环形总线设计,LCC只有两条环形总线。HCC/MCC中,CPU核心被分为了两组,每组通过一对环形总线连接,然后在两组核心之间通过Buffered Switch(缓冲交换机)互联,Buffered Switch会引入延迟,根据Haswell-EP Workshop上笔者的问询,Intel方回答是,Buffered是FIFO的设计,并具有4~5个时钟周期的延迟。在这次笔者重新确认了一下,Intel的回答改为了3~4个时钟周期,并再次重复了这个确认。这种延迟天生将CPU分为了两个略有距离的两个部分,一般情况下用户可以忽略这个不同,但对于延迟极为敏感的应用,Intel从Haswell-EP开始还准备了一个新的Cluster-on-Die的工作方式:
在具有2个Home Agent的SKU(HCC与MCC)才具有Cluster-on-Die特性
Buffered Switch的存在让两个不同的CPU组/分区对其它不同的部件有着不同的延迟,这实际上就和NUMA架构一样,因此Cluster-on-Die显的做法就是在CPU里面实现NUMA——每个CPU组各自拥有各自的内存控制器、Home Agent等,L3 Cache也同时进行分割,整体来说,Cluster-on-Die模式用于降低两个CPU分区之间的通信,从而提升性能,因此,Cluster-on-Die也是一种Snoop模式:
Cluster-on-Die也是一种Snoop模式,因为它影响到了L3 Cache的工作方式
Broadwell-EP Workshop上再次重申了各种Snoop方式的不同
对于系统来说,打开Cluster-on-Die模式实际上就是让一个处理器被认为了两个处理器,如此,支持的OS/VMM就可以对应用进行本地调度,尽量降低CPU分区之间的通信。根据上图,COD模式可以提供最低的LLC和本地内存延迟以及最高的本地内存带宽,但远程内存延迟不太稳定,而内存带宽这比较适中,因此,这是一个需要操作系统和应用优化支持的特性。
接下来就是晶圆图片,以下图片经过了Intel的审核:
Intel官方“模特”手持Intel Xeon E5 v4晶圆
Intel Broadwell-EP处理器评测 by ZD Research 盘骏/Lucifer
本文头条图用的就是Broadwell晶圆图片,可以对比Haswell-EP晶圆:
最后我们来看看当前Broadwell-EP具有的型号:
Broadwell-EP型号一览,具有很多的型号和很多的划分,分成了很多个分段
接下来我们将介绍Broadwell-EP上最激动人心的新特性集合:Intel RDT(Resource Director Technology,资源管理技术)。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。