看完Core核内的改进之后,我们再来看看Uncore核外的改动,首先是核心互联架构的改进,大致上,下面这张图表格里面的内容都属于Uncore领域:
基于最新的14nm制程,Broadwell-EP现在具有22个核心,数量上,比上一代Haswell的18个核心增加并不是太多,实际上,同期推出的Broadwell-EX最多有24个核心。我们咨询了Intel,回答是:“我们认为22个核心数量对用户是最合适的”,听起来非常官方。当然,缘由我们也可以理解,那就是:功耗,Broadwell-EX的TDP要高那么一些,而其降低的频率被附加的额外线路(用于更多路CPU系统)抵消,因此,Broadwell-EP的核心数量要少那么两个。这可以理解。
Intel Xeon E5-2600 v4 HCC,High Core Count,高核心数量
Intel Xeon E5-2600 v4 MCC/LCC,Medium/Low Core Count,中/低核心数量
可见,与上一代Haswell-EP其实非常相像:
Haswell-EP核心内部互联,这个进化只有十核心及以上核心数量的型号(HCC)才具有
Broadwell-EP和Haswell-EP一样,只有在HCC和MCC上才有四环形总线设计,LCC只有两条环形总线。HCC/MCC中,CPU核心被分为了两组,每组通过一对环形总线连接,然后在两组核心之间通过Buffered Switch(缓冲交换机)互联,Buffered Switch会引入延迟,根据Haswell-EP Workshop上笔者的问询,Intel方回答是,Buffered是FIFO的设计,并具有4~5个时钟周期的延迟。在这次笔者重新确认了一下,Intel的回答改为了3~4个时钟周期,并再次重复了这个确认。这种延迟天生将CPU分为了两个略有距离的两个部分,一般情况下用户可以忽略这个不同,但对于延迟极为敏感的应用,Intel从Haswell-EP开始还准备了一个新的Cluster-on-Die的工作方式:
在具有2个Home Agent的SKU(HCC与MCC)才具有Cluster-on-Die特性
Buffered Switch的存在让两个不同的CPU组/分区对其它不同的部件有着不同的延迟,这实际上就和NUMA架构一样,因此Cluster-on-Die显的做法就是在CPU里面实现NUMA——每个CPU组各自拥有各自的内存控制器、Home Agent等,L3 Cache也同时进行分割,整体来说,Cluster-on-Die模式用于降低两个CPU分区之间的通信,从而提升性能,因此,Cluster-on-Die也是一种Snoop模式:
Cluster-on-Die也是一种Snoop模式,因为它影响到了L3 Cache的工作方式
Broadwell-EP Workshop上再次重申了各种Snoop方式的不同
对于系统来说,打开Cluster-on-Die模式实际上就是让一个处理器被认为了两个处理器,如此,支持的OS/VMM就可以对应用进行本地调度,尽量降低CPU分区之间的通信。根据上图,COD模式可以提供最低的LLC和本地内存延迟以及最高的本地内存带宽,但远程内存延迟不太稳定,而内存带宽这比较适中,因此,这是一个需要操作系统和应用优化支持的特性。
接下来就是晶圆图片,以下图片经过了Intel的审核:
Intel官方“模特”手持Intel Xeon E5 v4晶圆
Intel Broadwell-EP处理器评测 by ZD Research 盘骏/Lucifer
本文头条图用的就是Broadwell晶圆图片,可以对比Haswell-EP晶圆:
最后我们来看看当前Broadwell-EP具有的型号:
Broadwell-EP型号一览,具有很多的型号和很多的划分,分成了很多个分段
接下来我们将介绍Broadwell-EP上最激动人心的新特性集合:Intel RDT(Resource Director Technology,资源管理技术)。
好文章,需要你的鼓励
工业升级的关键,或许在于智能本身。“工业+机器人”将成为通向下一阶段工业体系的核心抓手。——黄仁勋。
浙江大学等联合研究发现,AI强化学习效果取决于"模型-任务对齐"程度。当AI擅长某任务时,单样本训练、错误奖励等非常规方法也有效;但面对陌生任务时,这些方法失效,只有标准训练有用。研究团队通过大量实验证实,这种"舒适圈"现象比数据污染更能解释训练差异,为AI训练策略优化提供了新思路。
瑞士政府正式发布了自主研发的人工智能模型,该模型完全基于公共数据进行训练。这一举措标志着瑞士在AI技术自主化方面迈出重要一步,旨在减少对外国AI技术的依赖,同时确保数据安全和隐私保护。该模型的推出体现了瑞士对发展本土AI能力的战略重视。
巴赫切希尔大学研究团队通过对五种不同规模YOLO模型的量化鲁棒性测试发现,静态INT8量化虽能带来1.5-3.3倍速度提升,但会显著降低模型对噪音等图像损伤的抵抗能力。他们提出的混合校准策略仅在大型模型处理噪音时有限改善,揭示了效率与鲁棒性平衡的复杂挑战。