AVX-512指令集最早出现于Intel一种被称为Many-Core众核的处理器产品中,这个产品线最早并不能当作独立的处理器,而是被称为Coprocessor协处理器,这个产品线就是Xeon Phi,这个产品线的始祖大概可以追溯到Penryn年代(没错,我写过Penryn Core i7和Xeon的评测),彼时(2008年)其代号为Larrabee:
Larrabee计划开始于2006年,在2007年之前没有特地说明用的是IA core
Intel Larrabee最早在2008年的SIGGRAPH上公布,此时已经确定使用的是IA Core——Larrabee意图使用x86指令集构建一个独立使用的GPU和GPGPU。在那个时候,NVIDIA的CUDA才提出了一年。
很快,2009年,Intel放弃了将Larrabee用作消费级GPU的企图,其定位变为图形开发平台以及高性能计算,紧接着,2010年,Intel彻底取消了Larrabee。
不过,2010年Intel提出的MIC(Many Integrated Core,集成众核)架构又继承了Larrabee的思想、特性和技术,早期的原型卡被称为Knights Ferry(缩写KNF),Intel期望在2012年推出代号Knights Corner(缩写KNC)的商用产品,但直到2013年才出现,Knights Corner被称为第一代Intel MIC产品,同时有了一个正式的名称:Xeon Phi,它基于22nm工艺,具有最多61个x86核心,支持最多16GiB内存,提供峰值1TFLOPS的双精度浮点性能:
Knights,骑士系列,大部分情况下称为协处理器,主要以插卡的形式配合X86处理器提供附加浮点运算能力,因此,它的设计就是向量化,KNC就已经可以处理512位的数据宽度。但它并没有搭配AVX-512指令集。
Intel Knights Landing: Significant improvement in scalar and vector performance,主要就是因为AVX-512指令集出现了
AVX-512指令集在2015年的Knights Landing(缩写KNL)上出现(正式发布是2016年),极大地增强了KNL的浮点运算性能,KNL号称提供超过3TFLOPS双精度浮点性能,是KNC的三倍。不过,AVX-512指令集还得下页讨论,因为Knights Landing还有玄机:
Intel Knights Landing,有没有感觉封装像是一个CPU?
KNL w/OPA,OPA实际上就是100Gb/s改良版InfiniBand
看看右下角的KNL w/OPA,再看看下图:
左:Intel Skylake-SP w/OPA,右:标准Intel Skylake-SP,来源:盘骏/Lucifer
很相似有没有?实际上,它们就是使用同样的插槽:Socket LGA3647!
Intel KNL:6个DDR4-2400内存通道,36个PCIe 3.0信道,还有x4 DMI 3.0用来接PCH
Intel Skylake-SP:6个DDR4通道(最高2666),最多48个PCIe 3.0信道,x4 DMI 3.0用来接PCH
没错,Intel KNL和Intel Skylake-SP某种程度上可以共用平台,它们插槽相同,配置相近,迟出现两年的Skylake-SP实际上学习了很多KNL的特性,这通往了一个事实:Xeon Scalable Processor(以下缩写为Xeon SP)其实会融合Xeon Phi产品线。这并不出奇,如前面提到过的,Xeon SP已经融合了FPGA(P后缀)。
图上没有给出P后缀型号,以及存在一处缺少71xx系列处理器造成的断层
Skylake-SP目前已知的附加后缀有4个,F代表Fabric,也就是附带OPA接口的型号,T是High Tcase/Extended Reliability(高耐温、强化可靠性),未公布的P则是包含FPGA功能的信号(来自Intel收购的Altera)。最后的M是与无后缀相对应的,带M型号的内存支持容量是不带M的两倍,达1.5TiB每插槽。
其实到了2013年的KNC,Larrabee的梦想已经得到了实现,而2018年的KNH将会具有令人瞩目的表现
在这里,笔者可以告诉大家,Xeon Platinum 71xx应该将会是原有的Xeon Phi产品线内容,此前的KNL很可能不会做出改变,但下一代Knights Hill(缩写KNH)应该就会并入。如同上一篇文章所说的那样,Xeon Scalable Proccesor处理器家族的“Scalable”体现它可以适应更广阔的应用,覆盖前所未有的范围。
接下来我们可以谈谈Skylake-SP吸收自KNL的AVX-512指令集了。
好文章,需要你的鼓励
三星与AI搜索引擎Perplexity合作,将其应用引入智能电视。2025年三星电视用户可立即使用,2024和2023年款设备将通过系统更新获得支持。用户可通过打字或语音提问,Perplexity还为用户提供12个月免费Pro订阅。尽管面临版权争议,这一合作仍引发关注。
浙江大学团队提出动态专家搜索方法,让AI能根据不同问题灵活调整内部专家配置。该方法在数学、编程等任务上显著提升推理准确率,且不增加计算成本。研究发现不同类型问题偏爱不同专家配置,为AI推理优化开辟新路径。
苹果M5 MacBook Pro评测显示这是一次相对较小的升级。最大变化是M5芯片,CPU性能比M4提升约9%,多核性能比M4 MacBook Air快19%,GPU性能提升37%。功耗可能有所增加但电池续航保持24小时。评测者认为该产品不适合M4用户升级,但对使用older型号用户仍是强有力选择。
清华大学研究团队提出SIRI方法,通过"压缩-扩张"交替训练策略,成功解决了大型推理模型"话多且准确率低"的问题。实验显示,该方法在数学竞赛题上将模型准确率提升43.2%的同时,输出长度减少46.9%,真正实现了效率与性能的双重优化,为AI模型训练提供了新思路。