AVX-512指令集最早出现于Intel一种被称为Many-Core众核的处理器产品中,这个产品线最早并不能当作独立的处理器,而是被称为Coprocessor协处理器,这个产品线就是Xeon Phi,这个产品线的始祖大概可以追溯到Penryn年代(没错,我写过Penryn Core i7和Xeon的评测),彼时(2008年)其代号为Larrabee:
Larrabee计划开始于2006年,在2007年之前没有特地说明用的是IA core
Intel Larrabee最早在2008年的SIGGRAPH上公布,此时已经确定使用的是IA Core——Larrabee意图使用x86指令集构建一个独立使用的GPU和GPGPU。在那个时候,NVIDIA的CUDA才提出了一年。
很快,2009年,Intel放弃了将Larrabee用作消费级GPU的企图,其定位变为图形开发平台以及高性能计算,紧接着,2010年,Intel彻底取消了Larrabee。
不过,2010年Intel提出的MIC(Many Integrated Core,集成众核)架构又继承了Larrabee的思想、特性和技术,早期的原型卡被称为Knights Ferry(缩写KNF),Intel期望在2012年推出代号Knights Corner(缩写KNC)的商用产品,但直到2013年才出现,Knights Corner被称为第一代Intel MIC产品,同时有了一个正式的名称:Xeon Phi,它基于22nm工艺,具有最多61个x86核心,支持最多16GiB内存,提供峰值1TFLOPS的双精度浮点性能:
Knights,骑士系列,大部分情况下称为协处理器,主要以插卡的形式配合X86处理器提供附加浮点运算能力,因此,它的设计就是向量化,KNC就已经可以处理512位的数据宽度。但它并没有搭配AVX-512指令集。
Intel Knights Landing: Significant improvement in scalar and vector performance,主要就是因为AVX-512指令集出现了
AVX-512指令集在2015年的Knights Landing(缩写KNL)上出现(正式发布是2016年),极大地增强了KNL的浮点运算性能,KNL号称提供超过3TFLOPS双精度浮点性能,是KNC的三倍。不过,AVX-512指令集还得下页讨论,因为Knights Landing还有玄机:
Intel Knights Landing,有没有感觉封装像是一个CPU?
KNL w/OPA,OPA实际上就是100Gb/s改良版InfiniBand
看看右下角的KNL w/OPA,再看看下图:
左:Intel Skylake-SP w/OPA,右:标准Intel Skylake-SP,来源:盘骏/Lucifer
很相似有没有?实际上,它们就是使用同样的插槽:Socket LGA3647!
Intel KNL:6个DDR4-2400内存通道,36个PCIe 3.0信道,还有x4 DMI 3.0用来接PCH
Intel Skylake-SP:6个DDR4通道(最高2666),最多48个PCIe 3.0信道,x4 DMI 3.0用来接PCH
没错,Intel KNL和Intel Skylake-SP某种程度上可以共用平台,它们插槽相同,配置相近,迟出现两年的Skylake-SP实际上学习了很多KNL的特性,这通往了一个事实:Xeon Scalable Processor(以下缩写为Xeon SP)其实会融合Xeon Phi产品线。这并不出奇,如前面提到过的,Xeon SP已经融合了FPGA(P后缀)。
图上没有给出P后缀型号,以及存在一处缺少71xx系列处理器造成的断层
Skylake-SP目前已知的附加后缀有4个,F代表Fabric,也就是附带OPA接口的型号,T是High Tcase/Extended Reliability(高耐温、强化可靠性),未公布的P则是包含FPGA功能的信号(来自Intel收购的Altera)。最后的M是与无后缀相对应的,带M型号的内存支持容量是不带M的两倍,达1.5TiB每插槽。
其实到了2013年的KNC,Larrabee的梦想已经得到了实现,而2018年的KNH将会具有令人瞩目的表现
在这里,笔者可以告诉大家,Xeon Platinum 71xx应该将会是原有的Xeon Phi产品线内容,此前的KNL很可能不会做出改变,但下一代Knights Hill(缩写KNH)应该就会并入。如同上一篇文章所说的那样,Xeon Scalable Proccesor处理器家族的“Scalable”体现它可以适应更广阔的应用,覆盖前所未有的范围。
接下来我们可以谈谈Skylake-SP吸收自KNL的AVX-512指令集了。
好文章,需要你的鼓励
月之暗面Kimi K2技术报告:解读万亿参数的智能体模型(含K2与DeepSeek R1对比)
约翰霍普金斯大学研究团队开发了ETTIN模型套件,首次实现了编码器和解码器模型的公平比较。研究发现编码器擅长理解任务,解码器擅长生成任务,跨界训练效果有限。该研究为AI模型选择提供了科学依据,所有资料已开源供学术界使用。
Colt科技服务公司推出超低延迟云连接服务Colt ULL DCA,专门面向加密货币交易商和AI应用开发企业的高速需求。该服务结合超低延迟网络和专用云接入平台,绕过公共互联网提供专用高速路径。在AWS亚洲区域测试中,平均延迟比原生路由降低15%。随着亚太地区数字资产交易成熟和AI需求爆发,企业对安全高性能连接需求激增,Colt正加速在东南亚扩张布局。
博洛尼亚大学团队开发出情感增强的AI系统,通过结合情感分析和文本分类技术,显著提升了新闻文章中主观性表达的识别准确率。该研究覆盖五种语言,在多项国际评测中取得优异成绩,为打击虚假信息和提升媒体素养提供了新工具。