任何产品线都需要一个旗舰,对于Xeon Scalable处理器而言,Platinum就是(以下元素资料均整理自维基百科):
这个Xeon Platinum inside Logo是在Xeon Scalable Processor改名会议上发布的
Platinum,铂,白金,化学符号Pt,原子序数78,贵金属、重金属、非常不活泼金属和抗腐蚀金属。纯铂带光泽、有延展性、银白色,其可延展性在所有纯金属中最高,胜过金、银和铜。铂金属的抗腐蚀性极强,高温下非常稳定,电性能也很稳定。铂在任何温度下都不会氧化,但可被各种卤素、氰化物、硫和苛性碱侵蚀。铂不溶于氢氯酸和硝酸,但会在热王水中溶解,形成氯铂酸(H2PtCl6)。铂非常罕见,地壳中的浓度只有百万分之0.005,丰度排在第71名,平均丰度大约为5μg/kg,因为稀有,铂常被认为是尊贵的象征。
作为Skylake-SP当中的旗舰,Xeon Platinum 81xx具备了最多的处理器核心:28核心,56线程;它也包含了最高的频率:3.6GHz(4核心版本),并支持最大化的扩展能力:2路/4路/8路/更多路;Xeon Platinum 81xx提供48个PCIe 3.0信道和6个内存通道、最多最快的处理器互联接口:3个10.4GT/s的UPI(Ultra Path Interconnects,极速路径互联);最快的内存:DDR4-2666以及最高档次的AVX-512(每个核心具有两个FMA融乘加引擎);还有最高级的RAS(Reliability,Availability,Serviceability;可靠性、可用性、可服务性)以及支持Node Controller(以支持超过8路处理器的系统),另外,Turbo Boost睿频技术和Hyper-Threading超线程技术也是标配。Xeon Platinum 81xx提供了最强大的性能、扩展性、可用性,可以用来承担Mission-Critical关键任务应用。
接下来是Gold:
Gold,金,黄金,化学符号Au,原子序数79,贵金属、重金属、非常不活泼金属和抗腐蚀金属。纯金有明亮光泽、黄中带红、柔软、密度高、延展性极强。金较稳定,通常以游离单质形式存在,能和银形成固溶体琥珀金,能溶于水银形成汞齐,也能和铜、钯形成合金。矿物中金化合物较不常见,主要为碲化金。金不溶于硝酸,但会被王水溶解形成H2AuCl4。此外,金也能溶于碱性氰化物溶液。维基百科提到哈佛大学的研究认为宇宙中的金主要来自于中子星的碰撞,但笔者认为,地球——太阳系内的重元素主要来自于前代太阳或前前代太阳的超新星爆发时的极端状况。笔者同意的是,早期的金几乎全部随着熔融的地球沉入地核,目前地球上地壳和地幔的金多是拜后来后期重轰炸期(约40亿年前)的小行星撞击所赐。金也非常稀少而富有价值,这点大家都知道。
与支持8路及以上的Xeon Platinum 81xx相比,Xeon Gold 51xx/61x仅支持2路/4路Glueless配置。Gold 61xx最多只具备22个核心,44线程,运行频率也被限制到3.4GHz(4核心版本),内存和Platinum 81xx一样可以达到DDR4-2666MHz;Gold 51xx则只具备14个核心,28个线程,内存只能达到DDR4-2400MHz。尽管Glueless均只能支持4路,但支持3个UPI 10.4GT/s的Gold 61xx还可以支持Node Controller,因此可能可以支持更多路的配置,而只支持2个UPI的Gold 51xx只能最多支持环形的四路配置。此外Gold 61xx和Platinum 81xx一样支持最高档次的AVX-512(每个核心具有两个FMA融乘加引擎),Gold 51xx的AVX只有一个FMA融乘加引擎;需要特别之处的是,Gold和Platinum全系列都具有一致的RAS特性,可以承担Mission-Critical关键任务应用,这一点可以认为是传统2路4路Xeon E5的特性得到了升级。
再下来是Silver:
Silver,银,白银,化学符号Ag,原子序数47,贵金属、较不活泼金属和较不易受腐蚀。纯银柔软有白色光泽、导电率、导热性、反射率在金属中最高,延展性强仅次于金。银较稳定,但主要以化合物形式存在,游离单质形式较稀少,银能溶解于硝酸或热浓硫酸中,也能与卤素反应,对硫有很强的亲合势,也易于与硒、碲结合。有趣的是银与金、铜同为11族元素,导电性与导热性都不错,在电路中都不算少见(当然最常见的还是便宜的铜)。
最后是比较特别的Bronze,它是青铜——约88%纯铜(Cu,Copper)与约12%锡(Sn,Tin)的混合物,而前面提到过的铂、金、银三种都是单质,尚不清楚Intel为什么用的是Bronze而不是Copper。青铜的实际颜色是黄色偏红,称为青铜是因为氧化变成青灰色。与铜相比,青铜强度高而熔点低,因而铸造性好,其耐磨而化学性质稳定,在人类历史上起到了重要的作用——青铜时代与青铜器。
Intel Xeon Silver 41xx处理器与Intel Xeon Bronze 31xx处理器,Bronze的背景是不是黄色偏红?
Xeon Silver 41xx与Xeon Bronze 31xx仅支持2路配置,Silver 41xx最多具备12个核心,24线程,运行频率限制为2.2GHz(10核心版本),内存和Gold 51xx一样是DDR4-2400MHz,UPI亦被限制为二条9.6GT/s;Bronze 31xx最多为8个核心,没有超线程与睿频,运行频率最多1.7GHz,内存只能达到DDR4-2133MHz,不过,UPI和Silver 41xx一致。Silver和Bronze一致的还有AVX-512能力:每个核心只有一个FMA融乘加引擎,看起来Bronze 31xx是前代Xeon E5-2400的弱化版本,Intel对其定位为:Xeon E3的升级版。颇为有趣的是,Xeon E3将继续存在,不纳入Xeon Scalable处理器家族,这倒不是不可以理解:Xeon E3主要与桌面端处理器相似,而Xeon E5/E7均是重新设计过的Uncore架构,更符合企业级应用。
Intel Xeon Scalable四色处理器家族,似乎剩余11xx、21xx、71xx和91xx未被用到
但实际上71xx系列已经被确定有所应用,剩下的11xx/21xx/91xx或许可以凑个Iron以及Titanium出来?不过钛似乎称不上是贵金属,总而言之,目前新一代Xeon Scalable处理器的命名方式可见如下:
四色金属后是四位数字,第二位代表产品代数,最后的后缀字母目前有三个
附加的三个字母,其中F代表Fabric,也就是附带OPA(Omni-Path Architecture,Intel的一种InfiniBand改良型结构)接口的型号,T是High Tcase/Extended Reliability(高耐温、强化可靠性),实际上,它是包含FPGA功能的信号,考虑到Intel收购的Altera。最后的M是与无后缀对应的,带M型号的内存支持容量是不带M的两倍,达1.5TiB每插槽。
2017-07-13勘误:实际上,已知的附加后缀有4个,包含FPGA功能的型号应为P(目前未公布),T型号为高耐温高可靠,不带FPGA功能。
Intel Xeon Scalable处理器初代Skylake-SP型号一览
右上角说明了新的产品线的特点:新增加了205W TDP的数个型号,最高可以达到28核心2.5GHz,此外,特地增加了极高频率但核心数量较少、大Cache每核心的型号(8156/5122,四核心3.6GHz,16.5MiB Cache,每核心4.125MiB)的选择。总的来说,Xeon Scalable处理器家族的“Scalable”体现在方方面面,有更方便地组建多路系统,有更平民化的RAS特性,有更多的型号适应更广阔的应用——特别是,考虑到F(OPA附加版本)、T(高耐温高可靠版本)、P(FPGA版本)以及71xx系列型号(Xeon Phi还是人工智能芯片?)的加入,整个Xeon Scalable处理器将会覆盖前所未有的应用范围。
接下来我们准备开始详细介绍Skylake-SP处理器的架构与微架构,首先我们将会开始一段概览。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。