除了整数运算和浮点运算的差别之外,SPEC CPU2006测试还分两种:SPEED测试和RATE测试,SPEED测试类型运行单个实例,用来测试系统运行单作业的时候的运算能力,RATE测试则是运行多个实例,用来测试系统的总运算吞吐能力。SPEC CPU测试还会给出两种类型的结果:Base基准测试结果和Peak峰值测试结果,Base测试要求编译器套件按照指定的规则进行优化,而Peak测试则可以允许使用更多的优化技术,可以看出,前者可以用来简单对比不同的平台,而后者则在对比因素中加入了编译器等因素,有实力编写编译器的厂商可以从中获益。本页给出的是SPEED测试结果,按照整数到浮点、Base测试到Peak测试排列四个成绩图标,每个图表给出了测试系统及对比系统的每个子项目的成绩。图表图例文字中最后的"4S112C224T"字段指的是4 Sockets、112 Cores、224 Threads,意思是“4插槽112核心224线程”。
我们先进行了AVX1编译代码的SPEED测试,AVX1当中,浮点向量为256位,但整数向量仍然为128位:
SPECint_base2006,整数,SPEED测试,Base基准测试
SPECint2006,整数,SPEED测试,Peak峰值测试
可以看出,性能惊艳,部分地是因为在2个核心的情况下,2.5GHz的Skylake-SP/Xeon Platinum 8180可以Turbo至3.8GHz,而Broadwell-EP/Xeon E5-2699 v4和Haswell-EP/Xeon E5-2699 v3的这个频率都是3.6GHz,Ivy Bridge-EP/Xeon E5-2697 v2则是3.5GHz。顺便一提,Sandy Bridge-EP/Xeon E5-2690 v1是较高的3.8GHz,但这里放不下。总的来说,SPEED测试大部分时间下是一个频率游戏,但Skylake-SP的性能提升超过了频率的差异。每一代处理器的IPC确实会有一些提升。
SPECfp_base2006,浮点,SPEED测试,Base基准测试
SPECfp2006,浮点,SPEED测试,Peak峰值测试
我们确信,新的编译器做了很好的优化,同时Skylake-SP/Xeon Platinum 8180的性能也确实强悍。
好文章,需要你的鼓励
谷歌DeepMind发布了迄今最小的AI模型之一Gemma 3 270M,仅有2.7亿个参数。该模型专为低功耗设备设计,可在智能手机等设备上离线运行。尽管体积小巧,但经过微调后仍能处理复杂的特定领域任务。在指令跟随基准测试中获得51.2%的成绩,超越同类小型模型。在Pixel 9 Pro上测试显示,25次对话仅消耗0.75%电量,展现出色的能效表现。
斯坦福大学研究团队开发了史上最具挑战性的AI数学推理测试系统Putnam-AXIOM,基于威廉·洛威尔·普特南数学竞赛的522道大学级难题。测试结果显示,即使最强的AI模型也只能达到42%的正确率,远低于它们在传统测试中的表现。研究还创新性地引入了变形题目生成和教师强制准确率评估方法,有效识别了AI对训练数据的记忆依赖问题,为真实评估AI数学推理能力提供了新标准。
阿里达摩院联合多所高校提出AffordDex框架,让机器人灵巧手首次具备类人功能感知能力。通过两阶段训练结合负面功能感知分割技术,实现既自然又安全的物体抓取,成功率达89.2%,人类相似性评分8.6分,功能正确性远超现有方法,为通用机器人智能发展奠定重要基础。
普渡大学研究团队开发了ASTRA红队系统,通过"空间时间探索"方法系统测试AI编程助手安全性。与传统方法不同,ASTRA专注现实使用场景,通过构建领域知识图谱和分析AI推理过程发现漏洞。实验显示ASTRA比现有技术多发现11-66%安全问题,生成的测试用例可提升AI安全训练效果17%,为AI编程助手安全保障提供了重要工具。