除了整数运算和浮点运算的差别之外,SPEC CPU2006测试还分两种:SPEED测试和RATE测试,SPEED测试类型运行单个实例,用来测试系统运行单作业的时候的运算能力,RATE测试则是运行多个实例,用来测试系统的总运算吞吐能力。SPEC CPU测试还会给出两种类型的结果:Base基准测试结果和Peak峰值测试结果,Base测试要求编译器套件按照指定的规则进行优化,而Peak测试则可以允许使用更多的优化技术,可以看出,前者可以用来简单对比不同的平台,而后者则在对比因素中加入了编译器等因素,有实力编写编译器的厂商可以从中获益。本页给出的是SPEED测试结果,按照整数到浮点、Base测试到Peak测试排列四个成绩图标,每个图表给出了测试系统及对比系统的每个子项目的成绩。图表图例文字中最后的"2S32C64T"字段指的是2 Sockets、32 Cores、64 Threads,意思是“2插槽32核心64线程”。
时间紧迫,我们没有进行non-AVX的测试以和前数代官方平台进行对比,而是直接进行了已经普及的AVX2测试。对比的平台都是当时的顶级配置,尽管系统和编辑器与现在相比可能有所不如。我们先进行的是SPEED测试,这个测试中系统全力以赴运行一个实例——通常是一个进程,但编译器和操作系统可能会根据情况将其编译为多个线程并分散到多个核心上运行,因此有些项目会看到非常可观的性能表现:
SPECint_base2006,整数,SPEED测试,Base基准测试
SPECint2006,整数,SPEED测试,Peak峰值测试
462.libquantum是一个模拟量子计算的子项目,它极大地依赖于内存性能,因此新的系统比上一代增加了50%的内存通道数量提供了无与伦比的优势。大部分SPEED测试均使用不超过2个CPU核心,因此通常Intel的处理器可以Turbo到最高频率(但运行AVX2代码又会降低一些频率)。在2个核心的情况下,2.6GHz的Skylake-SP/Xeon Gold 6142可以Turbo至3.7GHz(记住运行AVX2代码时又会降低一些频率),而Broadwell-EP/Xeon E5-2699 v4和Haswell-EP/Xeon E5-2699 v3的这个频率都是3.6GHz,Ivy Bridge-EP/Xeon E5-2697 v2则是3.5GHz。
SPECfp_base2006,浮点,SPEED测试,Base基准测试
SPECfp2006,浮点,SPEED测试,Peak峰值测试
我们可以看到,基于Intel Xeon SP Gold 6142的H3C UniServer R4700 G3在单任务上提供了比上一代超出非常多的优势,SPECint_base2006为73.1,SPECfp_base2006为135。即使是考虑老平台也使用AVX2代码,我们以前的测试表明并没有多大的提升。
好文章,需要你的鼓励
在迪拜Gitex 2025大会上,阿联酋成为全球AI领导者的雄心备受关注。微软正帮助该地区组织从AI实验阶段转向实际应用,通过三重方法提供AI助手、协同AI代理和AI战略顾问。微软已在阿联酋大举投资数据中心,去年培训了10万名政府员工,计划到2027年培训100万学习者。阿联酋任命了全球首位AI部长,各部门都配备了首席AI官。微软与政府机构和企业合作,在公民服务和金融流程等领域实现AI的实际应用,构建全面的AI生态系统。
北航团队开发的GeoSVR技术突破了传统3D重建方法的局限,采用稀疏体素表示和体素不确定性评估,无需依赖初始点云即可实现高精度表面重建。该方法通过智能的深度约束和体素协同优化策略,在DTU等标准数据集上取得了最佳性能,为VR/AR、文物保护、影视制作等领域提供了新的技术选择。
苹果与俄亥俄州立大学研究人员发布名为FS-DFM的新模型,采用少步离散流匹配技术,仅需8轮快速优化即可生成完整长文本,效果媲美需要上千步骤的扩散模型。该模型通过三步训练法:处理不同优化预算、使用教师模型指导、调整迭代机制来实现突破。测试显示,参数量仅1.7亿至17亿的FS-DFM变体在困惑度和熵值指标上均优于70-80亿参数的大型扩散模型。
Google DeepMind团队发布了EmbeddingGemma,这是一个仅有3.08亿参数的轻量级文本理解模型,却能达到7亿参数模型的性能水平。该模型在权威的多语言文本嵌入基准测试中排名第一,支持250多种语言,特别适合移动设备部署。研究团队通过创新的编码器-解码器初始化、三重损失函数训练和模型融合技术,实现了性能与效率的完美平衡,为AI技术普及化开辟了新路径。