你的位置:三级片 > 艳母快播 >

台灣 拳交 越过官方的民间测评:基于 SPEC CPU 2006 的国产龙芯 3A4000 管制器性能评测

台灣 拳交 越过官方的民间测评:基于 SPEC CPU 2006 的国产龙芯 3A4000 管制器性能评测

“跑分” 这件事,深信列位读者对此并不生分。“起义跑个分” 仍是成为了某些手机发布时的保留节目。关于鄙俚用户来说台灣 拳交,最常用的跑分智力概况便是鲁大家和安兔兔了。安设一个智力,然后再点几个按钮,几分钟以后跑分效用就出来了,通盘历程浅易放纵。

如果要跑分的平台不是脱手 Windows 系统的 X86 平台,也不是脱手安卓系统的 ARM 平台,而是脱手国产操作系统的国产管制器平台,用什么递次来斟酌这些平台上的管制器性能呢?这时,咱们不错使用一个分量级的跑分智力 SPEC CPU 2006。

SPEC CPU 2006 包含 12 项整数测试,17 项浮点测试,悉数 29 个测试方法。测试以后会分歧把柄每一项的测试收货,用几何平均算出最终的整数测试收货和浮点测试收货。把柄编译选项成就的不同,不错得到管制器的基础(base)性能和峰值(peak)性能。关于 SPEC CPU 2006 的具体内容,网上仍是有好多材料了,在此我不作念赘述。在IT之家IT号这里,我把稳先容单核 peak 性能的测试。

一、三款国产管制器性能对比

使用 SPEC CPU 2006,咱们不错对多样国产管制器的性能作念一个评价。这里,咱们早先对比三款国产管制器的 SPEC CPU 2006 性能。

热潮 FT2000-4 管制器莫得官方的 SPEC CPU 2006 性能。网友 yygg100 使用热潮的里面测试配置文献,得到了 FT2000-4 管制器的整数峰值性能为 23.2 分;缺憾的是,在这个测试中并莫得进行浮点性能的测试,该网友也莫得提供配置文献的细节。这个收货仍是初步完了了热潮在 2016 年的设想,即到 2018 年 SPEC CPU 2006 性能达到 20~30 分。

兆芯则平直在官网上公开了管制器的性能,目下 KX-6000 的性能为 3GHz 下单核整数性能 29.2 分,浮点性能则高达 38 分。由于兆芯管制器选择 X86 提醒集,在进行性能测试的时候兆芯不错使用 Intel 编译器来得到最高性能,这亦然兆芯的生态上风之一。

龙芯 3A4000,选择 28nm 工艺,主频 2.0 GHz 下,单核 peak 整数性能 21.1 分,浮点性能 21.2 分;单核 base 整数 19.1 分,浮点 18.7 分。我在客岁试图复现这个收货,莫得收效,即使超频到 2.15GHz 的情况下,最终的收货也莫得高出 20 分,深感缺憾。当今我思再试一下,以正视听。

图 1 三款国产管制器的单核性能对比

二、影响管制器性能的身分

在性能评测中,影响性能的身分有好多,浅易的讲不错详尽为以下几个个部分:

管制器核的设想水平。管制器核的性能是决定管制器性能的最枢纽身分。在沟通的主频下,使用高效管制器核的管制器性能更好。

管制器主频。选择相似的管制器核,更高的管制器主频能够有更好的性能。优秀的制造工艺能够显耀提高管制器的主频。比如,相似选择 FT663 内核,选择 40nm 工艺的热潮 FT2000-2 管制器主频只须 1.0 GHz,而选择 16/14 nm 工艺的 FT2000-4 管制器主频高达 2.6 GHz。选择优秀的物理设想,也能够显耀提高管制器的主频,比如龙芯 3A3000 管制器和龙芯 3A4000 管制器齐选择 28 nm 工艺流片,前者主频只须 1.5 GHz,此后者的主频提高到了 2.0 GHz。

管制器的缓存大小。无人不晓,Intel 的管制器阉割缓存以后就酿成了奔腾。更大的管制器缓存,有助于提高管制器的性能。比如,龙芯 3A2000 管制器分享 3 级缓存为 4M,龙芯 3A3000 管制器的分享三级缓存提高到了 8M,使得 3A3000 管制器的性能有了更多擢升。

内存的访存速率。有部分诈欺是访存密集型的,对这些诈欺来说,提高内存的访存性能能够有用提高管制器性能。影响内存性能的身分有内存的频率、内存通谈的数量。如果主板上有多个管制器,还需要磋议每个管制器和内存的距离。

编译器和编译选项。优秀的编译器,加上与诈欺特征匹配的编译选项,能够显耀提高设想的性能。在 Intel 平台上,要全面推崇管制器的性能,最好聘用是使用 Intel 编译器;如果使用开源的 GCC 编译器,时常不成充分推崇管制器的才智。比如,兆芯 KX6000 管制器 SPEC CPU 2006 峰值性能整数 29.2 分,浮点 38 分,便是使用 Intel 编译器测出来的。此外,还有大齐的编译选项提高二进制文献性能,聘用稳健的编译选项是提高性能的进攻技艺。比如,关于维持 avx 提醒的管制器,在使用 GCC 进行编译的时候开启 - mavx 选项,可能会显耀提高智力的性能。

操作系统内核。过于陈旧的操作系统内核可能无法很好的维持新管制器的特质。如果操作系统内核编译的时候莫得设定正确的选项,也可能无法维持新的管制器特质。以龙芯管制器为例,龙芯 3A4000 管制器加多了 MSA 提醒,维持 128 位向量操作,如果操作系统内核不维持 MSA,那么通盘启用了 MSA 提醒的二进制文献齐无法平时脱手,也就无法推崇管制器的性能。

智力脱手依赖的底层函数库。智力脱手依赖的 libc 库和 libm 库,对管制器性能的推崇也有影响。高性能的数学库能够加速底层数学函数的设想,提高设想性能。如果是进行矩阵运算、信号管制,那么高性能的 BLAS、LAPACK 库、FFT 库也能提高智力的运算速率。

三、龙芯 3A4000 管制器的 SPEC CPU 2006 性能调优

在对龙芯 3A4000 进行性能测试的时候,我测试了操作系统内核、内存性能、主频、编译选项等对操作系统性能的影响。

1. 编译器优化选项

早先,我施行了编译器的多样优化选项对性能的影响。此时,我的测试环境是龙芯 3A4000 管制器,主频 1.8GHz, 配单根 8GB 2400MT/s 内存条。操作系统为龙梦 Fedora 28,内核版块为 5.4.60,编译器版块为 GCC 8.4。我浅易尝试了 O2、O3、Ofast 三个优化选项,得到的 SPEC CPU 2006 性能如图 2 所示。

图 2 选择 O2、O3、Ofast 选项时的管制器性能对比

这个性能看起来着实是不何如样。从 O2 到 O3 再到 Ofast,智力的性能有多少的擢升,但距离龙芯官方生成的 20 分还差的很远。接下来,咱们不错通过进一步编译器参数来对管制器的性能进行优化。我选择的主要编译器参数和作用如下表所示。

编译器参数

作用

-march=loongson3a

开启针对龙芯 3A 管制器的优化

-mabi=n32

使用 N32 的 ABI

-funroll-all-loops

轮回张开

-mmsa台灣 拳交

使用 MIPS SIMD 提醒

-flto

开启通顺时优化

-ftree-parallelize-loops

开启自动并行

-fprofile-generate, -fprofile-use

使用 profile guided optimization

对每个测试项指标编译参数,齐进行了革新,最终得到的 peak 性能分数提高到了整数 18.09 分,浮点 17.64 分,相关于仅使用 Ofast 参数的性能分歧提高了 34% 和 24%。图 3~ 4 对比了只使用 Ofast 参数的性能和 peak 性能的对比。

图 4 peak 性能和仅选择 Ofast 选项的性能对比

从测试的效用看,只是依靠编译选项的革新,就不错大幅提高诈欺智力脱手的速率。关于部分测试的性能,致使突出倍的性能擢升。比如,456.hmmer 测试项指标分数从 11.7 分提高到 27.4 分,性能是之前的 2.3 倍,这主如若因为启用了 MIPS 的 SIMD 提醒;436.cactusADM 测试项指标分数从 2.5 分提高到 7.3 分,性能是之前的 2.9 倍。

2. 操作系统内核的聘用

除了编译选项的革新,操作系统内核也对诈欺智力的性能有着荒谬大的影响。选择相似的编译选项,我分歧使用 Fedora 28 的 5.4.60 内核以及龙芯提供的 4.19.161 内核进行了性能测试。使用 4.19.161 内核,进一步擢升了智力的性能,整数 / 浮点性能分歧从 18.09 分 /17.64 分,提高到了 18.8 分 / 19.92 分,性能的擢升分歧为 4% 和 13%。

如图 5 所示,429.mcf 性能从 20.56 分提高到了 24.9 分,性能提高了 21%。而性能擢升最为较着的方法是 436.cactusADM,分数从 7.3 分提高到了 44.9 分,性能暴涨到正本的 6.15 倍,险些像开挂了一样。这也标明龙芯公司在操作系统内核的优化上,也作念了好多责任。

图 5 操作系统内查对性能的影响

3. 内存性能

进一步,我对比了内存性能对系统性能的影响。当系统加多一根内存条,构成双通谈以后,举座的性能再次擢升,整数 / 浮点性能分歧擢升到了 19.60 分和 20.99 分,比较之前的测试分歧又提高了 4.3% 和 5.5%。其中,性能擢升较大的方法如图 6 所示。很较着,这些方法亦然访存密集型的。在对内存性能进行调优以后,1.8 GHz 主频的龙芯 3A4000 管制器的浮点性能仍是高出了 20 分。

从测试的效用也不错看出,462.libquantum 测试对访存性能荒谬明锐,将内存从单通谈升级到双通谈,性能擢升了 66%。

图 6 内存对性能的影响

4. 管制器主频

以上的测试齐是在 1.8 GHz 主频下完成的。本体上,龙芯 3A4000 管制器睿频频率不错到 2.0 GHz。而使用龙芯内核迷惑者 flygoat 提供的龙梦 A1901 主板内核超频补丁,还不错进一步擢升龙芯 3A4000 管制器的主频到 2.2 GHz。

提高主频的话,龙芯 3A4000 管制器的性能究竟不错擢升到什么进度?从下图 7 不错看出,在 2.0GHz 主频下,整数性能和浮点性能分歧为 21.3 分和 22.9 分,这仍是高出了龙芯官方提供的整数 21.1 分、浮点 21.2 分的 peak 性能。我所测试的 A1901 主板,3A4000 管制器不错相识在 2.1GHz 主频下,在此主频下整数性能和浮点性能分歧为 22.2 分和 23.8 分。

图 7 不同主频下龙芯 3A4000 管制器的性能

秋霞在线

相关词,这并非是龙芯 3A400 管制器的性能极限。我在测试中使用的是 GCC 8.4 编译器,其中对龙芯 3A4000 中提醒的维持并不完善。比如,龙芯 3A4000 中完了了 256 位向量操作提醒 LASX,但我在跑分的时候只用到了 128 位的向量操作提醒 MSA。如果编译器中的编译选项对龙芯管制器进行了深度的调优,通盘系统的性能还有进一步擢升的空间。

经过上述的测试,我对系统的硬件、软件等方面进行了多种调优,通过优化编译器选项、操作系统内核、内存性能,以及对管制器的超频,将 SPEC CPU 2006 的性能从最初的整数 13.1 分、浮点 12.2 分,提高到了最终的整数 22.2 分、浮点 23.8 分(2.1 GHz)。这些优化的造就,关于雷同的系统相似适用。

四、针尖对麦芒:热潮 FT2000/4 vs 龙芯 3A4000 管制器

咱们了解了龙芯 3A4000 管制器的性能,那么和友商的热潮 FT2000-4 管制器比较,龙芯 3A4000 的差距有多大呢?

方法

龙芯 3A4000

热潮 2000-4

管制器核

GS464V

FTC663

提醒集

LoongISA

ARM V8

管制器核数

4

4

管制器主频

2.0

2.6

工艺

28nm

14nm

功耗

30~50W

10~15W

内存箝制器

DDR4 最高 2400MT/s

DDR4 最高 3200MT/s

不错看出,选择先进工艺的 FT2000-4 管制器在主频和功耗上大幅当先龙芯 3A4000 管制器。那么管制器的确凿性能有多大的差距呢?最近,贴吧网友 yygg100 对 FT2000 管制器的 SPEC CPU 2006 的 peak 性能进行了测试,得到了在 2.6GHz 主频下单核 peak 整数性能 23.2 分的收货。固然他的测试并不完善,只须整数性能测试,莫得浮点性能测试的数据,但这依旧是目下已知的 FT2000 管制器单核性能的最高值。

咱们将这个数据与龙芯 3A4000 在 2.0GHz 下的性能进行了对比,龙芯 3A4000 性能为 21.3 分。由于龙芯管制器工艺过时,主频较低,主频只须热潮管制器的 77%,而整数性能达到了热潮管制器的 92%。

图 8 龙芯 3A4000 和热潮 FT2000-4 管制器整数性能对比。

从图中不错看出,在 12 项测试中,热潮管制器在 8 个方法上性能强于龙芯 3A4000,其中 libquantum 这一项的性能差距最大,龙芯管制器性能只须 FT2000 的 58%,因为热潮管制器不仅主频较高,况且内存频率为 2666MT/s,比较龙芯 3A4000 的 2400MT/s 有较着的上风。

而在 429.mcf,445.gobmk,456.hmmer, 458.sjeng 这 4 个方法上,2.6 GHz 的热潮 2000 管制器性能弱于 2.0 GHz 的 3A4000 管制器。跟着龙芯 3A5000 管制器的上市,热潮 2000 管制器的单核性能当先上风将会缓缓销亡。

五、对龙芯 3A5000 的预测

龙芯 3A5000 管制器仍是流片,很快就要发布了。龙芯 3A5000 管制器将选择台积电 12nm 工艺流片,管制器主频有望提高到 2.5 GHz 以上,和友商管制器的主频差距进一步减轻。据称,龙芯 3A5000 的 SPEC CPU 2006 性能将达到 25~30 分。

把柄我对龙芯 3A4000 管制器的性能测试,如果把龙芯 3A5000 管制器视为 3A4000 的浅易升级版,只是提高主频,内存频率仁爱存齐不变,选择图 7 中的数据,进行一个浅易的数据拟合,我预测龙芯 3A4000 管制器在 2.5 GHz 主频时 peak 性能约为整数 25.9 分、浮点 26.7 分。龙芯 3A5000 会将三级缓存大小加倍,提高内存的频率 (有望达到 3200MT/s),还会进一步擢升管制器的性能,咱们不错假定有这些革新不错带来 5% 的性能擢升;龙芯 3A5000 管制器选择了 Loongarch 提醒集,解脱了 MIPS 提醒集的历史职守,把柄胡伟武接洽员的汇报,只是是提醒集的更新,就不错让性能擢升 16.6% 和 9.4%,咱们不错保守揣度有 9% 的性能擢升。龙芯 3A5000 也有望使用确凿的 256 位向量提醒,而非 MSA 中的 128 位向量,智力脱手速率不错进一步提高,不错保守揣度这能带来 2% 的性能擢升。

把柄上头的设想,我以为龙芯 3A5000 管制器的 SPEC CPU 2006 单核 peak 性能不错达到整数 30 分、浮点 30 分。届时,龙芯管制器将在单核性能上追平或赶超其他国产管制器。2021 年下半年,16 核龙芯 3C5000 以及 64 核龙芯 3E5000 的流片,也将提高龙芯管制器的多核性能,有助于龙芯扩张行状器阛阓。

致谢

本次测试借用了网友 gueenet 的龙芯 3A4000 主机,对他的鲁莽和信任我深表感谢!在对内核的性能测试中得到了陈华才、flygoat 的教悔。对 SPEC CPU 2006 性能的探索,受到了网友 yygg100 所发视频的启发,对他的视频分享一并暗示感谢。封面图由龙芯吧 Windows1089 提供。

参考贵府:

IT之家对 SPEC CPU 感兴味的一又友,不错参考 https://github.com/zevanzhao/loongson-notes 中的文档,进行龙芯平台下 SPEC CPU 2006 的跑分。

告白声明:文内含有的对外跳转通顺(包括不限于超通顺、二维码、口令等体式),用于传递更多信息,检朴甄选时刻,效用仅供参考台灣 拳交,IT之家通盘著述均包含本声明。



相关资讯



Powered by 三级片 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024