安卓旗舰芯片骁龙855性能初探:略显不足?
上个月初,高通在夏威夷召开的第三届骁龙技术峰会上,正式推出了万众瞩目的骁龙 8 系列旗舰移动芯片 Snapdragon 855。正如大多数机友所知,骁龙 855 将会是 2019 年新一代顶级旗舰智能手机标配的移动芯片。那么,这枚芯片与上一代相比究竟带来怎样的性能改进呢?本月中旬,知名评测站 AnandTech 发布了骁龙 855 芯片的首测报告,我们一同来看看。
在开始性能评测之前,还是要把骁龙 855 的性能参数复习一遍。高通骁龙 855 是一枚 7 纳米工艺八核心设计的芯片,这次高通的核心结构设计主要基于 ARM 的 DynamIQ CPU 集群,具体为 1 大核 + 3 中核 + 4 小核的设计。大核基于 ARM 最新 Cortex-A76 设计,可以提供非常高的峰值性能,3 个中核同样也是 Cortex-A76 定制,4 个小的核心基于 Cortex-A55。
与此同时,与上一代骁龙 845 芯片相比,骁龙 855 并没有大幅提升 CPU 核心的时钟频率。高通强调,自家的 Kryo 485 CPU 集群由于是基于 ARM 最新的 Cortex-A76 进行半定制设计,大内核配备了更大的 512kb 的 L2 缓存,频率达到 2.84GHz 峰值频率,高通称性能相比上一代还是提高了 45%。
骁龙 855 中的三个中核频率为 2.42GHz,并各有 256kb 的 L2 缓存,4 个 1.8GHz 主频小核的每个核心各有 128kb 的 L2 缓存。此外,骁龙 855 还集成了新一代图形处理单元 Adreno 640 GPU,高通官方称能够带来高达 20% 的图形渲染速度提升,同时还能继续保持业界领先水平的每瓦特能效。
AnandTech 这一次拿到手的骁龙 855 设备并非任何一个品牌的零售机型,而是高通所准备的参考设计机型 Snapdragon 855 QRD。经上手,他们认为今年高通 QRD 测试机的设计可能是有史以来最接近于上市新机的一次,外壳更加美观,也更加坚固,让人很难注意到这本是一款参考设备。
而在硬件方面的性能表现,高通已经明确表示,任何情况下对 QRD 设备的性能测试结果,都只会是一种接近于正式零售机型的成绩而已,手机厂商真正发布的旗舰机成品将可能与此有明显偏差,因为改进软件底层设计也会对性能有所优化。
AnandTech 称,他们真正对这款高通 QRD 设备的实际设备操作时间是有限的,所以尽管已经进行了大量的测试,但仍会遗漏掉某些测试,因为某些些测试很耗时间,例如 GPU 连续性能测试环节。
骁龙 855 的最大问题在于内存延迟
AnandTech 称,去年高通在骁龙 845 上引入一个奇怪的设计,就是在内存控制器前引入一个系统级缓存大小为 3MB 的新缓存层次结构。这个新模块主要是为各种 IP 模块充当 SoC 更宽的缓冲范围,从而减少对 DRAM 运行内存访问量,达到提高系统能效的目的。除了提高能效水平,理论上该模块理应还能起到性能助推器的作用。因为行业早有先例,最著名的就是苹果自主设计的 A 系列芯片,自 A7 以来苹果的芯片就开始充分利用这一系统缓冲模块。
作为去年的旗舰,高通在骁龙 845 中引入这样一个 IP 模块相当令人兴奋,但是这也是一把双刃剑,因为直接导致了 30% 的 DRAM 内存延迟(相比骁龙 835),从而限制了基于 Cortex-A75 定制内核的某些性能。不幸的是,最新的骁龙 855 在这方面似乎没有做出任何明显改进,因为高通已经确认这一 IP 模块与骁龙 845 中使用的相同。
AnandTech 表示,为了研究骁龙 845、855 和麒麟 980 之间的差异,首先根据延迟测试中绘制图表了解内存层次结构,也就是通过可视化的图标更好的分析层次结构之间的各种延迟跳跃。
在骁龙 845 与骁龙 855 芯片之间,最新的 Kryo 485 大核 L2 缓存增加了 512KB,相比上一代的性能内核增加了 256KB,同时 L2 延迟得到了改善,只不过两枚芯片在 2.8GHz 频率下彼此接近。骁龙 845 与骁龙 855 的 DSU L3 缓存大小相同,在这部分缓存层次结构上,两个芯片之间的延迟几乎是相同的,但有趣的是,这与华为麒麟 980 的 4MB 大小的 L3 形成鲜明对比,后者虽然更大,但似乎慢了 20%。
在另一张线性图上,可以更清楚地看到 DRAM 内存延迟的差异。骁龙 855 似乎确实比 845 稍微改善了内存延迟。不过,这可能是其他组件带来的功效,因为新款参考设备配备的是 2133MHz LPDDR4X 内存,而去则为 1866MHz 内存,新内存在频率上就已提高了 14%。关键是与麒麟 980 芯片相比较,麒麟 980 采用了与骁龙 855 相同的 CPU 微架构和 2133MHz 频率内存,但在这方面高通这一旗舰芯片的内存延迟表现似乎并不理想。
针对 CPU 性能和效率的 SPEC 2006 测试
AnandTech 继续针对高通骁龙 855 设备进行了 SPEC 2006 测试,并称 SPEC 这个测试软件权威性更足,可作为确定 CPU 和系统的微观体系结构方面的宏观基准测试,或者说是一个重要的行业标准化的 CPU 测试基准套件。当然了,尽管 SPEC 2006 已被弃用,取而代之的是 SPEC 2017,但 AnandTech 认为编译的 SPEC 2006 对于移动平台来说仍然是一个很好的基准测试工具。
在 SPEC 2006 测试中,骁龙 855 的表现出色,与华为麒麟 980 的表现不相上下,不过这个结果应该不太令人惊讶。
在 SPECint 2006 测试中,骁龙 855 的性能相比骁龙 845 提升了 51%,同时能效提升了 39%。而与麒麟 980 相比,骁龙 855 仅略微领先 4%,可以说在 Android 阵营之中,麒麟 980 和骁龙 855 是目前性能表现最接近的竞争对手。
在 SPECfp 2006 测试中,高通骁龙 855 比骁龙 845 提升了 61%,而且比华为麒麟 980 表现更好,9% 的频率优势即是领先优势。
不过,在所有这些测试结果中,能效方面的数据同样非常之重要。由于高通上个月在夏威夷发布骁龙 855 时,并没有在 CPU 能效方面发表任何有意义的说明,这不免让人担忧。幸运的是,这种担忧是多余的,因为骁龙 855 似乎已非常高效,即便是在频率高达 2.85GHz 的大核表现上。
其实深入到测试的成绩去分析,最有趣的肯定还是高通骁龙 855 与麒麟 980 的性能比较。骁龙 855 的时钟频率高了 9%,并且官方表示经过一些微结构特性的调优改善了 IPC 性能,而麒麟 980 则又有更大的 L3 缓存和内存延迟优势。
在绝大多数负载测试中,这两种芯片基本并驾齐驱,只是在一些关键方面存在差异。某些对运行内存需求较少的负载测试中,骁龙 855 更容易展现出其高频率的优势。而在延迟敏感的负载测试中,这种差异会缩小或逆转。其中在 462.libquantum 测试项目中,骁龙 855 表现相对优异,按照高通方面的解释,该芯片之所以在这方面的领先,主要是得益于 CPU 内核的定制功劳,不过高通没有具体说明是哪个方面带来的提升。
测试项目 458.sjeng 显示出了两者最大的性能表现差异,这个差距达到了 13%。该项基准对内核分支机构的错误预测最为敏感,高通声明他们对核心的分支机构数据结构进行了更改。而比较让人觉得奇怪的结果是 429.mcf 测试项目,该项骁龙 855 表现出色,尽管芯片存在内存延迟的缺陷,但结果却与此相悖,AnandTech 认为骁龙 855 在这项比麒麟 980 性能更好,有可能是因为有更出色的 L3 缓存延迟。
再深入 SPECfp 2006 的测试结果,可以非常明确地将结果分为两组。在其中一组项目测试中,骁龙 855 明显优于华为麒麟 980,在 447.dealII 和 453.povray 这两项测试中分别领先了 17% 和 22%。而在另一组测试中,骁龙 855 则与麒麟 980 并驾齐驱,因为这些负责测试项目对内存较为敏感。
跑完这些测试,AnandTech 表示,总体而言,骁龙 855 的 CPU 性能并不令人失望,平均性能领先于华为麒麟 980,只不过不是很多。在大多数情况下,两芯片组的基本并驾齐驱,这主要取决于两枚芯片针对不同负载项目的工作量。
当然了,AnandTech 还认为骁龙 855 芯片的能效一流,因为其能效表现超出了实现更高频率的预期。不过,既然是 QRD 参考平台,很多数据就仍可能存在一定程度的不确定性,不代表真正上市的品牌零售手机,但如果确实有代表性,那么 2019 年安卓旗舰将能提供更出色的续航性能。
AI 人工智能“理论”性能很出色
除了大量改进 CPU 和 GPU,骁龙 855 另一重要的改进就在于 AI Engine 人工智能引擎。高通骁龙 855 芯片通过内部改进 Hexagon 技术,并增加了相应的运算能力,可以实现每秒超过 7 万亿次运算(7TOPs)
简单的说,骁龙 855 的 Hexagon 690 在上一代包含有 4 个标量处理单元和 2 个 1024b 的 HVX 向量处理单元(Hexagon Vector eXtensions)的基础上,将 HVX 向量处理单元数量提升到了 4 个,使其处理能力是之前两倍。不仅如此,高通还首次引入了全新的 HTA(Hexagon Tensor Accelerator)张量加速器,为特定的复杂机器学习任务提供更高的吞吐量。
不过,AnandTech 在询问高通关于全新 HTA 张量加速器的进一步细节时,高通并不愿透露更多关于这一新模块的性能,只是简单的提到了 AI 运算性能达到 7 TOPs,但具体每一个单独的单元性能如何高通不会提供具体数字。
AnandTech 称,其实最糟糕的情况是关于最新 HTA 张量处理器的 API 开放情况,毕竟要等到年底的 Android Q 发布之后才会公开提供 NNAPI,而当前相关 API 仅限于内部公开。这就意味着,当涉及到 AI 运算性能测试的环节,无法实测出最新 HTA 张量加速器性能如何,实测数字更多还是体现在 HVX 向量处理单元的改进上。
- AiBenchmark
首先,从 AiBenchmark 性能测试开始。AnandTech 认为,这一来自瑞士苏黎世联邦理工学院计算机视觉实验室的新工具,足已经足以展开 AI 性能的广泛测试,因为这个工具是第一个广泛利用到 Android 最新 NNAPI 的测试工具,而不是依赖于每个 SoC 芯片厂商的 SDK 工具和 API,所以理应能够更好地如预期那样准确测出基于 NNAPI 应用程序的性能。
AnandTech 将 AiBenchmark 的测试结果划分为好几组,在第一组测试中,高通骁龙 855 的表现良好,只是没有非常突出的某一项。这里的 AI 运行性能更多还是受到了系统调度程序的影响,而且由于负载测试是短时间突发的性质,主要测试的是 CPU 允许以多快的速度达到其最大性能点。
接下来转到 8 位整数量化模型测试,这些测试模型适用于大多数硬件加速的设备。高通骁龙855 在这一组所有基准测试中表现都处于领先。在 Pioneers 这项的基准测试中,可以清楚地看到得益于 HVX 加速单元的性能翻了一番,完成测试的时间不到上一代芯片骁龙 845 的一半。
这部分 AI 性能基准测试,主要体现出 NNAPI 基准测试中 API 和驱动程序方面的表现。结果显示,骁龙 855 比上一代以及竞争对手都出色,拥有更优异的加速度。这可能是因为高通明显改善了这里的驱动程序,所以与过去的骁龙 845 芯片相比,新一代能够更充分地利用硬件。
再到 FP16 的负载测试,终于看到高通的一些竞争出头了,其中麒麟980 的 NPU 硬件加速在这里得到了体现。其实按照以往,高通的芯片应该利用 GPU 性能来处理这些工作负载,显然骁龙 855 在这方面取得了巨大的进步,因为新平台对 NNAPI 功能支持更加成熟了。
最后到 FP32 负载测试,这一组测试也能看出骁龙 855 显著的改进,高通骁龙 855 终于能够充分利用 GPU 加速了,所以新一代芯片在这项测试中拥有相当大的领先优势。
- 鲁大师 AIMark
AnandTech 称,与 AIBenchmark 相比,AIMark 仍然算得上是有用测试工具。这个基准测试没有利用到 NNAPI,但利用到了高通的 SNPE 框架进行加速测试。因此,这也为能够与苹果 iPhone 进行比较提供了的难得机会。
总的来说,在鲁大师测试中,高通骁龙 855 的 AI 性能相比骁龙 845 提高了 2.5-3 倍。
AnandTech 表示,在高通当天的发布会活动中,官方还展示了运行 InceptionV3 的内部基准测试,该测试充分体现了 HVX 向量处理单元单元和最 HTA 张量加速器的性能。根据当时提供的数据显示,这款骁龙 855 参考设备可以达到 148 inferences/s 的 AI 运算性能。
总的来说,尽管在 AI 性能基准测试中没有能直接测试 HTA 张量加速器的性能,但骁龙 855的 AI 推理性能非常出色,这一点主要基于其驱动程序得到了很大的改进,而且 Hexagon 690 的向量执行单元也增加了一倍。不过测试归测试,如何利用和处理这种性能才是关键,希望接下来能够看到基于 AI 的更出色、更令人兴奋的相关应用程序。
综合系统性能:略显不足?
AnandTech 称,任何设备在现实世界常规的实际负载测试都更具参考意义,因为其实际性能不仅取决于硬件的原生性能,还取决于软件,例如 CPU 调度和系统 API 之类的因素会对设备的实际性能产生非常大的影响。
这部分测试首先从 PCMark 的 Web Browsing 2.0 测试开始,不过高通骁龙 855 开局不利。由于某些原因,骁龙 855 QRD 参考设备难以与骁龙 845 正式零售机型拉开差距,甚至与华为 Mate 20 的麒麟 980 相近的预期也没能达到。
Video Editing 测试部分骁龙 855 的分数也很一般,但原因很大程度上受限于这个测试本身的瓶颈,大多数设备在这份排名之中已经很多体现出显著差异。
Writing 2.0 这项测试是 PCMark 中最重要的测试之一,幸运的是,骁龙 855 QRD 设备与华为麒麟 980 相比性能差距终于在预期的范围之内。
Photo Editing 2.0 这一测试比较能够突显 RenderScript 负载的爆发性能。结果显示高通骁龙 855 QED 设备性能表现良好,不过去年正式零售的骁龙 845 机型还是排在第一。
最后,在单线程绑定的数据处理测试结果中,高通骁龙 855 的性能表现很好,但仍然与华为麒麟 980 设备差不多,并且落后于 Pixel 3,毕竟谷歌亲儿子手机的调度程序非常激进。
总的来说,高通骁龙 855 QRD 设备在 PCMark 测试中的得分是比较高最高,但是这样的成绩有点令人失望,因为当前来看似乎没有达到骁龙 845 手机谷歌 Pixel 3 的高度,而且部分排名华为麒麟980的 Mate 20 也比它领先。
AnandTech 表示,他们与高通讨论了上述情况,看到这样的数据高通方面也很惊讶,不过高通表示,他们将会对此进行深入了解,并认为手机厂商掉正式零售机型调度程序和软件堆栈,可能会提供更高的性能。无论如何,还要等骁龙 855 零售机型上市之后才有最后结论。
在另外两项基于网络浏览器的基准测试 Speedometer 2.0 和 WebXPRT 3 之中,高通骁龙 855 参考设备也只跑出了类似上述相对较弱的成绩。AnandTech 认为,在这部分本来预期高通骁龙 855 会表现得非常好,毕竟骁龙 845 如此突出,然而骁龙 855 进步非常非常小,特别是在考验吞吐量负载的 Speedometer 2.0 测试项目中。结果来看,骁龙 855 仅比上一代提升了 17%,与麒麟 980 相比也有显著的差距。
CPU 调度加载机制分析
AnandTech 从去年开始引入这一新的测试项目,之前在针对 iPhone XS 的评测中就曾详细比较过历代 A 系列芯片,结果显示运行 iOS 12 系统之后每一代机型的调度程序和 DVFS 响应能力都有明显不同。
在这部分测试中,骁龙 855 QRD 从睡眠空闲到满载峰值性能的状态,其调度机制让其只要大约 100ms 就能实现。AnandTech 还将搭载骁龙 845 的三星 Galaxy S9+ 和 谷歌 Pixel 3 进行了比较,在这之中 Pixel 3 的调度非常激进,而 Galaxy S9 + 则是呈阶ti 化的频率提升方式,这两款设备的感知响应有明显差异。
高通骁龙 855 参考设备的 CPU 调度机制介于两者之间。需要注意的是,骁龙 855 负载情况下,在大约 40ms 的时间内就能提升到 2.45GHz 频率,激活“高效”的大内核,这必须是一种非常快速的响应能力了。
再将高通骁龙 855 与麒麟 980 进行比较,可以看出骁龙 855 在达到峰值性能状态方面并没有变慢,但这些成绩的奇怪之处在于,当从小内核转移到其他内核时,负载过程中会出现明显约 2.4ms 的暂停状态。当然了,这只是高通为其参考设备定制调度机制而已,其他厂商的骁龙 855 正式零售机型如何调度还需进一步研究。
AnandTech 表示,总的来说,高通 855 在现实世界中的性能,或者说实际性能比预期的要低一。目前还不太能确定这是什么原因,但在 CPU 调度机制方面,经验证其负载的升频速度并不比华为麒麟 980 慢。现在另一种可能合理的解释是,骁龙 855 的 L3 缓存较小乃至 DRAM 延迟较高,所以在实际性能中暴露出了某些缺点。
无论如何,各大手机厂商正式零售的骁龙 855 旗舰机型,最终性能肯定会与高通的参考设备有所差异,不同的厂商对设备的性能都有不同的调整。
GPU 性能测试
GPU 图形处理单元一直是高通旗舰芯片的强项,这一次骁龙 855 所集成的 Adreno 640 GPU 虽然变得更强劲了,但提升幅度上仍有所保守,仅能够带来高达 20% 的图形处理速度提升,更像只是利用了 7 纳米工艺制程的进步而已。不过,这可能是因为高通在保持 GPU 模块面积不变大的情况下,又增加了 50% ALU(算术逻辑单元)数量的缘故。
首先来看最新 GFXBench 5 Aztec Ruins 测试工具的成绩如何。AnandTech 声明称,由于时间有限,这次测试并非非常完整的测试,在以往既包含峰值性能又提供持续性能成绩的情况下,这次测试只简单的测试了峰值性能。
在 Aztec Ruins 场景之下,无论是高级模式还是普通模式下,骁龙 855 的 Adreno 640 GPU 性能提升幅度基本与高通官方宣称的不一致,实际是比 20% 的提升有所下降的。同时,这一性能成绩也落后于苹果的 A11 和 A12 芯片,当然峰值性能的功耗不同。
说到功耗,就来看看跑 Manhattan 3.1 场景的性能和负载能效情况。如下面两图可以看到,在峰值性能的能效方面,高通骁龙 855 处于领先地位,不过还是落后于苹果最新的 A12 仿生芯片。比较明显的改善下雨,骁龙 855 的总功耗与骁龙 845 相比有所下降了,目前约为 4.4W,而之前骁龙 845 手机通常为 5W。
最后是 T-Rex 场景的性能,由于像素和填充率限制比较大,所以在此场景的性能提升比较有限。这可能是因为受到了某些方面的 CPU 限制,但不确定这是否是问题的答案,因为 GFXBench 基准测试一直以来对 CPU 的要求都非常低。
T-Rex 场景的能效方面,在性能略微提高的情况下,骁龙 855 相比骁龙 845 能效提升了 30% 左右。
AnandTech 表示,总的来说,骁龙 855 内置 Adreno 640 GPU 初始性能和效率成绩,已经比较让人满意了,主要是上一代骁龙 845 在某些方面有点令人失望,因为去年高通选择通过提高峰值功率来实现更高的性能,相比骁龙 835 的做法相当消极。不过,虽然骁龙 855 这枚新芯片并没有完全恢复到骁龙 835 芯片的低功耗水平,但至少已经达到了一半,而且与骁龙 845 相比性能确实有了显著的改进。
最终小结
AnandTech 表示,对于高通和上一代旗舰芯片骁龙 845 来说,2018 年是非常成功的一年。因为作为芯片设备供应商,高通为各大厂商提供了一枚非常可靠和全面的 SoC 系统级芯片,有助于厂商更轻松的构建自家的旗舰设备。从这方面来看,新一代芯片骁龙 855 仍将会延续这一趋势不变。
AnandTech 一直对高通采用的 1+3 的 CPU 配置是否具有优势持怀疑态度,但在看到新一代芯片主要核心的初步性能和能效测试数据之后,他们对此不再那么担心。不过,AnandTech 称他们不会就参考设备的整体表现过早下结论,因为他们还没有时间来测试非主要内核的性能和能效,不确定他们在竞争中是否处于领先位置。
在性能方面,AnandTech 称骁龙 855 的表现有点奇怪,只有在 SPEC 中相对稳定的负载测试中,骁龙 855 的性能似乎表现非常好,性能持平或超过华为麒麟 980。不过,高通对 CPU 微架构的改良通过测试成绩还是能表现出来的,可以说已经是不错的壮举了。但不幸的是,骁龙 855 内存子系统没有得到改进,仍然存在一些 DRAM 延迟的情况,这主要是高通系统级缓存的问题所在。
同时,虽然骁龙 855 芯片在现实应用测试中的性能足够出色,但并没有达到 AnandTech 对性能的预期。无论出于什么原因,至少高通对芯片的改进在对参考设备的测试中没有明显体现出来。令 AnandTech 更为好奇的是,在几乎所有实际应用的负载测试中,华为麒麟 980 都能够击败了骁龙 855,而且高通表示 CPU 微体系结构的改变能够帮助提升web浏览器性能,但在这方面测试又落后于竞争对手,目前不清楚是不是限制系统缓存或系统缓存延迟造成的结果。
AnandTech 表示,上述一切就是他们非常典型的芯片测试过程,但在一些性能测试中,骁龙 855 表现有点不理想,高通可能会对此进一步调查并改进,或许在正式零售机型发布之前能解决这些问题。但无论正式零售设备的系统性能能否得到改善,骁龙 855 改善最明显还是功耗,其能效看起来非常出色。高通今年没有公开谈论骁龙 855 能效水平,这不免让人担心,实际经过测试发现其能效非常不错,2019 年的旗舰相比去年理应能够带来更长的续航时间。
在 GPU 性能方面,高通对骁龙 855 的 GPU 性能改进相当保守,仅 20% 的性能提升比预期低。不过,AnandTech 认为这可能是因为高通有了更多的内部目标,例如将改进的重点放在整体功耗的降低上,希望能够将之前骁龙 845 较高的 GPU 功耗水平上降下来。
AnandTech 最后表示,总的来说,骁龙 855 是高通又一枚打造得非常出色的 SoC 系统级芯片,非常期待能快点去验证这一结论,但真正的定论,还要等到在首批正式商用的零售旗舰上市并测试后才能得出。
热门评论
>>共有0条评论,显示0条