一枚芯片的赶考之路：究竟该如何看待“AI评测”？

半导体产业发展了数十年，有一个词从来没有离开过，那就是“评测”。

对硬件处理能力的评测，想必今天大家都已经不陌生。“一言不合就跑分”据说是科技行业的惯例；而普通人买手机买电脑，也要先了解一下CPU多少分、GPU处理能力达到多少分之类的数据。

而在AI变得越发重要的今天，是不是也应该有对AI算力进行评测的方案呢？

这个问题值得认真思考一下。

无论是对谷歌、英伟达，还是高通、联发科而言，今天的AI芯片和AI算力已经成为了CPU和GPU之后的“第三大计算版图”，评测AI算力的意义是毫无疑问的。然而另一方面，AI面向的并不是单一的计算任务，而是若干种类计算任务、计算架构的集合，这也让测试AI性能变得史无前例的棘手。

要知道，即使CPU评测这件在今天看起来并没有难度的事，也是从90年代就开始启动，由无数公司与产业组织共同努力，才最终完成了行业标准确立。

那么AI评测这个陌生的东西，需要面对的技术规则挑战可想而知。然而今天我们在手机芯片等领域，正在不断看到越来越多的AI评测规则、评测报告出炉。结论往往混乱不堪，吃瓜群众也搞不清楚这里的门道到底在哪。

让我们今天“打破砂锅问到底”，来看看AI评测“到底是怎么测的”。

手机芯片领域的AI算力评测，是一项争议和复杂度远超想象的工程。今天为数不少的AI评测报告，或许都欠缺一抹严肃与逻辑自洽能力。

都想当“江湖百晓生”：风起云涌的AI芯片评测

看过《小李飞刀》系列的人都知道，排兵器谱的江湖百晓生虽然本身武力值不高，但江湖地位卓然不群。而今在AI高速前行的时代，给AI芯片排名这件“差事”，自然也是诱惑力十足。

在服务器AI芯片领域，很多组织和机构都在酝酿算力评测方案。国内的中国人工智能产业发展联盟（AIIA）已经多次组织学界与产业界研讨AI算力评测方案，并已有相关讨论稿。而在海外，谷歌、英伟达等AI巨头也在酝酿AI算力评测的相关章程，希望建立国际范围内通行的AI芯片测试标准。

而在手机芯片领域，这两年随着麒麟970开始搭载独立的NPU处理单元，之后苹果在A11中开始跟进，在A12中搭载了具备相当算力的AI加速模块；今年骁龙855也采取了专用加速模块的架构，联发科也讲起了AI故事，手机芯片基本已经在AI方向上达成了共识。那么如何来评价每一家的AI加速能力，自然成为了新的迫切需求。

目前，移动和电信都在组织自己的手机AI芯片评测报告。鲁大师很早就推出过一个AI跑分规则，引发了很多争议，而它的竞品安兔兔也在酝酿AI领域的评测。在国外，苏黎世理工ETH也发布了SoC的AI性能评测方案AI Benchmark。

然而如果有朋友看过不同的端测AI评测报告，可能会发现这样一个问题：各家评测结果出入很大，经常陷入“公说公有理”的状态。

这背后的根本原因在于，AI加速并不是一个通用计算能力，而是面向不同任务、不同网络模型给出的差异化提速效果。甚至每款芯片能够覆盖的AI加速任务种类都有极大不同。举个例子，短跑选手之间可以比赛排名，田径队和体操队碰上了怎么比呢？

十分为难的评测方，在今天这个缺乏统一标准的AI评测时代，基本只能采取一种办法：不管那么多，先测了再说。

于是，片面的标准和随之而来的混乱，是AI评测这个行当的当前状态。

“比武”也要讲逻辑：不全面AI评测的隐忧

今天AI评测最大的问题，在于每家芯片厂商最开始做AI专项加速的时候，对这门复杂技术有着不同的理解。摸索期过去，当各自作品“登上舞台”，评测机构可能会有点傻眼：这谁跟谁都不一样，可怎么测啊……

在AI没有通用接口的前提下，各家SoC厂商可能会选择各自的兼容格式，不同的编程接口，以及不同的计算框架。甚至对于AI加速单元到底要为哪些AI任务加速，各家厂商的选择都是不同的。

在这种情况下，如何将评测项目快速上马？最简单粗暴的逻辑，就是找一个大家都能做的来测一下。

鲁大师的AI跑分之所以饱受质疑，原因就在于它只用了一个AI识图的任务来测试不同的手机，然而AI识图只是众多应用中很小的一部分。甚至数据集和算法的不同，也会让AI识图这件事产生相差悬殊的结果。这种单一任务决定分数高低的测试方法，有点像一张试卷只有一道选择题——显然是无法做到公允的。

即使评测机构想要把逻辑做的更复杂一点，在今天很可能依旧无法摆脱“折中主义”的评测思路。

比如说，不久之前发布的《中国移动2018年智能硬件质量报告》把骁龙855和麒麟980的AI性能进行了评测对比。然而我们如果看一下这个评测的逻辑，会发现依旧无法摆脱片面折中的尴尬现象。

由于骁龙芯片和麒麟芯片对于AI加速的理解有很大区别，两款芯片加速的AI任务也有很大不同。于是在移动端的AI评测中，其逻辑是寻找两款芯片都能做的AI任务，找到几个典型算法和典型场景，然后进行评测对比；评测标准是，在固定时间内，谁能完成更多的突破分类、图片分割等运算任务，则谁更强。

然而这里首先暴露出的一个问题就是，折中主义方案下依然可能带来不公平。因为很多芯片产品真正擅长，能给消费者带来体验改进的算法加速，可能是对方芯片模块中所不具备的能力，结果却被评测方主动屏蔽了。

这有点像华山论剑中，强行要求东邪西毒南帝北丐分门别类进行比试。主办方一琢磨，北丐会降龙十八掌，东邪会落英神掌，那公平起见你们就比掌法好了。然而北丐的掌法是看家本领，东邪的掌法只是十大神功之一，弹指神通玉箫剑法之类的，都被主办方强行禁止了。

不全面的折中方案，其实恰好意味着不公平。然而这也是在仓促起事的AI评测中难以避免的。

更深层次的问题在于，折中主义方案其实是妥协于今天已经比较完善、容易得出分数对比的AI模型，比如图像分类等等。然而问题来了，端侧AI必然是不断发展的，用户对AI算法的复杂度也在日益提升。当AI算力和应用不断发展，用户不会只满足于拍照识图这种极简单，并不需要强劲算力的AI应用。然而对复杂算法的加速，也因为标准难以统一被今天的AI评测屏蔽了。

比如说，中移动的评测报告中提到了麒麟980对于浮点运算的加速能力更好。游戏玩家可能更清楚浮点运算这一概念，在游戏中任务的运动效果、打击感、与自然环境的贴合度，都是由处理器对浮点型任务的支撑能力决定的。复杂网络和高精度的AI任务想要运行，往往需要强浮点计算能力的支持，而这一点的重要性，显然在评测中并没有体现出来，这也导致麒麟980比骁龙855的AI处理能力低了半星。显然，这个结论很难具备说服力。

这里引申出的一个问题就是，抛开精度谈速率，其实是一种不靠谱的算力比较。这就像答题答得快并不意味着成绩好。更快的识图速度如果建立高错误率的基础上，或者只能固定数据集快速识别，拿到现实生活中就识错，那显然也并不意味着AI算力足够强大。

整体来看，今天快速上马的AI评测，根本问题在于想要在缺乏行业通用标准的情况下自己搞一个标准。往往是针对于眼前能获取到的、容易跑分的算法，并且着眼于各家产品间的能力重叠部分，进行测试。

这套逻辑虽然够快，但首先没有看到各家产品的独特性，也没有看到未来大负载的复杂AI任务必将成为主流这一核心趋势。

这种套路下得出的结论，显然难以令人信服。

如何构建相对公允的AI评测方案？

讨论了手机AI芯片评测中的种种不公平，那么是不是有某种方式可以构建相对公允的AI评测机制呢？

说老实话，在今天AI芯片还缺乏行业统一标准，甚至对于行业目标都不甚清晰的状况下，公允的AI算力评测方案是很难确立的。这有赖于整个AI产业与半导体产业的长期工作。

而就今天情况来看，至少我们可以预测到未来公允的AI评测方案的几个主要趋势：

1、着眼于高精准（High Quality）的AI模型加速，而不是目前简单易用的AI方案。从CPU、GPU的逻辑来看，复杂任务一定是评测算力的最高标准。比如今天我们在评测GPU时，都知道开一个画质特别好的游戏作为标准。没有人会用90年代的游戏来评测今天的GPU，这一点在AI评测上同样适用。

2、分任务类别，进行相对详细的AI评测。今天的AI评测集中于图片识别与处理上，然而视频的AI加速、游戏的AI赋能、语音类的AI任务，都需要不同的AI算力赋能方式。相对公允的评测方案，应该建立在对AI任务分门别类，构建一整套评测机制的前提下。

3、浮点计算是AI评测的重要方面。AI的精准度，会是未来提升用户体验的主要方向。比如说视频里的抠图、高精人像留色等等，这都需要浮点运算能力对AI的支持。这种直接提升用户体验的能力，应该纳入AI评测重点考虑的范畴。

4、从应用端的体验来评测AI算力。AI任务的最终目的是应用，那么从应用体验角度，通过完整的AI应用来测试加速效果，构建围绕用户的核心坐标系来反向测评硬件算力，也是一个可以探索的方案。让AI评测回到以用户为重心，显然比折中主义方案更加靠谱。

当然了，到底如何构建一个评测方案，将未来趋势、用户体验等维度完整纳入AI算力的测试范畴，是一项任重道远的工作。而同时我们也应该注意到，在AI芯片领域，绝不应该构建一个“算力跑分为王”的机制，毕竟消费者是否体验和热爱AI，才是最好的衡量标准。

AI的本质是“经世致用”：评测之外，更应该关注体验赛场

不同于CPU和GPU，AI算力不是在加速某一种恒定的运算任务，而是对千奇百怪的任务构建加速体系。

这或许可以看作AI和经典计算在本质上的区别。AI的本质目标是带来体验差异化。让消费者可以获得有温度、有感知、千人千面的终端体验。换句话说，AI在手机中的归宿，不是数据化表现，而是算力经历产品化之后带给消费者的综合体验。

而消费者最终的感受，其中很大一部分显然是无法用数据来衡量的。但这也不是说移动AI就不应该进行数据评测，而是应该认识到这一产业的复杂性，将那些不好量化的体验维度纳入考量体系。

AI最终能否让消费者体验到真正的价值，依靠的是手机的产品化能力和应用开发者。如果产品端、开发端没有将AI算力进行有效利用，那么再强的算力也是枉然。这就好像仓库里有各种名贵食材，然而厨师不会做或者不想做，那食客也只能望着仓库怆然涕下。

从用户体验出发，反向来思考手机AI的问题，我们会发现最重要的是算力-产品-开发者，三方必须构成有效的组织关系。产品端将AI具象成拍照、视频、游戏等底层能力，开发者将AI幻化成千变万化的脑洞，这样AI才有长治久安的生命力。

这条AI体验的赛道中，今天来看有三个要素构成了竞争力的核心：

1、算力与硬件设备一体化联动能力：为什么骁龙芯片也在强调AI算力，但是大部分安卓机的AI表现却参差不齐？原因在于手机制造商与芯片厂商是脱离的，从技术选择、开发上都将面临不同的问题。而高通需要保证的是全球市场的性价比和可使用性，也不会为单独厂商定制AI算力。于是我们看到，苹果和华为在手机产品的AI化上具有先天优势，搭载骁龙芯片的安卓机想要追赶，必须在硬件与芯片的一体化能力上下更大功夫才行。

2、开发生态的赋能与扶持：如何引导AI开发者走入算法的世界，构建脑洞清奇的AI应用开发，这是一项百川归海的开发者革命。其中需要的或许不仅是强劲算力的支持，还有开发平台的完善，以及商业生态的勾勒。

3、云端一体化能力：直到今天，到底用服务器还是终端来处理AI任务，还是一件具有争议的事情。从无延迟体验和安全性上来说，端侧AI是大势所趋。而从未来趋势上看，云端一体化的AI体验或许才是真正的答案。那么如何从架构、算力、开发平台等多方面保证云端可以在手机背后无缝合作，是值得深思的问题，这也是让用户收获AI体验的关键一环。

总而言之，AI的任务是“经世致用”，是让用户感觉到设备变得不同——而不是主动阉割各种能力之后的跑分与评测。

中国人是最了解考试这门学问的。今天很多给AI设计的考试，都还处在未经雕琢的原始阶段，颇有点让AI写八股文的影子。

一场完善的AI考试，是整个行业所强烈期待的，但是心急不能解决问题。无论是AI评测还是AI本身，都还是一场山高路远的冒险。

免责声明：此文内容为第三方自媒体作者发布的观察或评论性文章，所有文字和图片版权归作者所有，且仅代表作者个人观点，与无关。文章仅供读者参考，并请自行核实相关内容。投诉邮箱：editor@fromgeek.com。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

一枚芯片的赶考之路：究竟该如何看待“AI评测”？

下一篇