人工智能能耗问题存挑战高通如何巧妙应对？

当下，人工智能已经深入到经济和产业的每个细分领域，很多产品也已经具备了人工智能的能力，这是积极的一面。但同时，也给我们带来一些严峻的问题和挑战。随着人工智能的发展，能源消耗的越来越严重，有数据预测到2025年，全球的数据中心将消耗全球所有可用电力的20％。

此外，神经网络的能耗与其规模大小也成正比。资料显示，到2025年，神经网络的继续发展有望将其规模扩大至100万亿个参数，相当于人类大脑的容量，这样规模的神经网络将消耗大量能源。人类大脑的能效比当前最优秀硬件的能效要高100倍，因此我们应该从大脑得到启发，发展能效更高的人工智能技术。

人工智能的能耗问题具备两大挑战

在Qualcomm技术副总裁韦灵思看来，人工智能的能耗问题存在两个重要的挑战。第一，人工智能创造的经济价值和效益必须超过运行这个服务的成本，否则人们将无法盈利，人们开发的这些卓越的人工智能技术也就无所用处。不管是社交网络上按用户喜好排序，或者是个性化的广告和推荐，它的应用成本都需要控制在一定范围内。此外，人工智能还被应用到大型的智慧城市和智慧工厂中，同样需要控制成本。

Qualcomm技术副总裁韦灵思

第二，人工智能能效问题也是一大挑战，是因为在边缘侧也就是移动环境中，还存在散热的限制。比如说，我们不能在手机里运行能耗过高的任务，否则手机就会变得非常热。但同时，我们需要处理大量的人工智能工作负载，包括完成非常密集的计算分析任务、处理复杂的并发性即在一段时间内同时完成多项任务，还需要保证实时和始终开启，移动环境又有多种多样的限制条件，比如说终端的尺寸很小，又需要保证长久续航以支持全天使用。此外，受尺寸影响，移动终端的内存和带宽也都有限制。

“所以说，不管是从经济效益还是热效率的角度看，我们都必须要降低人工智能运行的能耗。” 韦灵思总结到：“我认为未来人工智能算法将不会由其所能提供的智能多少来衡量，而是要看这种算法每瓦时所提供的智能多少，这会成为未来人工智能算法的重要衡量指标。在此方面Qualcomm拥有很大的优势，低功耗计算正是我们一直以来所擅长的。”

Qualcomm在终端侧让学习更加高效

学习是人工智能发展历程中的一次重要变革，受神经网络的大幅发展所驱动，学习显著提高了预测的准确性。此外，韦灵思表示我们不应该从声音、信号等大量原始数据中人工定义特性，而是应该让算法从原始数据中自行学习提取特性，这是一个巨大的突破。神经网络的优点还包括，它能够自动探测物体，非常高效地共享参数，使部分数据更加高效，并且可以在现代硬件上快速执行。

当然，学习也有需要改进的方面，在韦灵思看来，最重要的一点是，卷积神经网络使用了太多的内存、计算能力和能源，这是现在急需改善的。此外，神经网络不具备旋转不变性、不能量化不确定性以及它很容易被输入侧轻微的改变所欺骗等。

为应对这些挑战，Qualcomm开展了大量的工作。在降低能耗方面，受人类大脑的启发，Qualcomm早在超过十年前就已经开始了脉冲神经网络的研究，这也是实现低功耗计算的一种方法。现在同样受人脑的启发，Qualcomm正考虑利用噪音来实现学习方面的低功耗计算。

韦灵思解释称：“人脑其实是一个充满噪声的系统，它知道如何处理噪音。我相信，我们可以更进一步利用噪音来为神经网络带来益处。在专业领域，我们将这种方法称为贝叶斯学习，这也是我们实现这一切的重要基础性框架。通过贝叶斯学习，我们把神经网络压缩得更小，使其可以更高效地运行在骁龙平台上。我们还通过使用这一框架，量化我们需要进行的计算处理的比特位。”

谈及这些噪音如何帮助我们进行压缩和量化时，韦灵思讲到，我们将噪声引入到神经网络，继而影响到各个参数和连接，然后这些扰动的参数将噪声传播到激活节点，也就是各个神经元。如果这些神经元充满了噪音、不存储任何信息、或对预测不能发挥任何作用，我们就对其进行裁剪。通过裁剪神经元，神经网络会变得更小，从而在计算机和骁龙平台上也将会运行得更快。

刚刚谈到了使用贝叶斯框架进行压缩与量化，事实上它还可以解决许多其他问题。如果神经网络只进行过面向某一场景的训练，例如一台自动驾驶汽车只接受过某一城市的相关训练，现在这台汽车来到另一个新的城市，你可以使用贝叶斯学习进行泛化。Qualcomm的思路是，能够对数据做出解释的最小、最简单的模型即为最适合的模型，这就是奥卡姆剃刀。贝叶斯学习还可以帮助我们产生置信估计，即量化神经网络的不确定性。当我们加入噪声，噪声将传播至预测，从而产生预测的分布区间，由此完成对预测置信度的量化。最后，贝叶斯学习可以帮助我们不易遭受对抗攻击，即通过输入侧的轻微改变来得到不同的预测结果。它也有助于保护用户的个人隐私，因为数据信息可以转换为模型参数甚至可以进行重构，使得数据具有隐私敏感度。所以说通过加入噪声，可以很好地帮助我们保护隐私。总体而言，贝叶斯学习可以很好地解决神经网络所面临的诸多挑战。

“随着压缩比越来越大，贝叶斯学习相比于其他方法的性能优势就越明显，其在移动平台上的运行也更为高效，这就是为什么我们认为贝叶斯学习尤其适合移动场景。” 韦灵思进一步讲到。

此外，据介绍，目前Qualcomm异构计算系统中包括了三个组件，分别是CPU、GPU和DSP。超过十年来，在每一个产品研发周期内，Qualcomm都从多个维度持续提升这三大组件。举例来说，在缓存结构（caching structure）上，Qualcomm不断优化内存工作方式；持续优化精确性，通过最低的能耗实现对精确度优化；优化计算管理，比如说当有一个计算任务，可以选择让GPU、CPU或是DSP完成，或者让所有组件共同完成。虽然目前只对单一终端上的计算进行管理，但Qualcomm有更远大的愿景，在即将到来的5G时代，Qualcomm将在万物互联的环境下，将计算放在由终端及云端组成的整个网络中运行，为网络边缘带来强大的人工智能系统。”

Qualcomm三层努力加速人工智能研究

在加速人工智能研究方面，Qualcomm也做了很大的努力，包括对计算架构、内存层级及使用层面的优化和提升。在计算架构方面，Qualcomm专注于优化指令类型和并行性，以及优化运行计算所需的精确度，贝叶斯学习可以帮助实现最佳的运行精确度。同样重要甚至更为重要的是内存层级。据估计，从DRAM迁移数据或将数据迁移至DRAM的功耗，是ALU运算（ALU Operation）功耗的200倍，因此，需要优化内存层级以降低数据移动的功耗。在使用层面，Qualcomm致力于优化硬件、软件和编译器，从而减少计算的冗余并最大化计算吞吐量和内存带宽。

韦灵思补充道：“由硬件、软件和算法构成的生态系统对我们来说至关重要。高效的硬件将不断演进，以适应在人工智能领域出现的全新算法。”

他进一步讲到：“我们关注如何在硬件上更高效地运行卷积神经网络，以及为高效运行神经网络而开发更高效的新硬件。在算法方面，确保算法在骁龙平台上的高效运行。这一切都需要通过软件工具来实现，也就是我们的骁龙神经处理SDK。大家可以将软件看成是连接硬件和算法之间的桥梁。比如说，你在骁龙平台上构建你最喜欢的模型，或进行你最喜欢的人工智能测试，当你将模型放到神经处理SDK中，这些可用的软件工具将帮助你进行压缩和量化，从而确保你的模型或测试在骁龙平台上高效运行。”

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）