IDC 预计,2019 年全球智能家居设备市场出货量将达到 8.327 亿台,将同比增长 26.9%。蛋糕之大让业界一片欢腾,尤其是进入门槛较低的语音识别应用市场,吸引了众多 AI 创业公司的目光,市面上出现了多款针对语音识别的 AI 芯片,其中不乏思必驰、云之声等算法厂商,还有出门问问、若琪等终端厂商,语音 AI 芯片市场的竞争变得异常激烈。
近期,探境科技也推出了具有 AI 双麦降噪功能的语音识别方案,即 Voitist 音旋风 612。可能很多人对探境科技并不是熟悉,其实这并不是一家新的 AI 公司,而是在 2017 年就已经成立,只是公司初期在埋头研发,因此很少出现在公众的视野中。据其技术副总裁李同治介绍,“公司创始人鲁勇曾经在全球著名半导体公司 Marvell 担任研发高管,研发团队有着给苹果、三星、希捷、西数、特斯拉等国际顶级公司量产芯片供货的经验,公司的目标是为客户提供终端人工智能芯片及整体解决方案。如今,公司在北京、上海、深圳、杭州、合肥及美国硅谷都设立了研发基地,目前公司员工近 200 人,其中技术研发人员 150 人,平均研发经验在 15 年以上。”
在今年的 7 月份,探境科技就推出了首款 AI 语音识别芯片音旋风 611,并且已经量产,李同治介绍,“音旋风 611 支持多达 200 条命令词,能够覆盖家庭生活场景中几乎所有常见的语音控制命令;在识别率方面,不低于 99%的唤醒率,超过 97%的识别率,以及低于 24 小时 1 次的误唤醒率。适用于各种需要语音进行控制的应用场景,芯片内嵌领先的 NPU 架构,配合单麦克风即可实现 5-10m 远距离的语音识别,识别延迟小于 0.2 秒,不需要依赖云和网络,可在本地完成推理运算,音旋风 612 是 611 的升级版。”
AI 公司以技术取胜才能走得更远,探境科技能够推出这样的产品也全依赖于技术驱动。AI 应用需要软件和硬件共同实现,市面上的很多公司要么单独做算法,要么单独做硬件,这就容易出现软件和硬件匹配困难的问题,探境科技是在软件和硬件两方面同时研发,从而实现软硬件融合,包括芯片设计、结构框架、系统、算法等全部自主研发。在发布会上,探境科技负责人从硬件方面介绍了公司的独特技术存储优先架构,从软件方面分析了公司的三大黑科技。
“杀手锏”:存储优先架构
传统的处理器一般都采用冯·诺伊曼体系结构,计算单元和存储单元相互独立,每次运算计算单元将数据从存储单元中提取出来,处理完成后再写回存储单元中。近年来,处理器性能飞速提升,但是访问存储器的速度并没有相应的提升,所以访问存储器的速度无法跟上处理器消耗数据的速度,导致处理器的计算性能无法充分发挥出来,这就出现“存储墙”问题。
为了解决“存储墙”问题,探境科技推出了存储优先架构(即SFA架构),这是一种不同的技术路线。探境科技创始人鲁勇解释,所有 学习算法和 AI 芯片都面临一个问题,它们并不是要做卷积运算的乘法或加法,这并不是最难解决的问题,难点是在于有很多数据在重复使用,数据在存储器里的位置、相对关系、读取的性能会影响到算法运行的性能。而且数据的存储带宽要求很大,存储功耗很高。传统上的解决方式不考虑存储墙的问题,暴力增加存储单元,成本很高。我们用一种独特的芯片架构来推翻冯诺依曼体系架构,把数据读取的次数降低,降低数据的冗余,从而降低带宽的需求,通过算法和调度数据的方式,改进数据管理,在硬件上控制数据流,降低数据重复使用,通过软件和硬件结合,在芯片上降低资源的链接复杂度,这种架构我们称为存储优先架构,其实我们改善的是芯片本身的原因。”
从效果来看,鲁勇强调,“这种方法可以带来超高的能效比,数据访问可降低 10-100 倍,存储子系统功耗下降 10 倍以上,28nm 工艺系统能效超过 4T Ops/W。”
鲁勇将 SFA 架构称为真正符合商业应用的 AI 芯片架构,因为其采用成熟的设计方案,无需对底层器件进行修改设计,可以走商业化路径;通用性高,芯片面向的场景众多,必须支持多种算法才可以被商业化;同时易用性高,用户学习成本低,模型移植简单。
需要指出的是,一般 AI 芯片只针对某一神经网络进行运算,SFA 架构支持任何神经网络,而且可以调整参数。
存储优先算法既然如此高效,为什么其它 AI 公司没有开发?鲁勇的解释是,这是一项有技术门槛的技术,不仅在技术上需要要懂数学原理、架构、数据管理知识,同时需要有丰富的芯片设计经验,综合起来才能做到高效率,这些都是探境科技所具备的。
如果说存储优先架构是探境科技在硬件上实现的优化,软件上又做了哪些工作?李同治向我们做了详细介绍。
三大“黑科技”加身,出货量过百万
李同治将探境科技在软件上的创新归结为三大“黑科技”,分别是 AI 降噪算法、高计算强度神经网络 HONN、基于 FCSP 的端到端 AI 双麦算法。
黑科技之一:AI降噪算法
目前在智能家居应用中,语音识别面临环境噪杂或者距离远,从而导致识别不清的难题,智能家居设备厂家急需一种能够准确过滤噪音,并提取目标声源的方案。
在语音识别技术中,信噪比是衡量识别的目标声源与其它干扰声源强度比值的对数。一般将信噪比低于 15dB 的称为噪声环境。信噪比越低,识别难度越大。在语音识别的研发过程中,一个完整的识别链路可以简化为麦克风输入、降噪处理、语音识别、识别结果输入四个环节。想做好识别,首先要在降噪处理上下功夫。
探境科技自研了 AI 降噪算法基于 学习,不仅能够处理稳态的噪声,非稳态的突发性噪声也能快速过滤。为了验证探境 AI 降噪算法的有效性,技术人员将一批信噪比在 3dB 左右的语音数据送到一个知名的云端公开语音识别引擎做了测试,降噪后比降噪前提高 30%识别准确率。
黑科技之二:高计算强度神经网络HONN
在对声音进行降噪处理之后,就进入到了语音识别环节。在这一环节中,神经网络模型所需的算力决定了模型的描述能力,同时也决定了模型处理能力和识别率的上限。在传统的语音识别算法里,国内很多语音识别芯片都采用了全连接操作 DNN 技术。但是相对全连接操作,卷积操作能够提供更高的计算强度,且卷积运算与人类大脑负责感知模块的处理方法类似,能够提取满足大脑认知的本质特征。
探境将其计算机视觉中的一些经验迁移到语音识别中,在语音识别算法上加入了更多的卷积操作,重新设计了一个高计算强度的神经网络,即 HONN(High Operation Neural Network)。
李同治解释,“对比发现,HONN 仅需要 350k 的存储空间,而 DNN 需要 1.6M 的存储空间,更低的存储需求意味着成本更低。同时 DNN 与 HONN 所需的算力相反,处理高强度模型单帧时,HONN 需要超过几百兆 OPS,而一般的 DNN 模型仅为个位数的算力,两者相差超过 30 倍。对于神经网络来说,模型所需的算力决定了模型识别率的上限。相对安静的环境下两者之间差别不大,但是当信噪比进一步降低时,基于 HONN 的方法识别优势非常明显。”
在实际测试中,在抽油烟机的噪音中(大约 70 分贝),HONN 方式下的识别信噪比约为 3~5dB,单灯模型的识别效果非常准确。
黑科技之三:基于FCSP的端到端AI双麦算法
信噪比还有一种更严苛的情况,就是 0dB 和负 dB,0dB 意味着噪声和信号强度一样,甚至噪声比语音信号还要强,面对这种应用场景,探境科技采用了基于 FCSP 的端到端 AI 双麦算法。
传统的麦克风阵列处理算法有几大缺点,从而造成处理效果并不理想。“为了克服传统处理方式的缺点,我们设计出了基于 FCSP 的端到端 AI 双麦算法。”李同治对记者表示“FCSP(Frequency Complex Subspace Projection)是我们自研的频域复数子空间投影算法的简称,这个算法直接输入阵列信号,输出的是最终的识别结果,中间部分全部交给基于 学习的 AI 算法来处理,不再使用传统的数字信号处理方法。信号增强与识别模块整体以降低识别错误率为目标进行优化,避免了语音增强与语音识别模块错配的问题。”
另外,在模型训练期间,采取了“注意力增强”的学习方法,能够灵敏的检测到唤醒词和命令词,即使干扰信号与目标信号方向接近,也能灵敏的进行唤醒和识别。李同治做了一个形象的比喻,“这个类似于在一个嘈杂的环境里面,如果有人喊自己的名字,一下子就能反应过来。”
李同治强调,“我们采取了频域复数子空间投影,抗噪性能强,在信噪比为 0dB 时,相对于传统的处理算法,相对识别错误率降低超过 20%。”
通过 AI 语音算法+HONN 神经网络模型来提升识别率,再通过 FCSP“端到端”的双麦处理算法简化识别流程,降低最终识别错误率,探境的语音算法实现了跨越式的升级,加上通过存储优先架构打造的 AI 芯片,探境科技可以为客户提供芯片、算法俱全的 Turn-key 方案。
除了支持 AI 双麦的 Voitist 音旋风 612 之外,还包括在离线一体的 Voitist 音旋风 621、以及语音芯片的旗舰产品——可支持本地 NLP 的音旋风 7 系列。探境目前拥有约 30 家合作伙伴,既有美的、海尔等智能家居制造大厂,也有世强科技在垂直领域颇具影响力的渠道商,知名智能家居制造商阿凡达智控也刚刚与探境达成合作,目前,探境科技的产品出货量已达百万级别。
未来规划:从语音到图像,离线在线一体方案已在路上
近两年,边缘计算大热,随着数据量不断增大,云端的承载压力越来越大,因此终端客户寻求在边缘完成部分数据处理,从而分担云端的压力。尤其在 AI 领域,未来对延迟和带宽提出更苛刻的要求,探境科技也认为,真正的人工智能应用场景,是不需要借助云端服务等做远程支持的,只有将人工智能做到终端上来,让每个设备都具备人工智能,才是现阶段“人工智能”的进化。
目前厂商多采用在线方案,就是打一个数据包放到云端,而离线方案是语音识别算法在本地,音乐等播放内容还是放在云端。据鲁勇透露,未来探境还会将语音产品进行二次升级,推出更多在线离线一体化方案。探境科技采用 HONN 神经网络模型,意味着处理模型变小,放在边缘的存储容量变小,成本也随之降低。关于用户对在线方案和离在线一起方案的选择,鲁勇表示,离线在线一体方案和在线方案两种会共存,毕竟用户的想法不同,选择也不同。
关于产品规划,鲁勇还表示,“探境不仅仅是一个语音芯片公司,而是一家语音、图像整体结合的 AI 芯片公司。除了语言市场之外,我们还看好工业视觉、新零售、安防、辅助驾驶等市场。我们的图像芯片在 2019 年 Q4 就已经流片成功,在某些应用中已经开始产生营收。AI 芯片的蛋糕非常大,探境希望可以联合上下游一起,开发生态,开放 SDK 和工具链,不仅是大家可以直接使用我们的产品,我们也希望有大量的合作伙伴,完成更多的场景开发。”
鲁勇认为,AI 芯片这一领域不像手机 APP 那样,瞬间可以凭一款应用获得数百万的用户,AI 芯片更像马拉松长跑,比的是耐力,而不是冲刺速度,在这场比赛中,不是要看谁跑得快,而是要看谁有潜力到达终点,谁在中途不走岔路。探境作为创业公司,虽然进入市场比较晚,但是这也是一个拐点期,市场教育工作已经完成,后面市场竞争还是看核心技术,我们的优势在于软件和硬件都自主研发,因此算法移植非常快,我们将从智能家居领域开始,先打好地基,再逐渐加码,等待市场大潮的到来。
作者:郭云云
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )