西安交大任鹏举:面向自主智能体的计算架构思考

进入工业4.0时代后,机器人由传统数字化、自动化、智能协作演进为自主智能体。智能驾驶、无人机、机器人为代表的自主智能体,以智能边缘、计算机视觉、自动控制等创新技术作为支撑,将面对复杂、动态、开放、非完整环境的挑战。

西安交通大学人工智能与机器研究所副所长任鹏举在“UP·2021展锐线上生态峰会”上,分享了面向自主智能体的高效计算架构思考。

  自主智能体需要全新计算架构

自主智能体在解放生产力的同时,对现有的计算架构也提出了新的设计要求。任鹏举表示,面向自主智能体的计算架构,需要结合系统、模型、算法和计算架构进行整体性的思考。从应用系统中发现问题,从模型和算法方面找到高效解决方案,通过计算架构的创新,部署在移动智能端,从而实现机器的自主智能。

对典型的自主智能体来说,它在不同信息的处理阶段有着不同的计算要求。根据OODA理论,自主智能体有观测、感知、决策和控制几个信息处理层次,。不同层次,对计算架构又有着不同的要求。

以无人驾驶车为例,一台无人驾驶车拥有丰富的传感器,包括:激光雷达,多个摄像机以及GPS、IMU惯导等。面向工业领域的AGV,也有丰富的传感器,包括:激光雷达、摄像机、 传感器和单线激光雷达等。不同的传感器拥有不同的处理精度要求和帧率要求,需要完成传感器之间的数据融合。具体涉及到传感器的处理到感知、决策规划、人机交互以及底层硬件的控制。

传感器处理属于计算密集型,需要大量的向量和矩阵运算。在决策规划方面,是以控制为主的标量运算。在底层控制方面,又有条件执行、条件判断等等基本操作,因此异构计算是未来自主智能体的基本计算形态。

因此,移动智能体在不同的处理层次方面,对数据的处理类型有不同的要求。特别是在感知层,它涉及到大量的数据并行运算,往往会成为AMR信息处理的瓶颈。

新一代AI加速器硬件架构设计思路

基于这些思考,西安交大在今年4月份,完成了一款多核AI芯片处理器HIPU200的设计。该芯片采用28纳米的工艺流片,拥有13个计算核心,外加两个DDR控制器和PCIe,构成了4×4的2D-mesh的这样一个多核拓扑结构。整颗芯片可以提供13T的算力,在RISC-V的指令集基础上,进行了面向AI计算的向量和矩阵指令的扩展。并采用全局异步局部同步的时钟分配方式,,减少了clock tree的布局、布线的难度。

HIPU200还采用了自研的片上互连网络,支持核心的线性扩展和多核之间高效的传输。针对在神经网络计算中,涉及到的大量固定节拍和工作内容的向量和矩阵的运算,设计了聚合指令提高效率。聚合指令的扩展,减少了取指和译码的开销,同时提供了高效的数据级并行。

对于标量计算,HIPU200采用了分布式指令队列,包含两个ALU,一个乘除法运算单元和一个地址生成单元。向量和矩阵运算单元采用定序执行的方式,并根据对数据并行度的要求,采用了定制的片上向量存储器,为向量、矩阵计算单元(VMU)提供海量并发的数据支持。

同时,HIPU200设计了定制DMA单元,来完成数据结构的重组,以及DDR数据的高效访问。除了高效的计算单元以外,为了支持多核之间的协同,设计了高效的片上网络来完成核间的高效协同工作。

任鹏举提到,HIPU200的性能已经过了中国电子标准化研究院的第三方权威测试,并完成了无人驾驶的应用验证。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

Baidu
map