从电脑还是离不开物理按键键盘开始,到手机、车载显示器,点触即可,再到后来,一种新的交互方式随着智能音箱的普及刷新了我们的生活,它就是智能语音交互。连屏幕都不用看了,想听啥歌张嘴就行,真正解放双手。很多人也许会新鲜的觉得,这种交互方式会是未来的趋势,其实并不是,未来最好的交互方式会是什么呢?毋庸置疑它肯定比智能语音更高级,它就是多模态交互技术。
大部分听到多模态的时候,也许会有点蒙圈,因为这个词确实没有智能语音那么好理解。这个创新概念是在 2015 年 12 月,图灵机器人团队推出 Turing OS 机器人操作系统时提出的。手机有操作系统,机器人也要有操作系统。Turing OS 机器人和人之间的交互方式,就叫做“多模态交互”。模态也就是英文里的“modality”,翻译过来就是感官。而多模态就是把“文字、语音、视觉、动作、环境”等多种方式融合在一起。说白了,这个交互的本质就是“让机器也有感情”。
接下来,让我们通过上面的一张图片了解多模态交互技术赋予机器的 学习能力到底有多强。如果我们用 学习来看上图,会生成这么一句话:一个棒球运动员在扔一个球。为什么会生成这么一句话?比如,我们发现模型“看”成这个图片的时候,它实际上先是注意力集中在棒球手套这个地方,这是一个特征表明这是一个棒球运动。随后当计算机注意到跟广的区域的时候,它会提出这是个运动员。再往下,当AI模型注意到一个大腿扭曲的姿态的时候,它会认为这是一个人的动作,凭这些,计算机会认为这是一个人扔球的动作,虽然这个球的占的整面积非常小,但是因为语言模型在语义上的驱动,使得这个球也能够被识别出来,最后形成一句完整的有意义的话。这就是跨越视觉和语言两个模态,从图片到文本描述生成的过程。
想要让机器拥有如此强大的 学习能力,让它听明白和看明白人类的动作和需求,离不开机器需要一颗强大的硬件芯片。强人工智能主要是指能够学习知识、思考问题和解决问题的的通用智能,机器具有多通道的知觉并且具有意识,在各方面都能和人类比肩。人工智能如果需要在生活中有更好的体验,我们希望它能像人体一样,能耳目鼻口协同工作,主动提供服务。
经过半个世纪的发展,在近十年,人工智能技术步入了发展的快车道,高性能的计算芯片甚至 AI 芯片、海量的数据积累和优秀的软件算法都在推动人工智能向更深处不断发展。炬芯科技在单模态交互芯片设计上拥有多年的经验积累,相关产品广受市场认可。面对人工智能的时代跃迁,炬芯正向着更进一步的技术延伸发展。国产芯片核心玩家,声音前处理专家炬芯科技抢先推出旗下首颗多模态交互芯片:炬芯ATS3609D,是拥有多麦智能语音、轻智能图像、手指点读双模态识别输入解决方案。炬芯ATS3609D 将语音交互、机器视觉和传感器三个模态综合起来,为强人工智能下的多模态交互提供可行的解决方案。充足的算力,超低的功耗、强大的可扩展性,将赋予智能机器更多的可能性。
随着AI技术的发展,特别是人机对话、文本生成、情感智能技术的提升,我们开始逐渐进入到人机融合、多模态智能交互的产业时代,通过大规模多模态交互与对话技术,我们能够对数字世界,比如银行帐号、各种各样的数字资产进行管理,甚至还能通过AI更好的在情感世界和物理世界进行沟通,希望随着人工智能尤其是NLP和其他多模态智能的发展,我们可以做到真正的人机融合。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。