所谓“模态”,英文是modality,用通俗的话说,就是“感官”,多模态即将多种感官融合。
目前的人机智能交互比如语言控制不如屏幕控制那么精准,很多时候会误判指令和错误唤醒,比较语言充满了不确定性;再比如,语音交互的物联网设备还是缺乏主动服务的能力,只是换了操作方式而已,用户体验没有本质提升。
假如我们把“模态”通俗地理解为感官,那么智能音箱就是只具备听觉模态的物联网设备,而加载AI分析能力的摄像头可以视为视觉模态的物联网设备。把听觉、视觉甚至更多模态组合到一起,多模态物联网也就诞生了。
目前的AI设备中感知模态主要包括三种。第1种是、语音交互,包括语音指令控制、语义理解、多轮对话、NLP、语音精准识别等领域;第2种叫做机器视觉,包括自然物体识别、人脸识别、肢体动作识别等;第3种则是传感器智能,包括AI对热量、红外捕捉信号、空间信号的阅读与理解。
把这三种东西融合在一起,物联网设备就可以在单纯的能听会说之外,同时还用摄像头观察、用传感器判断。而比较前沿的多模态感知还包括机器嗅觉,机器触觉和情绪理解等内容,但目前还没有落地产品。
目前多模态交互的主要应用场景:
场景一:多模态AI交互技术投射在物联网设备上,大概就是用机器视觉技术进行嘴唇识别,来分离语音交互指令。尝试通过用机器视觉来读取说话人的唇语和动作,来判断每个声音指令的来源。
场景二:多模态空调。在一些新的智能空调解决方案中,空调会在语音交互的基础上通过机器视觉来判断用户的位置,提供智能送冷,并且会结合传感器判断屋内温度和湿度,提供更精准的环境方案。
场景三:多模态电视。今年电视背后的AI平台战打得风生水起,把机器视觉技术引入电视成为了新的趋势。通过机器视觉来让电视观察屋内照明情况、用户与电视的距离,电视可以主动调节屏幕光线强度,输出比较护眼的模式。还有的AI应用是让电视在观察到儿童看电视后主动开启童锁。
据媒体报道, 2019年年底国产芯片核心玩家炬芯科技隆重举办了TechLife开发者大会,以“多模态交互技术”为主题,在人工智能的大背景下探讨多模态交互技术的落地和发展,同时还邀请了阿里达摩院、喜马拉雅、玩瞳科技、CEVA 等多位技术大咖,共同探讨行业前沿技术,现场人气爆棚,可见炬芯科技对未来趋势有着独特的预见性,这也是多年来行业领先致胜竞品的重要原因之一。
人机交互正在从键盘鼠标的交互转变成语音视觉等多模态交互。交互门槛的不断降低,给交互体验带来了明显提升。
为实现更优质交互体验,炬芯作为一家芯片设计厂商的也在持续深耕技术,希望用更优质产品给智能机器赋能。炬芯推出 ATS 3607、 ATS 3607D、 ATS 3609、 ATS 3609D 四款多模态智能交互芯片,充足的算力、超低的功耗、强大的可扩展性,将赋予机器更多的可能性。
其中,炬芯 ATS 3609D,多麦智能语音、轻智能图像、双模态识别手指输入解决方案。将语音交互、机器视觉和传感器三个模态综合,为强人工智能下的多模态交互提供可行解决方案。
AI 多模态交互技术已经成为人工智能交互的必然趋势,我们也期待着炬芯多模态交互芯片平台能在更多的场景中应用开来,赋予机器更强的智能属性,用更加像人的智能机器给大家带来更好的服务。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。