科技的变化带领着人机交互的变化,而每一次科技的技术突破,都是为了让人们可以使用更为贴近“自然”的方式与机器进行沟通。随着人工智能的快速发展,如今的语音界面无处不在,我们可以在智能手机、电视、智能家居和其他一系列产品中接触到它。语音交互功能正快速的渗入我们的日常生活中,它的高速发展表明这项技术已经取代了传统图形界面交互方式之外的另一种选择,甚至有可能完全代替后者。
在听觉、视觉、触觉、嗅觉等感观中,听觉通道无疑是最为重要的。语言是人类传递信息、交流沟通的最主要手段,对于用户来说,语音交互的学习成本最低,也最为自然。因此,语音交互对于大多数用户来说是一种更自然的体验。语音交互可以显著减少用户学习成本,只需要简单地对着设备说话进行交互。而传统地图形用户界面,用户首先必须通过视觉来理解界面地元素,学习如何让操作进行交互。基于语音交互的产品,可能会使用户与该产品之间建立更深层的(私人)联系。即使在今天,如果你看一看亚马逊Echo智能音箱的用户评论,就会发现一些用户与Echo之间建立了亲密的关系,Echo对于他们与其说是一个设备,其实更像是一只陪伴宠物狗。
随着智能语音设备的快速普及,单模态的智能语音交互方式也出现了它“不举”的时候。譬如语音输入“我想看看路左边广场的背面大厦的照片”,需要一个描述非常准确的完整语句才能完成,甚至无法完成;而如果采用多模态的交互方式,只需要用手指向交互对象或者通过眼动追踪再叠加语音即可更加准确地实现上述交互目的,由此可以看出通过视觉方式可以有更好的指向性,如人们口头上经常说的“那、这”等代词在语义上容易产生多义性,使用手势就不会产生此类问题,但是通过语音有时候可以更准确的描述对象。而多模态交互就是把除语音之外“文字、视觉、动作、环境”等多种方式融合在一起交互方式,能耳目鼻口协同工作,主动提供服务,将更好更准确的完成人类所需的动作。
实际上,我们生活在一个由大量不同模态内容(文本、图像、视频、音频、传感器数据、3D 等)构建而成的多媒体世界中,这些不同模态的内容在具体事件和应用中具有高度相关性。跨模态任务也越来越多,涉及多个模态的数据的交互,例如图像和视频的检索,字幕,视频摘要,文本到图像和视频的预测与合成,语言驱动的时空动作定位,以及视觉常识推理等等。同理,这也将是未来人工智能发展的重要突破点,让机器全方位的识别所有模态内容,才能做到真正的同“通人性”。
不管是单模态的智能语音交互方式,还是未来可期的多模态交互,都需要给智能设备配置一颗强大的主控芯片。以国产芯片领先企业炬芯科技为代表,一直引领着智能交互芯片市场,推出了全新的智能语音平台ATS3607(D),在声音前处理和低功耗等方面都有着行业独家优势,已被广泛应用于教育、智能家居、智能音频等领域。炬芯科技在单模态交互芯片设计上拥有着二十余年的经验积累,相关产品广受市场认可。面对人工智能的时代跃迁,炬芯正向着更进一步的技术延伸发展。炬芯科技与2019年底抢先推出旗下了首颗多模态交互芯片:炬芯ATS3609(D),其拥有多麦智能语音、轻智能图像、手指点读双模态识别输入解决方案。炬芯ATS3609D 将语音交互、机器视觉和传感器三个模态综合起来,为强人工智能下的多模态交互提供可行的解决方案。充足的算力,超低的功耗、强大的可扩展性,将赋予智能机器更多的可能性。
霍金曾说过,在过去的20年里,人工智能一直专注于围绕建设智能体所产生的问题,即在特定的情境下,可以感知并行动的各种系统,在这种情况下,智能是一个与统计学,和经济学相关的理性概念。通俗地讲,这是一种做出好的决定计划和推论的能力。随着5G和IoT的时代到来,如何让机器拥有可满足人类的决定能力,以及足够强大的 学习和推论能力,这将是智能交互的核心关键所在。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。