(搜狗王小川在香港RISE科技峰会上展示虚拟主播)
2018年7月11日,央视主播“姚雪松”播报香港RISE科技峰会相关新闻的视频出现在主演讲台上方的大屏幕上。
他来了么?没来,是搜狗的王小川带“他“来的。这是全球首个虚拟主播。
搜狗使用姚雪松1.5小时的音视频数据,结合语音、图像等多模态信息进行联合建模训练,输入一段RISE大会的文字稿,可以快速预测生成与真人无异的播报效果。
机器能够以“人”的形象如此轻松地播报新闻,背后是搜狗多年以来在AI上积累的技术实力。 7月份搜狗在Blizzard Challenge 2018上获得语音合成大赛冠军,而在上个月,搜狗的视觉研究团队获得了CVPR WAD2018 挑战赛冠军,早在去年,搜狗在机器翻译领域就已经取得突破,在WMT2017收获冠军,频频获奖的同时,各项AI技术不断推出,并逐步落地,搜狗的语音识别准确率已超98%,日均语音输入调用次数峰值达4亿次;唇语识别在垂直应用领域中的准确率超90%,以语言为核心,搜狗已逐步建立起独一无二的人工智能数据和技术壁垒。
提及本次发布的虚拟主播的技术难点,该项目的技术负责人表示:“最大的难点在于,让机器仅使用一段文本,来预测生成逼真度极高的视频,要保持视频中主播的音频和脸部表情、唇动能够自然且一致,做到如此逼真非常难。”目前市面上还没有类似的产品,通过领先业界的语音合成和图像生成技术,搜狗率先实现了虚拟主播目前的逼真效果。
虚拟主播在技术上的实现意味着AI具有了更丰富的表达方式,从文字表达走向音视频的富媒体表达。
虚拟主播技术的应用场景非常广泛。首先,作为具备视频内容生产能力的一项技术,该技术可以运用在诸如新闻、媒体内容等场景中,自动实时快捷地生成富媒体内容。
其次,虚拟主播技术还能根据用户上传的单张人物图片(明星、朋友、家人等)实时生成该人物的虚拟主播形象,用户可以与其面对面交流。
结合搜狗语音交互系统知音OS能力,我们可以让虚拟主播具备交互能力,使得该项技术可以应用于教育、医疗、客服等多个行业,节约大量的人力成本。如果用于教育行业,虚拟主播可以成为脾气很好的老师,不厌其烦地一遍一遍帮助用户进行发音口型指导。
此外,还可以应用于各种具备交互能力的智能软硬件。如果用于带屏幕的智能音箱,虚拟主播就可以发展成为虚拟私人助理,用户可以从单纯与声音的交互变成与一个逼真的虚拟人物的交互。
虚拟主播可能还会催生具有情感的交互App,比如帮助粉丝和爱豆实现“面对面”交互的追星App;上传用户自己喜欢的形象,结合搜狗的问答技术,可以与之进行定制化问答的陪伴App等。
虚拟主播究竟会以何种方式渗入我们人类的生活尚不可知,或许有一天将打破次元壁和时空无处不在;未来,不管是银行服务,还是电视节目,或是演唱会上的嘉宾,或许都可以看到它们的身影。
这位技术人员说:“后续,除了优先提升人机交互的体验外,我们也会继续优化虚拟主播的真实感,并在虚拟主播情感表达上做更加深入的研究。”
他解释说搜狗这次展示的虚拟主播还没有添加“情感”,还显得比较生硬。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。