9月19日,百度地图发布内部代号为“百雀灵”的“语音定制功能”,这是全球首个地图语音定制产品,用户只需在百度地图App上录制20句话、20分钟左右即可生成个人完整语音包,接着在使用导航和景区导览等地图功能时,就能使用定制语音。
2018年,地图掀起了一股明星语音包的潮流,当时我曾给国内几个地图App提过产品建议,即让每个用户可以定制自己的语音包,比如爱人的,恋人的,孩子的,不只是我想到了这个功能,很多人都曾有过这样的提议,听上去很酷。
当时地图App都反馈,这个功能建议很好,但技术层面很难实现,制作明星的语音包要在录音棚录制大量的语音素材,再花几个月时间合成,这样的长周期合成模式很难被用于个性化定制。
一年多后,百度“语音定制”功能上线了。体验究竟如何呢?
体验远超预期
作为一名单身汪,我现在还找不到可以录制语音素材的心爱的人,所以,我选择自己给自己录制语音包(好惨的感觉)。
进入百度地图用“小度小度”启动语音助理说“录制我的语音”或者直接点击“语音定制”按钮就可以进入录制界面,第一步需要选择自己是男生还是女生,以及男童声还是女童声,为什么要区别身份呢?按照百度地图事业部总经理李莹的说法是:“儿童音录制十分困难,比如孩子有时候发音不标准、断句不准确,甚至可能有些听起来不像普通话。”这需要用对应的技术去针对性解决。
接着就可以选择按照百度地图的推荐文本、卡通文本、电影台词之类的进行录音了,一共需要录制20个句子,担心用户不知道怎么正确地拼读百度地图还提供了“自动领读”功能,非常贴心。录音的过程要注意一下:一定要在相对安静的环境,避免杂音干扰百度地图的判断,同时注意距离嘴巴跟手机的距离、语速语调、声音大小等等。只有给百度地图更好的素材,它才能更好地模拟你。
几分钟就录制完成了,每一段话效果如何百度地图会有提示,你可以再重录。
最后可以给自己的语音包设置一个封面和名称,上传,等待百度地图云端渲染生成,这大概需要15分钟。
在等待的过程中,我顺便看了下,百度地图语音定制还有一个分享机制,你不只是可以使用华晨宇、秦岚等明星以及各地交通台主持人的定制语音包,也可以看到一些用户的名人模仿语音包、家乡话语音包、原生语音包或者童声语音包。
我的语音包生成后,自己听了下觉得有点陌生,分享给朋友,朋友听了说:这就是你的声音,谁让你普通话这个水平呢……
将语音包下载,导航什么的就可以直接用了。
我也可以将自己的语音包发给朋友,或者分享给所有人。我的语音发布后,短时间内就有几十个人用(完全超出我预料),截至目前,百度地图用户主动分享的语音包正在快速增加中。
具备刷屏气质
体验完了,我对百度地图语音定制功能有如下结论:
1、具备很高的可用性,用之前我还担心声音可能会走样,体验了发现确实可以模拟每个人的声音;
2、流程简单,门槛很低,快速生成,小朋友都可以轻松录制自己的语音包;
3、具有很强的社交潜力。很少有人像我这样录制了自己用,一般使用场景是用家人、爱人、情人声音来定制,或者自己定制了发给他们。百度地图引入了名人模仿秀等运营机制,用户也可以主动将语音包公开分享给所有人,这些都会增加这一功能的社交属性。
我认为,百度地图“语音定制”具备刷屏气质,即将到来的国庆长假是出行高峰期,百度地图在此时此刻推出这一功能,显然是希望抓住这个出行服务的黄金营销节点,到时候更多人可能会玩儿语音包,更多人会因为语音包选择百度地图。
跟很多刷屏App不同,“语音定制”不会是一个昙花一现的功能,这个功能可能比明星语音包更有爆发力。明星语音包圈粉,具有很强的营销价值,然而其定制成本相对较高,支持明星有限,几年下来,百度地图和高德地图的明星语音包数量都只有十来个,用户却又众口难调。百度地图的语音定制功能,让用户随心所欲地定制想要的人的声音,这是有刚需的。
在7月底的GMIC上,李莹曾透露,百度地图智能语音助手用户数累计突破2.5 亿,一年增长1.5 倍,这表明,用户通过语音与地图交互的习惯已在百度地图养成,不难理解,用户在开车时双手不便,语音是最安全、最便捷的操作方式。
语音是地图服务的标配,用谁的语音?可以有很多文章做。高德地图率先做了名人语音,前段时间做了魔兽世界主题的语音,走IP定制路线。百度地图在“人有我有”的基础上,推出“语音定制”,做到了“人无我有”,高德地图是否会跟进尚未可知,但可预见,在一个时间窗口,这个功能会成为百度地图的杀手锏。
有人可能会联想到前段时间爆发的ZAO。ZAO基于用户人脸合成视频刷屏,引发了人们对隐私的担忧,比如人脸数据会不会被泄露?有前车之鉴,百度地图在隐私上充分做到让用户放心,其遵循业界最标准、最成熟的安全规范,采取高级别的信息安全保护措施,最大程度保障每个用户的安全隐私。用户分享自己的语音包,也是基于主动授权。如果不分享语音包不会被用于任何其他地方,放心地用吧。
长板效应凸显
百度地图率先实现“语音定制”功能,有内在的逻辑。
语音对地图服务很重要,但是车载环境噪音等问题明显、用户指令复杂度很高,因此要实现真正的智能语音交互并不容易,这需要极强的语音识别、自然语言处理、语义理解等技术,每一种技术实现都有很大的挑战。
背靠百度的AI技术优势,早在2017 年,百度地图就结合AI和语音、语义技术,实现了语音交互覆盖用户操控全流程,2018 年正式确定了“新一代人工智能地图”的定位,强化更准确、更丰富、更易用三大特点。
百度智能语音技术具有“听清、听懂、满足”三大特性,实现了与导航的 结合。在2018百度AI开发者大会上,百度CTO王海峰对百度地图说:“我要从三里屯的团结湖地铁站出发路过望京的家乐福然后再去南锣鼓巷最后到我家,我要红绿灯少的不堵车的最快的路线,你帮我路线规划一下吧。”百度地图语音助手精准识别、理解了长达60多字的服务请求,自然流畅地提供了导航服务,这体现出两点,一个是百度语音技术优势,二个是百度语音技术与地图实现了很好的整合。
这一次推出的“语音定制”,技术难度同样非常大。
语音的合成看上去只有几步骤,二十分钟的事情,实际上却是非常非常难的。传统明星语音包定制需要在大库基础之上录制1000到2000句语音。百度语音定制只能通过20个句子,来理解用户的音色、风格、情绪、语调、语速、习惯——要用户录制太多、花时间太多,门槛高了就没意义了。
传统明星语音定制要在专业录音棚录制几周时间,现在用户各自的环境变得非常复杂,噪音是免不了的问题,如何降噪,是一个难题。
原先合成明星语音包是一个庞大的团队针对一个人来做定制,现在是将这个流程变得标准化、大众化和自动化,生产周期则从原先的数月压缩到数分钟,技术挑战可想而知。
儿童录音是一个重要的场景,然而儿童往往会面临发音不清晰、停顿不规律、普通话不标准等问题,比成人的录音更难处理。
百度地图基于百度大脑的AI能力,成功克服了这些难题,百度语音首席架构师贾磊在发布会现场进行了解释:“百度地图语音定制功能基于百度独创的说话人韵律迁移技术Meitron,其特点主要体现在发音人音色转换,多情感朗读和韵律风格迁移三个方面,从而让个性化语音合成的定制门槛大大降低。”
就是说,百度地图语音定制功能不是从0到1的技术,而是百度积累多年的语音技术,现在被应用到地图这一黄金场景,厚积薄发。
ZAO当时刷屏不久,服务器就宕机了,因为视频合成要大量的服务器计算资源,百度地图可以在15分钟制作视频,全国很多网友同步在玩却不宕机,正是基于百度“春晚不宕机”的技术实力,计算力不存在任何瓶颈。
每个人都能快速定制自己的语音包,AI技术的成熟度已经远超我们预期,百度地图率先上线“语音定制”功能,即是得益于百度的AI技术优势,同时也与百度地图2017年就开始布局的AI战略有关系,李莹说:“智能语音交互+地图服务已成为百度地图的杀手级功能。”今天在AI语音技术成熟后,百度地图推出“语音定制”是水到渠成的。可以预见,未来百度地图在声音这件事儿上,还会玩出更多花样来,让地图应用充满更多可能。
不只是语音交互技术,百度地图很多功能后面都有AI 技术,比如百度地图首创智能定位功能,能够在GPS 信号极弱的场景下,为用户提供持续的定位导航服务,用户在高架、隧道等场景中也可正常使用;再比如百度地图在业内首创的精准规划功能,实现了上帝视角的全局路线导航规划,帮助用户提升出行效率。
百度地图不只是在C 端将AI 技术用来优化产品体验和创新产品功能,也将AI 技术用于地图数据生产中,包括数据采集、标注、上线、更新,在7 月的百度AI 开发者大会上,百度地图宣布80%数据采集环节实现了AI 化,成为业内AI 化水平最高、搭载的AI 技术最强最丰富的地图厂商,不只是大幅降低了地图成本,提高了数据生产效率,也让用户体验更准确、更丰富和更真实。
作为“新一代人工智能地图”,在即将到来的5G时代,伴随着IoT、边缘计算、智能驾驶等技术和应用的普及,百度地图的AI长板效应将得到进一步释放,真正意义上成为基础设施。
“语音定制”功能的上线,是一个里程碑。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。