随着社会进步和技术创新的日益加快,“黑科技”的产业运用持续加速,对人们生活的影响与改变也不断加深。
近期,业内领先的搜狗AI语音合成再突破,创新提出“StyleTTS端到端合成框架”,将语音合成技术再次向前推进一步,在准确传递信息之外,更重视个性化及情感表达,让合成的语音更具表现力,更“逼真”。搜狗联合搜狐新闻客户端于5月推出的演员柳岩同款明星“数字人”就是基于该技术的支持,实现了无缝切换河南、湖南、四川、陕西、东北等多种方言的能力。目前,该技术也为腾讯QQ浏览器“小说AI听书”功能提供支持,助力其实现了听书、听小说的全新升级。
搜狗语音AI业内领先,帮助“听见”更好世界
作为机器的“嘴巴”,语音合成已经被广泛应用于新闻播报、小说阅读、地图导航、人机交互等诸多场景中。从2010年以前经典的统计机器学习方法,到DNN/LSTM为代表的 神经网络,再到Tacotron/FastSpeech/Durian等具有更强建模能力的端到端模型,结合神经声码器的突破,语音合成技术的发展正在从“稳定可懂”迭代到“更高表现力和逼真度,甚至媲美真人录音的水平”。
搜狗AI语音合成有着雄厚的技术积累,2018年曾获得Blizzard Challenge语音合成挑战赛停顿和可懂两项子任务第一名,2019年推出首个真人变声功能实现“任意说话人声音(源)向指定说话人声音(目标)的实时变换”,展现了搜狗在语音表征学习、语音合成等领域的多个关键性技术突破。此外,以新华社AI合成主播“新小浩”和自有形象合成主播“雅妮”为代表的搜狗数字人也已升级至“第七代”,这些AI数字人的声音真实度、表现力已可媲美真人,展现了在多模态合成领域的行业领先性。
在此基础上,搜狗又提出了StyleTTS端到端合成框架,该框架主要包含Encoder文本特征编码、Prosody Extractor/Predictor韵律特征编码与建模、Decoder音色建模三大模块,通过不同人(声)的韵律模型和音色模型重组搭配,能够实现跨发音人的风格控制合成,并拥有抑扬顿挫的韵律节奏和丰富立体的情感表达。此外,模型还加入说话人特征编码、语种特征编码以及GAN对抗学习等经典方法,进一步提升建模能力。相较而言,传统语音合成技术的重点在于“信息的正确传递”,而搜狗AI语音合成技术除了正确传递信息,更重视个性化与情感共鸣,合成效果也具有更高的自然度、辨识度,同时还能实现对语音转换的风格、口音、情感等进行灵活选择与控制,从而满足不同场景的需求。
(图:搜狗StyleTTS结构图)
以对腾讯QQ浏览器“AI听书”的支持为例,区别于其他机器合成声音的机械式发音,搜狗AI合成语音节奏更分明、情绪更自然,能够更好的解放双眼,而除了堪比真人的高保真音色,支持“方言语音”、“动漫语音”等的选择,在读书过程中,用户还可以根据场景和心情进行播单设置、语速调节等个性化操作,这些都能够提供更好的使用体验,帮助用户“听见”更好的世界。
声音+产业构建,前瞻“布局”未来生活
“声音+”市场呈爆发式增长,已步入千亿量级市场。数据显示,在阅读领域,“看”已不是阅读的唯一方式,十个人当中就超过两个人在听书;在音频领域,有声书实现了从贡献流量到商业变现的路径打通,正在成长为喜马拉雅FM等各大音频平台的支撑或主流业务;在智能硬件领域,仅智能音箱一项,未来五年销量将突破3亿台超过PC规模……未来10 年,“声音+”整合产业规模将达到万亿美金级别。
随着智能社会的到来,声音作为最自然、最便利的人机交互方式,上接互联网、下接物联网、中间连接人工智能,既是出口也是入口,而作为“声音+”产业的基础设施之一,语音合成孕育着一个巨大的蓝海市场。
对此,搜狗已经进行前瞻性布局和产业化落地。在AI语音合成技术方面,围绕“自然交互+知识计算”这一AI理念,搜狗不断加大投入构建技术“护城河”,持续累积领先优势;在创新性平台方面,搜狗打造了“搜狗声咖”、“搜狗AI开放平台”等,基于语音技术提供语音识别、语音合成、语义理解、同声传译等AI服务;在产业落地方面,搜狗不仅积极推动与清华天工研究院等学术机构,与畅游、千龙网、学而思等商业机构,乃至于与黄子韬、梁宁等明星和意见领袖等的合作,运用了搜狗语音技术的搜狗AI合成主播也被广泛使用于传媒、法律、金融等各行各业。
随着时代发展与科技进步,智能语音将会变得越来越普及,得益于搜狗领先的人工智能技术,以及在语言领域、声音领域的强大积累,搜狗语音能够提供一整套科学、高效的“AI语音解决方案”,为人赋能,帮助人们更好的进行“有声创作”、帮助各种机构更好的提供“有声服务”,从根本上推动“声音产业”和“人工智能产业”的发展,从这个意义上来说,其未来发展具有广阔的空间。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )