近日,由国家工业信息安全发展研究中心举办的以“智融应用质惠未来”为主题的人工智能高质量融合与安全应用研讨会在京成功举办。会上,火山引擎作为通过国家语音及图像识别产品质量检验检测中心(以下简称“AI国检中心”)检验检测的优秀行业企业之一,其语音合成产品继获得语音合成增强级检验检测证书后,再次得到权威认可,荣获语音合成有声阅读及汽车行业性能A级评估证书,各项测评要求均已达到AI国检中心的最高等级标准,充分表明在火山语音支持下的语音合成技术能力已达行业领先水平。
双料证书展现
长期以来,火山语音面向字节跳动各大业务线提供行业优势的AI语音技术能力以及全栈语音产品解决方案,强力助推用户体验优化以及业务增长。目前团队的语音识别和语音合成覆盖了多种语言和方言,涵盖有声阅读、车载、语音交互、音视频、游戏、广告等多种应用场景。
本次参评的火山引擎语音合成产品为火山语音团队自主研发,采用了业内领先的生成式神经网络技术,并针对有声阅读和汽车车载领域的行业属性以及应用场景特性做了诸多优化,下面就随我一同感受下火山语音合成的惊喜效果吧!
https://lf3-speech.bytetos.com/obj/speech-tts-external/shipinV5.mp4
更多音色体验:https://lf3-speech.bytetos.com/obj/speech-tts-external/shipinV5.mp4
具体来说针对有声阅读场景,“在满足发音清晰、韵律连贯、语调起伏的要求基础上,我们研发了基于半监督学习的端到端风格控制声学模型;此外针对「副语言」现象进行了精细化的建模还原,实现了在有声书中常见的重音停顿、疑问反问、笑声哭腔以及各类叹息叫喊声等,为用户打造更沉浸式的听觉盛宴。”火山语音团队表示。
【音频版本】犹豫迟疑:https://lf3-speech.bytetos.com/obj/speech-tts-external/youyu.wav
傻笑:https://lf3-speech.bytetos.com/obj/speech-tts-external/shaxiao.wav
此外,面对看似常见但门槛却不低的车载场景,团队则采用了半监督情感模块,仅凭1小时的情感数据作为参考,就可智能分析出全量语料的情感类型和强度,让所有数据参与合成语音情感能力的建模,实现更显著、更自然和更细腻的情感表现力,在哪吒新车发布同期上线的活力动感、富有“人情味儿”的车载语音助手音色也得到了充分体现。同时团队还为车机场景专业名词文本分析提供了高效热修复机制,可在分钟级修复问题。
【音频版本】高兴:https://lf3-speech.bytetos.com/obj/speech-tts-external/gaoxing.mp3
娇蛮:https://lf3-speech.bytetos.com/obj/speech-tts-external/jiaoman.mp3
无论是有声阅读领域还是车载场景,火山语音TTS技术引擎都提供了端云一体的解决方案,让用户可以在无网环境下也能无缝衔接体验。对于移动端引擎,团队自研开发了业界领先的全链路神经网络模型,合成自然度接近云端效果且方案适配多平台,覆盖中高低端多类型芯片。
【音频版本】在线效果:https://lf3-speech.bytetos.com/obj/speech-tts-external/zaixian.wav
离线效果:https://lf3-speech.bytetos.com/obj/speech-tts-external/lixian.wav
目前火山语音,字节跳动 AI Lab Speech & Audio 智能语音与音频团队,将打磨多年的语音技术能力面向市场并通过火山引擎开放给外部企业,如今已覆盖汽车、有声阅读、金融、视频配音等众多应用场景,并助力多家行业头部企业实现AI 语音能力的应用与拓展,未来还将不断探索前沿科技与业务场景的高效结合,持续为用户体验和业务增长注入创新势能,以实现更大价值。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )