语音大模型“国家队”再添一员，趣丸科技与港中大（深圳）发布首款开源模型MaskGCT

10月24日，趣丸科技宣布与中国香港中文大学(深圳)联合研发的语音大模型“MaskGCT”正式开源，面向全球用户开放使用。区别于传统TTS模型，该模型采用掩码生成模型与语音表征解耦编码的创新范式，在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果。

据介绍，MaskGCT在三个TTS基准数据集上都达到了SOTA效果，超过当前最先进的同类模型，某些指标甚至超过人类水平。显著特点如下：

1、秒级超逼真的声音克隆：提供3秒音频样本即可复刻人类、动漫、“耳边细语”等任意音色，且能完整复刻语调、风格和情感。

2、更精细可控的语音生成：可灵活调整生成语音的长度、语速和情绪，支持通过编辑文本编辑语音，并保持韵律、音色等方面的极度一致。

3、高质量多语种语音数据集：训练于中国香港中文大学(深圳)和趣丸科技等机构联合推出的10万小时数据集Emilia，是全球最大且最为多样的高质量多语种语音数据集之一，精通中英日韩法德6种语言的跨语种合成。

据介绍，MaskGCT(Masked Generative Codec Transformer)是一个大规模的零样本TTS模型，采用非自回归掩码生成Transformer，无需文本与语音的对齐监督和音素级持续时间预测。其技术突破性在于采用掩码生成模型与语音表征解耦编码的创新范式。实验表明，MaskGCT在语音质量、相似度和可理解性方面优于当前最先进的TTS模型，并且在模型规模和训练数据量增加时表现更佳，同时能够控制生成语音的总时长。MaskGCT已在中国香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统Amphion发布。

该模型研发团队在语音领域拥有深厚的研究积累和原创性成果。这主要依托趣丸科技十年深耕音频技术领域和亿级高质量语音用户的服务经验，以及中国香港中文大学(深圳)国际一流水平的师资队伍。早在今年5月份，趣丸科技就与中国香港中文大学(深圳)宣布共建联合实验室，针对人工智能音频大模型相关的前沿课题进行研究，旨在突破行业难题，促进产学研融合，打造技术领先的生成式音频大模型，填补业界空白。

目前，MaskGCT在短剧出海、数字人、智能助手、有声读物、辅助教育等领域拥有丰富的应用场景。为了加快落地应用，在安全合规下，趣丸科技打造了多语种速译智能视听平台“趣丸千音”。一键上传视频即可快速翻译成多语种版本，并实现字幕修复与翻译、语音翻译、唇音同步等功能。该产品进一步革新视频翻译制作流程，大幅降低过往昂贵的人工翻译成本和冗长的制作周期，成为影视、游戏、短剧等内容出海的理想选择平台。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）