中科深智实现生成式AI游戏场景落地

生成式AI正展现巨大潜能,其在各行业的落地和应用也正在迅速加速。

作为国内生成式AI虚拟人技术领导者,中科深智凭借自身的技术积淀和在 NVIDIA NeMo、Omniverse等技术 的帮助下,成功推出虚拟人实时交互和应答系统——云小七,这也是加入 NVIDIA初创加速计划与 NVIDIA 深入技术交流与合作的成果之一。同时,中科深智将自有大模型GenSense数智姜尚引入游戏行业,支持智能NPC(也即虚拟人)的批量化生产,提升游戏开发效率。

云小七除了可以让NPC具备个性化特征,还能够在不需要编写复杂脚本的情况下,与游戏玩家进行顺畅的文字、语音、动作、表情等多模态的实时互动。这将为游戏开发商带来更加有力的支持,同时也为玩家提供更加生动、真实的游戏体验。

//www.memurnet.com/uploadfile/pic2020/2023/0605/2023060510002043G.png

云小七底层的文字对话能力,来自于中科深智在5月10日推出的自有大语言模型GenSense数智姜尚。数智姜尚是国内商用大模型在轻量化领域内的首次尝试,其200亿和20亿两种参数量的大模型,占用资源相对于传统技术更少,推理甚至只需要一块NVIDIA GeForce RTX 3090显卡便能良好运行。

NVIDIA NeMo在数智姜尚的训练过程中提供了低门槛、经济高效的帮助。NVIDIA NeMo是一个用于构建最先进对话式AI模型的工具包,为LLM的预训练、自然语言处理(NLP)、自动语音识别(ASR)和文本到语音(TTS)合成模型提供单独的集合。对于LLM的部分, NVIDIA NeMo Framework提供了多个可选择的预训练模型,包括几十亿参数的中等体量和最大的AI单体Transformer语言模型(MT-NLG 5300亿)。这些预训练模型能够大幅缩短后续基于该模型的微调和再训练的时间。

在高效训练框架 NVIDIA NeMo Framework的助力下,数智姜尚的最终呈现为专门针对虚拟人端到端应用而设计的模型,具有轻量级、可私有化部署等优势,服务于中科深智下游客户。同时,NeMo Framework提供的NeMo Guardrails工具帮助中科深智高效解决对话式AI合规性和安全性的风险。NeMo Guardrails为对话设置了响应范围边界,使其回答范围仅限于适当的主题并仅提供必要的信息,并限制AI只与已确认安全的第三方应用程序建立联系。

NeMo框架中的ASR/TTS模型进一步提高了云小七对于音频输入和输出响应的实现效率。云小七嵌入在中科深智自身技术底座之上,支持与用户进行实时的语音交流,从而实现了多种交互模式的无障碍切换。

//www.memurnet.com/uploadfile/pic2020/2023/0605/2023060510002044G.png

云小七的核心能力之一还包括中科深智自研实现的CLAP大模型算法(Contrastive Language-Action Pre-Training,对比性语言-动作预处理模型),这种算法可以实现对于语音、语义以及外部环境输入的实时反馈,从而输出动作和表情等,使得NPC具有更加生动的表现能力。此外, NVIDIA Omniverse中的 Audio2Face也可以辅助云小七实现音频输入的面部输出,通过预训练的 神经网络、调整角色网格的3D顶点等方式,实现快速表情切换。

为了实现更加自然的动作反馈生成以及动作和空间关系的独立实现,云小七采用了CLAP算法,并支持基于语义、音乐和连续动作等多种生成方式。

在游戏环境中,云小七能够识别并及时反应,这得益于其自身的意图识别能力以及 NVIDIA Maxine对于音频和视频通信方面的优化。即使使用普通的麦克风和摄像头,NPC也能够与玩家实现实时互动。

//www.memurnet.com/uploadfile/pic2020/2023/0605/2023060510002045G.png

//www.memurnet.com/uploadfile/pic2020/2023/0605/2023060510002046G.png

至此,再加上中科深智的超写实虚拟人生成系统Anyhuman(支持快速创建并导出高精度数字人)的协同助力,一个实现了超写实虚拟人形象、文本和语音实时交互、对外部环境输入实时感知并转化为动作和表情反馈的NPC终于问世。

这些后续功能基于生成式AI的设计,可以通过赋予特定的人设,如形象、声音、性格特征、背景等等,来与游戏内容有机融合。鉴于这一创新,中科深智预测这将完全改变玩家与游戏角色互动的方式,提高游戏的沉浸感,让普通玩家也能更快地探索元宇宙的奥秘。

关于中科深智

中科深智是一家专注于端到端生成式AI虚拟人技术的公司,从底层自研的大语言模型、动作和表情生成算法模型以及3D自动建模 ,到Motionverse虚拟人业务中台,再到3D AIGC产品和应用层。中科深智除了为生态合作伙伴提供AI虚拟人API外,还开发了一系列3D AIGC产品,包括超写实虚拟人生成系统Anyhuman、元宇宙电商和虚拟人直播工具百宝箱自动播、AI快速动画生成系统自动画、虚拟人实时交互和应答系统云小七

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

Baidu
map