数字人小灿颜才兼备!火山语音为To B市场带来了什么?

火爆的数字人市场又有新消息来袭:火山语音的数字人小灿来了!

今年以来,在生成式AI浪潮的助推下,大量企业争相布局数字人赛道。市场之所以如此火热,是因为AI数字人已被视为人工智能时代智能交互的入口级产品,对于未来AI的广泛应用具有重要意义。

与虚拟现实时代数字人“高处不胜寒”,市场接受度较低相比;如今,金融、汽车、文旅、政务、大型企业等B端行业用户均在迅速接受和尝试AI数字人,并密切关注着市场与技术的动态变化。

不过,AI数字人在商业化落地依然面临着诸多挑战,如何真正推动数字人走向普惠是当下市场的一道难题。为此,火山语音推出数字人小灿,为AI数字人在B端市场走出一条重要的落地路径,助推AI数字人走进广大B端业务场景。

数字人赛道火热,落地挑战不容忽视

IDC《中国 AI 数字人市场现状与机会分析》报告预测,到2026年,中国AI数字人市场规模将达到102.4亿元人民币。

毫无疑问,AI数字人市场前景非常广阔。但从虚拟现实时期开始,数字人虽然借势起跑,却始终面临着大规模商用场景缺乏、市场接受度低、技术成熟度不高、成本高居不下等挑战,以至于在B端市场举足不前。

以市场定位为例,超写实的3D虚拟数字人贴合真人形象,也更加符合B端市场各种场景的定位,却也受制于AI算法、文本转语音技术、算力等技术因素的综合影响,数字人产品质量良莠不齐,语音、表情、互动等生硬,在B端业务场景中定位也不够不清晰,华而不实逐渐沦为噱头。

与此同时,数字人又面临着高昂生产和运营成本、较长生产周期等问题,很多曾火爆一时的3D数字人均受困于成本问题,宛如流星般划过。业内人士介绍,一个3D AI数字人的年运营成本就高达数百万,也让诸多B端企业望而却步,市场接受度始终起不来。

事实上,数字人当前遇到的困境并不稀奇。究其原因,在产业发展的早期阶段,一项技术或产品要实现从小众到大众、从尝鲜者到主流群体的广泛应用,解决不了技术关和成本关两大难题,终究无法实现。

业界普遍认为,在政策导向、市场需求、资本支出和技术成熟度等因素的合理推动下,AI数字人在B端市场正处于爆发的前夕。当前,市场中尤其需要AI数字人的高质量“爆款”,率先实现质量、成本与效率的兼顾,攻克技术关和成本关,牵引AI数字人全面融入B端业务场景。

相比之下,火山语音在数字人赛道属于先思而后行,其数字人小灿的定位非常清晰,即成为“提升工作效率+情绪价值”的副驾驶;同时作为首个超写实数字人,数字人小灿具备“善听”、“会说”、“能想”等特征,加上一站式拟人化服务,为数字人在B端市场带来新的启发。

首个超写实数字人,小灿颜才兼备

数字人小灿作为火山语音首位数字员工,火山语音介绍,未来或作为AI产品与技术的先导官服务内外。

作为超写实数字人,数字人小灿堪称颜值担当,不仅形象靓丽,而且气质不错。除了颜值之外,数字人小灿具备逻辑学家的人格类型,专业可靠、高理性逻辑,且才华横溢,对AI应用充满了天马行空的幻想。

数字人小灿“提升工作效率+情绪价值”副驾驶的产品定位,以及颜才具备的特征,都与B端业务场景的需求十分契合。众所周知,在B端业务场景中,业务逻辑较为复杂,通常具有一定的专业性,如果AI数字人语音、表情、互动生硬,不懂倾听、不会表达和不具备逻辑性,无法提升业务场景效率,就很难胜任业务场景的交互重任。

以金融业为例,IDC《银行数字科技五大趋势》报告认为,到2025年,超过80%的银行都将部署数字人,承担90%的客服和理财咨询服务。当前各种类型的金融机构均在试水AI数字人,像客服、理财咨询这类B端金融场景,AI数字人需要“看懂文字、听懂语言、做懂业务”,不仅需要在场景中实现与客户的高效率交互,还需要具有共情能力,让服务有温度。

数字人小灿颜才兼备的背后,自然离不开火山语音在AI相关技术的深厚底蕴。

据悉在形象技术方面,火山语音联合字节游戏-朝夕光年江南团队,联合打造3D超写实形象,数字人小灿是艺术+AI技术结合体。数字人小灿具备开心、惊讶、愤怒等丰富的情感演绎能力,语音交互时表情自然流畅,这些离不开火山语音的3D超写实数字人整套形象设计、资产制作、高成本影视级cg管线视频内容制作能力,以及自研高逼真AI口型及动作驱动技术。例如在AI驱动动作层面,团队基于创新的Motion Blening技术,在动作切换时可生成过度帧,使得数字人在切换各类动作时不仅可以做到毫秒级切换,同时平滑效果自然无感知。

同时数字人小灿还是个“语言天才”,会说英语、日语、粤语、东北话等十多种外语及方言,高保真还原真人音色、说话风格和声学环境特点,在市场中遥遥领先,这同样离不开火山语音在语音领域的技术底蕴。例如“一条音频秒级别音色复刻”技术(zero shot TTS),仅需要输入5秒钟到1分钟的音频,可秒级别极速复刻高保真还原真人音色、说话风格以及声学环境等特点;此外在核心技术架构全自研的基础上,各种指标(音质、相似度等)均居于学术界前沿,韵律模块基于自回归GPT类大模型研发,支持code-switch,即无论prompt为中文/英文,支持输出中文、英文及混合内容。

事实上,除了深厚的技术底蕴外,火山语音此次还非常注重以数字人为抓手,推动AI技术在B端的实践与落地。

深入行业场景,AI让工作生活更轻松

不可否认,当前AI数字人市场的火爆,也造成了一定的乱象,市场中也存在着大量良莠不齐的产品与方案。

业界普遍认为,AI数字人是推动AI技术在工作生活中落地的一个好抓手,能够真正带来B端行业交互效率和体验的提升,让人们的生活与工作更加轻松自如。但AI数字人在B端的普惠落地,还需要深入行业场景,找到产品与场景中的结合点,从而让数字人产品的价值得以呈现;并且需要具备规模化复制能力,降低AI数字人迈向B端行业用户的门槛。

通过数字人小灿,火山语音在AI数字人市场目标很明确,就是通过持续多版数字人产品的迭代,实现AI数字人质量、效率和成本并重,并让AI数字人深入行业场景,进而推动AI数字人在B端走向普惠。

在行业场景价值呈现方面,火山语音的数字人产品包括“播报型数字人”和“交互型数字人”两种类型,专注播报、交互、直播三大核心场景,可以面向金融、大消费、泛互等行业提供涵盖“金融客服”、“智慧导览”、“智能助理”、“虚拟直播”等场景细分解决方案,为B端用户带来交互体验的全方位升级。

为进一步降低AI数字人的门槛,火山语音AI数字人可以实现快速复刻数字分身,仅需5-10分钟视频,就可1:1还原真人,再结合声音复刻即可快速实现形象与声音的近乎完美还原,加速AI数字人在内容生产、视频直播、车载环境等诸多场景中的落地。

更加重要的是,火山语音一直在技术层面持续迭代和优化数字人产品。例如,近年来,火山语音 参与到“实时高逼真孪生数字人关键技术研发与应用示范”等多个国家重点项目建设,通过产学研用联动,推动AI数字人相关技术的应用。

随着数字人小灿的问世,火山语音已经在数字人领域已经取得阶段性成果,为市场带来了质量、成本和效率并重的AI数字人一体化服务。面向未来,随着AI数字人市场不断发展,火山语音的AI数字人产品与服务有望在B端行业中遍地开花。

免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与 无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。


企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2023-10-30
数字人小灿颜才兼备!火山语音为To B市场带来了什么?
数字人小灿颜才兼备!火山语音为ToB市场带来了什么?

长按扫码 阅读全文

Baidu
map