原标题:当听障人士实现手语自由:手语AI平台的产业狂想
盼望着,盼望着,春天的脚步近了,雪容融也终于正式上岗,迎来了自己的主场——2022北京冬残奥会。
本届冬奥会不仅是运动员们的竞技舞台,更是科技公司“秀肌肉”的绝佳舞台。诸多科技亮点之中,大家可能都注意到了,冰墩墩和雪容融有一位共同的“同事”——手语数字人。
2月4日晚开幕的冬奥会上,央视新闻AI手语主播正式上岗,陪伴听障人士见证了一场场精彩绝伦的比赛。即将开幕的冬残奥会,这位手语数字人也义不容辞,将披挂上阵,让听障人士实时感受冰雪运动的魅力。
创造丰厚的冬奥遗产,为国家、主办城市、人民群众带来长期的、积极的收益,也是成功办奥的重要标志之一。在日常生活中,手语数字人能不能继续发光发热,为听障人士提供服务呢?
我们关注到,3月3日,央视新闻AI手语主播的制作者——百度智能云曦,又推出“AI手语平台”,通过分钟级生成手语合成视频、手语主播实时直播等能力,为手语服务的普及难题,提出了科技平台化的新解法。
同时,百度智能云曦灵还发布了“AI手语平台一体机”,让一些需要硬件交互的场景,比如医院、银行、车站等公共场合,插电即可提供手语服务,快速部署无障碍窗口。
平台化和软硬协作的革新,正在让手语数字人走上一条与社会价值长期对接、一同成长的进化之路。
科技巨头们都在积极打造手语数字人,反映出哪些潮水的方向?数字生命与智能技术的温情加速照进现实,这究竟意味着什么?
数字生命觉醒时:手语数字人的能力体系
百度智能云曦灵平台赋予手语数字人哪些特殊能力?我们不妨以人类手语老师的标准来审视一下。
有一种“难”,叫朱广权的手语老师,想要实时且准确地翻译出朱广权的妙语连珠,千挑万选的央视手语老师有时也难免手忙脚乱。而在此前与朱广权的在线pk中,这位由“百度智能云曦灵”打造的首个AI手语主播,面对朱广权不断抛出的超高速顺口溜,立马就能做出反应,表现出流畅、精准的业务能力。
综合来看,手语主播的华丽炫技,以及冬奥会上的扎实服务,来自百度智能云曦灵平台提供的三个方面的基础能力:
1.理解能力。
真实世界中,很容易受到噪音干扰,人类手语老师必须听清、听懂新闻内容,不然翻译出来也可能是错误的,一通比划猛如虎,但无法真正投入使用。
想要听清,需要领先的语音识别能力。百度智能云曦灵平台融合了百度自然语言处理技术,成熟领先的全双工ASR(Automatic Speech Recognition)语音识别模型,近场中文普通话的识别准确率,能够达到98%以上。
轻松搞定各种语音内容,即使段子手朱广权的神级语速也不在话下,这为后续数字人的手语翻译打下了坚实的基础,使得AI手语平台一体机更好地应用于不同场景中。
2.翻译能力。
感知之外,手语老师要分析、归纳重要信息,根据语句整体意思进行精炼和语序调整,将其转换成手语语言。
一些厂商研发的手语数字人直接采用“手势汉语语料”,好处是无需重新标注,节省时间,问题是生硬地按照说话顺序将手语手势连接起来,并不能算是“人类高质量手语”。
举个例子,“我想回家”并不是将这四个汉字依次比划出来,而是按照“家”、“回”、“我想”的顺序来表达。
因此,想要翻得准,手语数字人必须学会自然手语语序。百度智能云曦灵平台就基于“国家手语语法规则”,联合手语语言学专家,特殊教育专家、天津理工大学等,邀请上百位听障学生做数据标注,形成了近千万的高质量训练数据。
有了数据,接下来就是模型设定与训练。基于百度多年积累的神经网络翻译技术,设计了从中文文本到手语符号的翻译方法,打造出了业内首个基于神经网络的精炼度可控手语翻译模型,让手语数字人的翻译可懂度达到85%以上,媲美主流的中英,中日等方向的机器翻译结果。
3.表达能力。
手语中,手势必不可少,还需要表情、口型、动作等肢体语言的配合,帮助听障人士更好地理解。比如疑问句“吃饭了吗“,不仅要做出吃饭的手势,还要配上疑惑的表情,眉头皱起、眼睛睁大。
要让手语数字人声情并茂、手舞足蹈地表达,尤其是3D人像,有着不小的技术难度。一些手语数字人动作过快,有时又存在卡顿不连贯的情况。为了训练手语数字人的“声台形表“,百度智能云曦灵平台也是煞费苦心:
表情上,百度智能云用4D扫描数据,积累了超1万个脸部面4D数据,借助高精数字人“文字到形状的跨模态面部表情生成技术”,能够准确生成微笑、开心笑、wink、吹泡泡、白眼、思考等表情。口型合成准确性达98.5%,a和e这样发音时表情接近的字母,都可以细致的区分。
驱动时,通过个性化TTS,根据输入的文本/语音信息来进行自适应,结合多种预置动作,驱动数字人的唇形、肢体、表情、手势等自动生成。多模态的手语表达,能够传递出更丰富、准确、易于理解的信息。
同时,百度智能云曦灵平台搭载的开放域对话平台PLATO-XL,是百度基于百亿级训练参数、多年搜索及知识图谱积累而训练出来的,被认为是当前最大规模的中英文对话模型。通过它可以快速驱动数字人实现直播、动画等内容,达到多场景下的实时沟通。
纵观手语数字人的能力体系,不难发现,头部科技公司相继推出了自己的手语机器人,除了体现科技的人文关怀之外,还隐藏着技术发展的必然。
必须在算力、数据、算法三方面都有强大的能力,在语音、视觉、NLP、知识图谱等领域都有领先优势,才能让手语数字人真正觉醒在屏幕前、生活中。
百度作为国内AI 技术布局更完整的公司,能最快地实现手语数字人的大规模应用,原因正在于此。
数字生命的平台化复制:手语数字人插上产业之翼
在冬奥会和即将到来的冬残奥会上的大规模应用,几乎代表了现阶段数字虚拟人的最高水平,是典型的数字生命:具备完成复杂目标的能力(通过手语翻译传递赛事信息),以及实时学习进化的能力(收集信息、实时互动、做出回应,而非提前录制)。
正如未来生命研究所的创始人:迈克斯·泰格马克所说,数字生命是一种能够自我复制的信息处理系统,物理结构是其硬件,行为和“算法”是其软件。这决定了,手语数字人必须向软硬协作、规模复制的方向发展。
3月3日,百度智能云曦灵发布AI手语平台和“AI手语平台一体机”,或许正在为手语数字人插上产业腾飞的翅膀。
为什么这么说?手语数字人虽好,却不能低估技术产业化的难度,至少有几座大山横亘在前面:
第一座大山,是效率之谜。
对于新兴的手语数字人领域,制作难度大、周期长、技术门槛高,服务的群体相对较小,很多行业和企业在引入之前都会顾虑,会不会需要大量的人力财力成本,会不会效果不好没人用,思前想后就是等等再说。要让全社会听障人士都享受到技术红利,还是要尊重产业规律,降低新技术的应用门槛,真正让手语数字人的制作“降本增效”。
百度智能云曦灵的手语数字人平台,出现得恰逢其时。“AI手语平台”具备“视频手语合成”“直播手语合成”“文本转手语”“语音转手语”四大功能,可实现普通视频合成为手语视频、实时直播中增加手语画面、文字翻译为手语、语音实时翻译为手语等多种效果。AI手语平台可搭载在各类APP、网站、小程序中,让听障人士也能轻松实现线上社交、娱乐休闲、课程学习等各类需求。
同时,百度智能云曦灵还设置了三大平台,让手语数字人可以被快速、标准化、高效地生产和交付。比如在人设管理平台上,根据不同的场景搭配设置不同的人设,比如银行中引入的手语数字人可以专业、严谨,景区中使用的手语数字人则亲和、活泼等,适应千行百业的需求。
平台化、标准化、体系化的能力,使得AI驱动的2D数字人,生产周期只需要几个小时,3D虚拟偶像一两个星期就能开发出来,轻松飞越效率这座大山。
第二座大山,是体验之困。
大家可能注意到了,在百度智能云曦灵发布 “AI手语平台一体机”之前,几乎所有的手语数字人都是以软件形式存在的。专门打造一款手语数字人硬件,真的有必要吗?
从根本上来说,我们所知的所有生命形式都有着生物“硬件”的载体,有技术人员认为,“生命3.0”阶段的数字生命,不仅要具备设计自身软件的进化能力,还能设计自身硬件。
很多银行、医院等都在引入人形智能机器人,来增加用户的体验感。具体到手语数字人,作为未来在社交、电商、直播、客服、导游等领域的服务载体,企业与听障用户交互的关键入口,如果只能通过软件来互动,显然是不够方便。
但是,开发一个人形手语机器人又涉及到一个相当漫长且复杂的产业链,很容易让企业望而却步。
百度智能云曦灵此次发布的全离线一体机V3以及端云结合一体机P3,搭载了“AI手语平台”的核心功能, AI手语数字人可以像手机、电脑一样被快速、批量生产,到线下生活的各个角落中服务听障人群。
其中本地全离线一体机,在一些网络情况不佳的区域,比如偏远的山村、景区等地,依然能够进行手语翻译、人像渲染等操作,提供文本转手语、语音转手语等服务。
端云结合一体机,则通过云端计算+本地渲染的形式,也能灵活地实现手语服务。
第三座大山,则是进化之难。
衡量一个数字生命的标准之一,就是具备自主学习、自主适应、自我进化的能力,这需要全面的AI能力支撑。目前,整个手语机器人的产业链还没有被完全打通,尽管一些企业打出了“手语数字人“的概念,但只能在部分场合、部分视频中露脸。
推动手语数字人在真实的产业场景之中不断升级,是AI产业化中必不可少的一种能力。在中国的AI科技企业当中,像百度这样具备从底层算力、开发框架到产业解决方案的全栈AI能力的公司,并不多见。
目前看来,百度的全栈AI能力融入到百度智能云曦灵当中,给数字人升级能力带来了无限潜力,也将加速手语数字人这一“新物种“的全场景覆盖。
通过与产业的 融合,手语数字人也将变得越来越复杂和聪明,进化成为真正的数字生命。
目前,我国有近2780万听障人士,而手语翻译老师只有1万人左右,许多场景中无法快速跟上手语服务,在飞速发展变化的社会中,很容易造成新的不公平。
而百度智能云曦灵的AI手语平台,让手语数字人的规模化复制变得更加可行;“AI手语平台一体机”,让数字人技术带来的体验更加丰富和多元。
数字生命的平台化复制,是社会责任不会变成空谈的前提,意味着商业价值与技术普惠的一次和解,也预示着手语数字人市场的快速打开。
AI产业的无形之变:手语数字人带来的连锁反应
平台化和软硬一体,规模复制的产业落地效率与直观的体验价值,让百度智能云曦灵在手语数字人的竞争中,已经获得了先发优势。
技术无障碍除了让残障群体受益,还将给企业自身和整个产业带来意想不到的收获。手语数字人的普及,换来的是AI受众的扩大和手语服务的延展,会让许多我们习以为常的场景出现明显的扩容与创新,并引发一系列连锁反应。
首先,AI手语解决方案不断复制到各行各业,让听障人士乐于去用,企业和机构乐于引入手语服务,让手语数字人的落地场景会愈加丰富,在公益属性、社交、传播营销等领域的价值将一一显现。
其次,数字人作为公认的虚拟世界入口,带来巨大的商业空间,已经成为互联网科技企业的下一幕竞争焦点。抢占数字人规模化生产的机遇,培养B端市场的信任感与忠诚度,有助于在接下来的市场竞争中占据优势。
更进一步,百度智能云曦灵在技术的领先性和全面性,决定了其有资格参与甚至主导数字人行业标准的建立,将吸引大量开发者和产业链上下游加速汇聚到生态体系内,推动技术不断迭代和应用持续创新,预先探索数字人的商业模式,带动云计算、AIoT等领域的增长,对于中国数字经济的发展有着重要作用。
以前提到智能科技,大家可能更多地关注独角兽、投融资、数字经济等宏大概念,而现在,手语数字人这样的智能新物种,正在给残障群体日常生活中的“小事”带来便利。
从冬奥主播到AI手语平台,百度智能云曦灵向世界证明,只需要打开一个通道、接通一座桥梁,技术红利就可以源源不断地汇聚到那些需要它的人群当中。
许人类一个更美好的未来,这或许是AI故事里,最温暖人心的章节。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。