智能语音将成下一代人机交互新入口

“Hello,我是林志玲,祝您一路好心情哦”、“我是罗永浩,请镇定一下,我要开始导航了”,对于某些地图导航的用户来说,这样的语音一定不陌生。但你可能不知道,这并不是一字一句录制,而是借助了科大讯飞的语音识别功能。只需要3小时的声音素材,就可以合成所需要的声音。

2017年11月,国家科技部宣布科大讯飞以智能语音成为国家新一代人工智能开放创新平台之一。包括BAT在内的互联网巨头也纷纷抢滩智能语音领域。

智能语音为何能成为人工智能领域的重点项目?站在第三次人工智能浪潮的当口,智能语音的应用又将如何改变我们的生活?

商业一线

智能语音在多个领域广泛应用

智能语音设备之外,中国企业在语音转写技术、语音输入法方面也走在了商业应用前沿

当你回到家,说声“叮咚叮咚,我回来了”:灯自动打开,窗帘自动闭合,空调启动,电视自动打开并跳转到你平时最常看的频道,客厅里响起你喜欢的音乐——京东和科大讯飞合作推出的叮咚智能音箱就是这个智能家居场景的“总导演”。

近几年,国外微软、苹果、亚马逊,国内科大讯飞、腾讯、百度、阿里等企业,无一不在紧锣密鼓地推进智能语音的商业应用落地。

2011年,苹果Siri语音助手正式亮相。正是以Siri的发布为引爆点,智能语音应用领域由传统行业向移动互联网等新兴领域延伸。在2017年苹果WWDC开发者大会上,Siri的智能化进一步提升,加入了实时翻译功能、支持上下文的预测,用户甚至可以用Siri作为Apple TV的遥控器。

中国智能语音交互系统的另一家领军企业百度在智能语音领域深耕多年。去年,百度推出DuerOS系统,广泛应用于音箱、电视、冰箱、手机、车载多个场景。在1月9日举行的2018年CES(国际消费类电子产品展览会)上,百度发布了DuerOS 2.0 的三款硬件产品——智能视频音箱、智能音箱灯和智能投影吸顶灯。

百度度秘事业部总经理景鲲表示,根据IDC的报告,在2020年前,27%的智能家庭将会拥有智能语音设备,51%的智能汽车和68%的智能手机和智能穿戴设备也会具备语音对话功能。“DuerOS是一个活跃的对话式AI生态体系,不仅有设备合作商,还有芯片制造商、系统整合商、内容开发者等等。”

智能语音设备之外,中国企业在语音转写技术、语音输入法方面也走在了商业应用前沿。

在2017年的全国两会上,科大讯飞的产品“讯飞听见”利用人工智能实时语音转写技术,首次在政府工作报告网络直播中实现同步字幕直播。此外,智能语音输入应用让讯飞输入法用户突破5亿,截至目前已支持22种方言语音输入,方言识别准确率达90%以上。

2017年11月,国家科技部宣布科大讯飞以智能语音成为国家新一代人工智能开放创新平台之一。

对此,科大讯飞股份有限公司品牌管理部总经理、华南公司副总裁吴骏华向记者表示,智能语音之所以成为新时代人工智能应用发展的重点方向之一,一方面来自于语音技术的成熟,另外一方面则是在万物互联的时代,语音成为了人机交互的新入口。

据吴骏华介绍,作为平台企业,科大讯飞会把人工智能核心技术开放出来,构建持续闭环迭代的生态体系。“我们将平台对广大的创客团队开放,截至2017年12月,讯飞开放平台的累计终端数已经达到15亿,日均交互次数达到40亿,创业团队数已经达到了50万。”

技术前沿

智能语音五年内将像水和电一样无处不在

除了语音识别之外,语义理解是目前各大企业需要攻克的技术难关

智能语音是人工智能技术的重要组成部分,包括语音识别、语义理解、自然语言处理、语音交互等。

目前,在语音识别方面,科大讯飞、百度、苹果、谷歌等主流平台识别准确率均在96%以上,稳定的识别能力为智能语音技术的落地提供了可能。

“科大讯飞在语音识别上已经做到98%了。”吴骏华表示,在国际语音合成大赛(Blizzard Challenge)中,科大讯飞连续十二年蝉联第一名。在2016年CHiME Challenge国际多通道语音分离和识别大赛中,科大讯飞包揽全部三个测试项目的冠军,并大比分刷新历史纪录。吴骏华告诉记者,接下来,科大讯飞还要做多方言语音识别。目前,讯飞已经做到了22种方言。

百度在2017年宣布ALL IN AI之后,除了发力自动驾驶之外,也在语音智能方面持续发力。

景鲲表示,百度人工智能技术的方向包括语音识别Deep Speech、视觉识别“智能读图”、自然语言与智能语义等。凭借PaddlePaddle 学习平台、亿万级大数据训练处理能力和超高速异构AI计算集群三大核心技术, 可模拟低龄人脑思维,拥有语音、图像、自然语言处理、用户画像四大能力。“其中,语音识别准确率达97%,支持27种语言互译。”

除了语音识别之外,语义理解是目前各大企业需要攻克的技术难关。吴骏华坦言,按照目前实现的语音合成和语音识别技术,科大讯飞可以完成在固定的范围内回答问题,但是在逻辑推理上机器今天还是没有办法实现突破。在语音理解没有重大技术突破的前提下,机器在语义理解方面还存在不小挑战。

微软亚洲研究院院长洪小文博士也指出,要做到百分之百的语义理解,是一个AI complete问题,只有解决了其他AI的问题才可能有解。“比如,你去参加一个鸡尾酒会,周围非常嘈杂,你讲的话里面十个有九个字我都没有听清,可是因为你讲的内容我大概知道,所以即使我听不清还是能够猜出你讲的是什么。但如果用语音识别和语义理解,可能会失败。在具体的应用场景,除了语音,还包括视觉、知识的综合使用,这是语音人工智能未来的挑战。”

国家政策层面,也在大力推动智能语音的发展。去年12月14日,科技部印发《促进新一代人工智能产业发展三年行动计划(2018—2020年)》,明确对智能语音的发展做出展望,“到2020年,实现多场景下中文语音识别平均准确率达到96%,5米远场识别率超过92%,用户对话意图识别准确率超过90%。”

对于未来智能语音的普及推广,吴骏华表示,在政策和行业的双重推动下,预计未来五年内,智能语音会像水和电一样无处不在。”

行业格局

智能音箱背后是语音交互技术的竞争

智能语音技术的普及,让智能音箱、智能家居客厅重回大众视野,成为科技巨头的“新宠”

在享有“互联网女皇”称号的玛丽·米克尔发布的2016年互联网趋势报告中,超过十分之一的篇幅在论述语音识别交互带来的改变。报告将语音功能赞誉为“人机交互的新范式”,并称语音功能“解放了双手和眼睛,扩展了永远在线的概念。市场认为,智能语音交互有望成为下一代人机交互新范式。

记者梳理发现,目前智能语音的参与者中,可以分为互联网巨头企业、智能语音公司、初创企业三种类型。

国内以BAT为首,国外以谷歌、亚马逊、苹果为首的互联网巨头,开放语音生态系统,以产业内合作的方式,将语音技术植入产品和或应用于相关业务场景,构建全产业生态链。2017年7月5日,百度在北京举办“2017百度AI开发者大会”,发布了DuerOS开放平台,开放技术能力满足智能语音设备开发者的需求。

而以科大讯飞为代表的智能语音公司,依托原有优势,从单一智能语音技术商向全方位人工智能技术服务商转变。思必驰、云知声、出门问问等初创厂商,则以垂直领域和细分场景为突破口,重点布局家居、车载和可穿戴设备。

不论哪种类型的参与企业,无一例外都开发了同一款产品——智能音箱。智能语音技术的普及,让智能音箱、智能家居客厅重回大众视野,成为科技巨头的“新宠”。

去年7月,百度收购美国语音交互技术公司KITT·AI,就在同一天,阿里发布智能音箱“天猫精灵X1”。此前,京东联合科大讯飞推出了“叮咚音箱”,腾讯云发布了“小微”。而国外智能音箱竞争大战早已打响,随着亚马逊Echo打开智能音箱的市场,谷歌的Google Home、苹果的Home Pod、微软的Invoke陆续上线。

12下一页>

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

赞助商
2018-01-10
智能语音将成下一代人机交互新入口
“Hello,我是林志玲,祝您一路好心情哦”、“我是罗永浩,请镇定一下,我要开始导航了”,对于某些地图导航的用户来说,这样的语音一定不陌生。

长按扫码 阅读全文

Baidu
map