微软语音识别错率仅 5.9% 水平超越人类

近日，微软宣布英语的语音识别转录词错率仅 5.9%，达到了专业速录员水平超越了人类。百度首席科学家吴恩达（Andrew Ng）发推特对此表示恭贺：“在 2015 年我们就超越了人类水平的汉语识别；很高兴看到微软在不到一年之后让英语也达到了这一步。”时隔一年，百度、微软两大人工智能科技巨头先后分别在汉语、英语语音识别研究方面取得了超越人类的成果，引发业界轰动。

据悉，语音识别并不算是一个新兴的行业，从20世纪70年代贾里尼克教授，开始基于统计法和数据建立模型后，语音识别有了巨大飞跃。近年来，随着数据量的丰富和计算能力的提升，语音识别行业迅速崛起。据 TechCrunch 统计，仅美国至少就有 26 家公司在开发语音识别技术。美国众多企业在技术上多年的积累使之占据了绝对的行业优势，但中国互联网企业百度近年来在语音识别技术上持续发力，在汉语语音识别方面取得了领先世界的成绩，已成为该研究领域当之无愧的领头羊。

作为中国最大的搜索引擎公司，百度收集了大量汉语（尤其是普通话）的音频数据，百度采用数千小时进行实验的预研，并应用到数万小时的语音产品数据库，这给 Deep Speech 2 技术成果提供了基本的数据优势。在该技术首次发布时，百度研究院硅谷人工智能实验室（SVAIL）就在 arXiv 上发表了一篇论文《Deep Speech 2: End-to-End Speech Recognition in English and Mandarin（Deep Speech 2：端到端的英语和汉语语音识别）》，介绍了百度的研究成果。吴恩达表示其识别的精度当时已经超越了 Google Speech API、wit.ai、微软的 Bing Speech 和苹果的 Dictation 至少 10 个百分点。据百度表示，到今年 2 月份时，Deep Speech 2 的短语识别的词错率已经降到了 3.7%！这意味着Deep Speech 2 转录某些语音的能力「基本上是超人级的」，能够比普通话母语者更精确地转录较短的查询。

值得一提的是，尽管 Deep Speech 2 在汉语上表现非常不错，但其最初实际上并不是为理解汉语训练的。百度美国的人工智能实验室负责人 Adam Coates 说：“我们在英语中开发的这个系统，但因为它是完全学习的，基本上是基于数据的，所以我们可以很快地用普通话替代这些数据，从而训练出一个非常强大的普通话引擎。”

百度提出的端到端的学习（end-to-end deep learning）方法或者将很快实现更多复杂语种的识别问题。该方法用神经网络完全替代了人工设计组件的流程，端到端学习让可以处理包含噪杂环境、口音和不同语言的许多不同的语音，所以该技术既可以被用于识别汉语语音，也可以被用于识别英语语音。

对比一年之前吴恩达所说：“SVAIL 已经证明我们的端到端学习方法可被用来识别相当不同的语言。我们方法的关键是对高性能计算技术的使用，相比于去年速度提升了 7 倍。因为这种效率，先前花费两周的实验如今几天内就能完成。这使得我们能够更快地迭代。”相信经过一年的技术迭代，Deep Speech 2已经“默默”创造了新的奇迹。在语音识别领域，百度、微软等巨头的各自发力，将加速用技术跨越语言鸿沟的进程，重建通天的“巴别塔”。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

微软语音识别错率仅 5.9% 水平超越人类

下一篇