近日,虎博科技技术副总裁兼算法负责人赵俊博(Jake Zhao)参与的研究成果《Levenshtein Transformer》被机器学习领域顶级会议NeurIPS 2019接收为会议论文。论文提出了一种全新的序列生成模型Levenshtein Transformer(LevT),该模型在机器翻译和文本摘要任务中,均取得了比Transformer模型普遍更好的效果,且处理速度提升至3倍以上。同时,LevT模型先驱性地尝试了统一序列生成和序列细化,并通过实证验证了其应用于译后编辑领域的巨大价值。虎博科技创始人兼CEO陈烨表示:“虎博科技始终不遗余力地在技术研发上持续投入,我们希望通过世界前沿科技,打破全球金融信息的语言壁垒,消除信息不对称,帮助人们提高获取信息的效率。”据悉,LevT模型已应用于虎博科技产品研发中。
(NeurIPS 2019论文接收通知)
NeurIPS全称神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),是机器学习领域的顶级会议,属于中国计算机学会(CCF) A类国际会议。本届NeurIPS 会议共收到 6743 篇论文投稿,创造了新的投稿记录,其中 1428 篇被接收为会议论文,接收率仅 21%。
此次《Levenshtein Transformer》能够被NeurIPS 2019接收,得益于其研究成果的突破性创新。LevT是第一个可以自由增加和删减长度的部分自回归模型,针对现有解码模型缺乏灵活度的问题,LevT创造性地提出了插入(insertion)和删除(deletion)两种原子操作,通过两者的组合,不仅能够更加灵活地生成序列,还能够动态改变序列长度以细化序列,颠覆了现有的序列生成和细化方式,极大提高机器翻译、文本摘要和译后编辑的效率。
论文针对机器翻译、文本摘要和译后编辑三类自然语言处理任务,在多种不同语言的公开数据集上进行了多次与现有Transformer模型的对比实验。实验结果显示,Levenshtein Transformer模型在机器翻译和文本摘要任务中,不仅比现有Transformer模型取得了普遍更好的质量,还在运算速度上取得了大幅提升。通常来说,现有Transformer模型需要对原文进行至少20次以上的串行解码行为,在测试集上的平均用时超过300毫秒,但LevT可将串行的部分显著减少,通过并行插词、删词等操作完成文本处理,将运算速度提高至3倍以上。同时,LevT在译后编辑任务中较现有Transformer模型取得了更好的优化幅度,证实了levt模型在译后编辑上的突破性成果。据悉,Transformer是目前国际上公认的最先进的机器翻译模型,由Google于2017年提出并开源,被全球一线科技公司广泛使用。
(LevT针对机器翻译和文本摘要的实验结果)
((LevT针对译后编辑的实验结果)
赵俊博介绍,现代神经序列生成模型只能从零开始逐步生成tokens,或者迭代地修改以固定长度为边界的token序列,这样的文本处理方式与人类的智力水平仍然有很大差距,因为人类可以随时修改、撤销或删除它们创作的文本。“例如人们写作文的时候,并不是像传统的自回归模型一样从左到右一口气生成,而是写作和回来修改并存的过程,LevT模型就是模拟了这个过程。”
同时,论文在模仿学习(imitation learning)理论框架下,利用插入和删除同时具备互补性和对抗性的特点,创新提出“双策略学习”算法(dual policy learning)。该算法可以有效地将一个策略(policy)作为另一个的学习信号,即在训练一个策略(插入或删除)时,使用其对抗策略在上一次迭代中的输出作为输入,是一种全新的模仿学习框架。
目前,该研究成果已成功应用于虎博科技底层架构中,并通过虎博科技产品端为用户提供更实时、高质量的翻译结果。以虎博科技旗舰产品虎博搜索为例,当用户搜索“阿里巴巴活跃买家”时,虎博搜索会根据输入语言自动启用机器翻译,将中文搜索内容“活跃买家”准确对应到阿里巴巴英文财报中的“Annual active consumers"条目,帮助用户消除语言障碍,即时获得有价值的精准信息。据统计,虎博科技每天的全球资讯及金融数据机器翻译总量达上亿万次。
据公开资料显示,虎博科技成立于2017年7月,是全球领先的智能金融搜索引擎,以让人们获取知识更简单为愿景,致力于通过 学习、自然语言处理等世界前沿技术,深入挖掘全球金融市场价值信息和数据,进行实时、全自动的获取、解析、理解和总结,并将精准的搜索结果结构化地呈现给用户,帮助用户从繁琐重复的工作中解放出来,把精力投入到更富创造性的工作中。截止目前,公司累计获得融资额近4亿元人民币。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。