近日,全球领先的智能金融搜索引擎虎博科技公布了最新前沿研究成果Levenshtein Transformer,在机器翻译领域提升相关速率3倍以上,占领现有机器翻译高地。虎博科技创始人兼CEO陈烨表示,机器翻译能力的明显提升,不仅有助于提高人力效率,还能推动计算机科学、数学、语言学、翻译学等多种学科的快速发展,更对解决全球信息不对称难题有着重大帮助,可加速文化全球化的快速融合。
Levenshtein Transformer基于Transformer模型上进行优化与升级,是第一个可以自由控制长度的翻译模型,颠覆了现有机器翻译的流程和方式,以更灵活的序列打造机器翻译的机制和流程。通过在不同分词间进行增加词或者删除词的行为,突破了原有限定边界,同步优化整体语言表达,提升译文效果、摘要能力和时间效率,实现了目前最短时间达成长文本高质量译文的记录。据悉,Transformer是目前国际上公认的最先进的机器翻译模型,由Google于2017年提出并开源,全球一线科技公司均在使用。
虎博科技算法负责人Jake Zhao参与了此次研究,并针对不同目标、3组不同语言,在公开数据集上进行了多次试验。研究结果显示,新模型不仅在翻译速度上至少提升3倍,更在译文质量上有了显著变化。通常来说,现有Transformer模型需要对原文进行至少20次以上的串行解码行为,在测试集上的平均用时超过300毫秒,但Levenshtein Transformer可将串行的部分显著减少,通过并行得进行插词、删词来完成翻译。这样的模型设计不但将翻译的平均用时减到了100毫秒左右,还给予了模型在翻译中的能动灵活性。从译文质量上来说,基于Levenshtein Transformer的译文质量普遍评分更高。
Levenshtein Transformer实验结果
以“ The too high rotation speed produces the reverse deformation”为例,Levenshtein Transformer模型在3个插入删除周期后得到了质量较高的翻译。据了解,该模型在全球语言的转换中游刃有余,支持任何语种的直接翻译和总结。
Levenshtein Transformer实验示例
Jake Zhao表示,Levenshtein Transformer利用模仿学习的方式来训练插入和删除,让机器能更快更自然地进行模拟交流。同时,由于插入删除的互补性,借助模型插入后的句子去训练如何删除、用模型删除后的句子去训练插入,给予模型一个自我检查修改的机会,“例如,传统的autoregressive模型只能实现长度的增长和停止,但如果模型发现生成了不佳的词,并没有办法将该词撤回。而得益于可实现插入和删除的Levenshtein Transformer模型,它能自主、动态得控制模型的生成长度,让模型解码更具灵活性”。Jake Zhao进一步解释:“就和人类写作文一样,以前的模型不但是一个字一个字的写,而且不支持写完后修改,Levenshtein Transformer就更聪明,写完了还会自己修改”。
目前,虎博科技每天的全球资讯及金融数据机器翻译总量达上亿万次。以使用虎博搜索查找海外上市公司活跃用户为例,当键入“拼多多活跃用户”进行提问,搜索后台在一秒内进行千百万次计算,经过对“拼多多”“活跃用户的语言理解,识别并提取对应“PDD”、“Active Buyers”对应内容,一键呈现最准确的数据,又如搜索“Tesla Model 3产能”,系统自动理解产能的意义,抽取财报对应的“Model 3 production”内容,第一时间提供。这个过程中,虎博核心技术之一——机器翻译就承担了对公司名、业务描述及英文财报的理解和翻译工作。
据了解,此项研究成果将应用于虎博科技底层架构,全面提升现有机器翻译能力,以更地道的理解和表达直接作用于虎博搜索、西梅、招股书、财神股票、虎博翻译等产品中,打破全球金融信息的语言壁垒,为用户提供更贴心的产品体验。随着未来虎博科技业务领域的扩展,优异的机器翻译能力也将同步应用于更广阔的全领域信息获取范畴,加速文化全球化的融合。
文化全球化同经济全球化一样,是一种世界发展的趋势,因为前沿科技的发展,人们的交流更加容易,文化之间的交流更加顺畅。陈烨表示,虎博科技将持续致力于前沿科技的探索,以科技之力加速产业智能化的落地,推动全球经济的发展,“我们将不遗余力的开展全球前沿技术交流,探索全球文化融合与发展的更多可能”。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。