1969年7月20日,美国宇航员尼尔•阿姆斯特朗走出登月舱,标志人类征服了地球引力,而与其同时启动的“机器翻译”计划 ,50年过去了,仍然是一个世纪难题。 其实,从公元前5000新石器时代开始,人们一直在为跨语言的沟通和交流坚持不懈的努力,从人工翻译到机器翻译,到今天的人机结合,7000年左右时光中均未有实质性的进展和突破,那么人类语言有什么独特之处,比登月还难的翻译难究竟难在何处?人工智能驱动下翻译难题如何破解?谁能回答这个终极之问?
人类语言的特点决定翻译具有不可译性
语言是人类后天文化、思维与社会环境等诸多因素作用的结果,不能离开人类大脑的分析而单独存在,在多种因素的作用下,使得不同社会环境中的人群之间交流充满障碍, 也使得不同语言间的转换更为困难。
Transn传神董事长何恩培认为:“语言是人类大脑思维产生反应和工具,是眼、耳、鼻、口、舌六维通过口一维的表达方式,而且是人类必须使用的、无可选择的沟通方式;而且同样语言和词汇,不同场景含义是不一样的,要结合经历、属性等大脑产生反应进行分析定义,当语言发展到一个较为完备的状态的时候,文字就顺其自然的产生了,因此文字单独存在没有任何意义,文字要和大脑产生作用才能产生价值。”
在他看来,文字是文化的支撑,文化的形成是一个需要时间积累的缓慢过程,是一个群体的生活共识,当形成这个群体的共识文化之后,具有不可推论、不可预测和不可论证,比如一些文章文字顺序对调或者没有按照正常顺序排列,并不影响人们正常阅读。
例如下面这段话:
“研表究明,汉字序顺并不定一影阅响读。比如当你看完这句话后,才发这现里的字全是都乱的。”
我们能够看得懂是因为我们眼睛获取的信息到达大脑经过分析,能够获取到正确的意思。
不可推论、不可预测体现在,对同样事物的语言表达今天和明天表达语境、逻辑、心情等具有不一样,无法整齐划一的预测。
同时,由于语言内部词汇、句法等结构的巨大差异,以及语言作为社会、文化等向外表达综合体现, 不同群体间的语言无法在转化中做到绝对的等值。
美国语言学家奈达在《对等的原则》中也指出:“在语言间不可能做到完全的对等, 因此也没有完全准确的翻译。译文的总体影响只会接近原文, 而不可能在具体内容上一致”。
技术性本质决定机器翻译具有天然的弊端
机器翻译是通过计算机实现从一种自然语言文本到另一种或多种自然语言文本的翻译,涉及到自然语言(Natural Language)的拆分、转换、分析、组合,还要将语意和语境理解分析,将词汇嵌入其中搭配组合,并且形成记录不断修正、纠错,已涵盖了自然语言处理的所有技术。
从起初的建立词典和语法规则库,到语料库和统计学规律,再到当今流行的人工智能神经网络,无论机器翻译如何发展, 终究逃脱不了其技术的本性。
从其本质来看,机器翻译是一种“拆解”方式,即人为地将自然语言划分为语法、结构等,用规则约束它, 把拆分的碎片化纳入“语料库”中, 再赋予一定的算法模型,但值得注意的是,人类语言是不能被形式化、单义化、被强求和程序化的,否则这种 “自然性”被破坏之后,就缺乏了其本身所具有的艺术性、模糊性和灵活性。
人类的语言是较复杂的, 人与人交流的时候都有可能产生误解, 更不用说机器了, 所以机器翻译或许可能无限接近人能够读懂和理解的能力,满足基本“正确性”要求,在实际的翻译过程中不是简单的对字面意思进行翻译, 还需要对作者想要表达的言外之意进行深入领会, 这是机器所欠缺的。
图注:百度指数提供的“人工翻译”“机器翻译”关注度走势图
近些年来,基于神经网络的翻译可以学习和收集信息模仿人类大脑的神经元建立联系,充分利用上下文信息,对句子进行整体编码和解码,从而生成更为流畅的译文,于是人们乐观地认为机器翻译将替代人类时代来临,使用时才发现翻译质量太差,开始怀疑机器翻译而回归到人工翻译。
Transn传神认为,尽管机器翻译在一定程度上保证翻译的高效性和准确性,但是可读性和流畅性始终存在很大欠缺,满足不了人们阅读精细化的需求,如果要保证翻译具有流畅性和可读性,又要有“言外之意”,必须需要人工的干预,即需要具备一定能力的专家对机器翻译内容进行修改审校,弥补其不足。
所谓的“人工干预”,就是机器辅助人翻译的“译后编辑”,翻译的效率背后还是由人类译员的能力决定的。
人工翻译“非标化”和“极限值”决定翻译难以有发展
翻译活动本身不仅仅涉及语言本身, 语言背后的社会、文化、经济、政治等因素决定了其是一个跨学科的交际行为,是人类译者在一个复杂的生态系统中进行适应、进化的过程,是一个非标化的翻译活动。
如果把一篇文章给1000个不同的人翻译,结果都不一样,因为每个人教育背景、知识环境、文化、情感等不一样。
值得注意的是,人类译员在翻译效率上劣势,决定了单纯依靠人工翻译难以有量的发展,无法满足人类的需求。
Transn传神董事长何恩培举了个实例,假设译员翻译的极限速度分钟180个字,人的阅读每分钟1500字,二者有 7-15倍的差距,人工翻译难以满足人类实际阅读速度需求。
在当今信息爆炸时代,人们学习和获取知识的速度以及需求也在急剧增长,人工翻译的极限的天花板决定了其发展难以跟上信息的裂变式速度。
图注:人类知识数据的增长周期
联合国教科文组织的研究表明:在18世纪时,知识更新周期为80-90年;19世纪到20世纪初,知识更新周期缩短为30年;上世纪六七十年代,周期为5-10年;而进入新世纪,已缩短至2-3年,2010年之后周期变为1年。甚至有人预测,2020年,知识更新周期将在每73天内翻1倍。
人类语言犹如一条复杂的地下河,人类一直借助机器和人工智能破解“跨语言沟通”翻译难题,机器翻译、人工翻译以及二者结合的人机共译模式下均各有弊端,但人类从未放弃过尝试和探索,Transn传神始终以“让人类沟通没有语言障碍”为使命,提出第三产能“Twinslator”全新理念,让“人赋慧于机器,机器赋能于人”,未来已来,其或将成为解决人类多语沟通的最佳实践手段。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。