学习三巨头之Yoshua Bengio畅谈AI如何才能说“人话”

在人工智能学习的研究中，科学家们发现语言学习是其中最为复杂的领域，语言本身可表达表层意思，也能表达深层语义，因此机器的语言理解能力不仅包括描述能力，也包括解读和举一反三的能力，语言的复杂性与人类文明的演变息息相关，因此科学家们在构建语言学习模型的同时，也开始将研究焦点从语言本身扩展到语言的历史、文明的演进等方面，本期焦点人物YoshuaBengio正是该领域的佼佼者。

本期编译文章来自于Yoshua Bengio于2018年发表的关于“人工智能如何理解语言”的演说。Yoshua Bengio将会讲述人工智能在语言理解方面达到人类水平的要点，并且介绍了他引以为豪的“人工智能娃娃游戏平台”，且看他独树一帜的学术观点！

oshuaBengio是学习三大学术巨头最纯粹的学术派泰斗级人物，蒙特利尔大学计算机科学与运算研究系教授、蒙特利尔大学算法学院MILA院长， “人工智能娃娃游戏平台（BabyAIgame）”发起人。

【算力观点】

语言学习面临两大主要难题：缺乏高度接近人脑思维的训练模型以及所需算力成本高。Bengio博士提出的“意识先验”模型了模仿人脑的认知系统并且过滤不参与思考过程的信息，有望突破语言学习模型的瓶颈以及拓宽人工智能在语言学习领域的应用范围。

强人工智能的实现当然离我们很远，但关于人工智能的道德伦理问题的讨论从来没有停止过，当人工智能也拥有“意识”时将引出两方面的问题，首先是人工智能在法律意义上的社会身份，其次是它带来的潜在威胁，需要全社会共同关注。

机器学习人类语言的步骤：先搞懂历史，再学习语言

一直以来人们都严重低估了处理语言学习的难度，甚至有一些研究已经在往错误的方向发展——依靠非常庞大的语料库。

仅仅在语料库的基础训练学习模型是不够的，造成的后果是，很多模型训练的效果只能是“捕获”粗糙的信息，翻译出来的句子意思词不达意，而优秀的学习可以预测基于句子中的其他部分。

在语言理解能力的层次上，初级和高级之间的深层差异是“常识”，以威诺格拉德模式测试（图灵测试的另一个版本）为例，通过提问的方式测试机器是否具备人类的思维能力，比如解读句子，针对“女人停止吃药因为她们怀孕了”，问题将会是‘“她们”指的是什么？是女人还是药？’，而如果将“怀孕”改为“患了癌症”，答案将会不一样。

机器达到和人类同等水平的语言理解能力是有可能的，但我们首先要明白当我们去理解句子或者文档的时候，我们的大脑到底经历了什么？

根据研究发现，答案是“知识”，但现有的方法仍然存在局限性。

以学习外星人的语言为例，学习外星语言的过程通常是观察他们的互动以及构建学习模型——关于他们的互动和语言文本关系的模型，但仅仅凭零碎的单词或者词组信息是不够的，必须理解它们的语境和意图。

解决的方法是通过结合语境升级训练模型，把信息的前因后果考虑进去。但这将会是难度极高的语言学习模型！因为我们还需要去理解外星人的社会形态。

基于这个逻辑，需要首先搭建模拟外部世界的学习模型，用于理解人与人之间的互动行为，理解外部世界是如何运作的，最后再回到语言学习的部分，最终将模糊语言与实体世界结合起来。

外部世界模型和语言学习模型的搭建应同步进行，原因是来自人类文明史的启发，在人类发展的进程中文明和语言密不可分，初级社会向高级社会演变的同时，语言也从个体化走向社区化，语言的体系也变得更加的复杂多样，反过来也促进着人类社会的进步。

机器也要“快思慢想”：构造仿人脑的认知系统

诺贝尔经济学家Kahenman在《快思慢想》中提出人脑的认知系统分为一类认知系统和二类认知系统。

一类认知系统负责完成可以快速完成的、无意识的动作，比如口渴时把水杯拿起来喝水，但某些情况下可能导致结果不严谨，由于一类认知系统不处理语言信息，只能识别出眼前的电话，而不能解释为什么认为它是电话。

二类认知系统则相反，负责耗时长、有意识的动作，所以下至语言，上至编程，它都能Hold得住。人类在学习计算机科学和逻辑学当中正是大量的用到了二类认知系统，而基于符号学的人工智能正往二类认知系统的方向靠拢。

兼具两个系统优点的人工智能是我们要实现的，这样的系统是接地气的语言学习模型，它将是未来研究的主要方向，简单来说，这样的学习模型在信息覆盖面方面是无死角的，通过细致入微的观察周边环境以及人的活动，将这些外部信息和语言联系在一起。

图片来源：论文《Grounded Language Learning in a Simulated 3D World》（如图：人工智能体接收到文本指令后，在不同的场景中尝试完成指定任务）

大家几乎都在探索“最接地气”的语言学习模型，比如通过强化学习模型，人工智能体在虚拟场景下接受指令完成各类任务，智能体将模糊语言和具体实体场景联系起来的能力越来越强，意味着语言能力也越来越强。

人工智能体在训练中会主动观察，而且它的行为基本不被干预，训练的效果只是被实验者持续观察，这样的框架将是未来语言学习模型的主流方向。

但这方面的语言学习研究因为还停留在虚拟环境实施而备受质疑，批评者认为不在真实环境中测试的研究都是耍流氓。

实际上很多人操之过急了，真正懂“人话”的人工智能离我们还十分遥远，这可是人类的终极目的呀。

我们步子不应该迈太大，小目标是搭建通用的学习机制和框架，让人工智能在虚拟环境中应对自如之后（走路），长远再考虑于实际环境中执行（跑步）的分步走实施才是上上策。

12下一页>

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）