说到人工智能技术,人们首先会联想到 学习、机器学习技术;谈到人工智能应用,人们很可能会马上想起语音助理、自动驾驶等等,不过,在AI World 2017世界人工智能大会上,百度副总裁、AI技术平台体系(AIG)总负责人王海峰却没有讲这些,这次他聊的是知识图谱。
虽然你可能说不出知识图谱的具体定义,但其实每天都在使用它。当你在百度搜索时,搜索结果右侧的联想,就来自于知识图谱技术的应用;你问百度某个字怎么念,答案也来自知识图谱的应用;你和度秘聊天,问他詹姆斯和科比谁厉害、都取得了哪些成就等等,背后都是知识图谱在发挥作用……王海峰在演讲中甚至表示,百度搜索、地图、金融……越来越多的应用,都越来越依赖知识图谱。
听完王海峰的演讲,我的第一个反应就是:知识图谱的价值被行业低估了,各行各业都在研发底层技术和寻求AI场景,却忽视了最成熟也很重要的AI技术:知识图谱。
知识图谱跟人工智能有什么关系?
知识图谱不难理解——就是通过不同知识的关联性形成成一个网状的知识结构,对机器来说就是图谱,形成知识图谱的过程本质是在建立认知,理解世界,理解应用的行业或者说领域,每个人都有自己的知识面,或者说知识结构,本质就是不同的知识图谱,正是因为有获取和形成知识的能力,人类才可以不断进步。
王海峰认为,知识图谱对于人工智能的重要价值在于,知识是人工智能的基石。机器可以模仿人类的视觉、听觉等感知能力,但这种感知能力不是人类的专属,动物也具备感知能力,甚至某些感知能力比人类更强,比如狗的嗅觉。而 “认知语言是人区别于其他动物的能力,同时,知识也使人不断地进步,不断地凝练、传承知识,是推动人不断进步的重要基础。” 而知识对于人工智能的价值就在于,让机器具备认知能力。
知识对于AI的价值,王海峰的总结是两者结合可以正循环:
“有了知识的人工智能会变得更强大,可以做更多的事情。反过来,因为更强大的人工智能,可以帮我们更好地从客观世界中去挖掘、获取和沉淀知识,这些知识和人工智能系统形成正循环,两者共同进步。”
在此之前,人工智能的基础是什么?行业有不同声音,比如马云说数据就是未来的能源,与云计算和互联网一起构成智能世界的基础;李彦宏说算法很重要,数据秒杀算法;马化腾说AI的四个要素是数据、场景、计算力和人才。总体来说,数据和算法是大家认为比较基础的东西。王海峰从技术层面将将AI核心技术分为感知层与认知层,提出认知层的基础是知识的观点,与行业的看法并不矛盾。因为知识图谱的基础,就是数据和算法,它需要应用自然语言处理和 学习技术来进行数据挖掘,在海量知识中找出关联性,形成图谱。
为什么王海峰如此重视知识图谱技术?
构建知识图谱这个过程的本质,就是让机器形成认知能力,理解这个世界。事实上,现在机器的感知能力已经越来越接近于人类了,语音识别准确率达到97%甚至更高,图像识别某些领域如人脸识别,比人类个体更加准确和迅速。所以,未来人工智能的重点进步方向将是认知层,机器理解这个世界,才能更好地与世界交互,为人类服务。百度是中国最积极和大力布局人工智能的科技巨头,作为百度人工智能技术体系的最高负责人,王海峰重视知识图谱也表明百度未来会强化机器认知能力。
当然,王海峰为什么如此重视知识图谱,还有两层不容忽视的原因。
第一,王海峰本人的研究方向和从业经历决定他是务实派。
王海峰不是从研究学者转型而来的技术管理者,而是学术和工程并举,从实践中成长起来的科学家。王海峰2010年加入百度时,这一轮AI热还没爆发,即便是最早布局AI的百度,成立 学习实验室也是在2013年。王海峰加入百度后,先后为百度创建了自然语言处理部、互联网数据研发部(包括知识图谱和互联网数据挖掘)、推荐引擎和个性化部、多媒体部(包括语音和图像技术)、图片搜索部、语音技术部等。
不难发现,百度最核心的AI相关技术王海峰都有经手甚至牵头主导,与自动驾驶等技术的不同之处在于,这些技术都是直接影响上亿用户的应用型技术,而且相当一部分与知识图谱有直接或间接关系。2013年上半年,王海峰作为执行负责人协助创建了百度 学习研究院(IDL),百度正式进入AI行业,他此前几年为百度布局的技术,为百度进入AI领域打下了基础。我想正是这几年让王海峰的技术研发更偏应用性,注重实用价值,今天提出“知识图谱对AI是基石”也许与这个思维方式有关系。
王海峰在学术上也居于大师级地位。在自然语言处理领域,他是世界上影响力最大的国际学术组织ACL(计算语言学协会)最年轻的会士,也是ACL 50多年来唯一的华人主席。百度搜索、翻译、语音、输入法以及知识图谱等等产品,都是基于NLP技术。因为在人工智能上的成就,王海峰在今年5月还获得了国家级科技奖“全国创新争先奖”。
无论是作为百度AIG的负责人,还是学术大师,王海峰看重知识图谱的价值都不奇怪。
第二,百度很早便在知识图谱上进行布局,储备充分。
百度很早就在研发知识图谱技术。2014年开始,百度在搜索中将知识图谱产品规模化应用,3年应用量增加了160倍,百度的知识图谱的知识点已经达到几个亿;在技术层面,百度知识图谱技术已经实现了动态技术,每天有几百个数据流同时工作,支持秒级更新和多层查询。世界是变化的,百度知识图谱对世界的认知也是变化的,动态知识图谱,需要很强的数据、算法和计算基础。
百度知识图谱不只是被应用在搜索系产品中(包含问答、百科等),DuerOS、信息流、甚至以图搜图,都在应用知识图谱。王海峰在演讲中透露,百度知识图谱已经应用到几十个领域。我记得2015年,百度还将知识图谱应用在股票领域,旗下产品股市通通过数据、信息与股票的关系,以及股票与股票之间的关系,在股票领域首创知识图谱,实现智能选股。
可以说,百度在知识图谱上已经在数据、算法、计算和场景上形成了优势,这也是百度被严重低估的一个优势。算法、数据、计算力,每家公司都有,但在知识上百度却是积累最丰富的,不只是狭义的百科、知道、文库等等知识产品,搜索引擎与用户交互的过程本身也是在完善知识体系。所以百度自然要用其擅长的知识图谱,去强化在AI领域的优势,尤其是机器认知能力和应用价值。
知识图谱成为AI应用行业的先决条件
人工智能已受到各行各业的关注,不只是BAT在战略投资人工智能,金融、汽车、零售、娱乐、制造等等行业都在积极拥抱人工智能技术。然而,人工智能要在行业中得到应用的先决条件,首先要对行业建立起认知,只有理解了行业和场景,才能真正智能化。说白了,就是要建立行业知识图谱,才能给行业AI方案。
一个例子是零售行业,如果真要实现个性化的商品推荐,机器必须理解不同商品的特性,以及商品与销售场景(如季节、地区、时段)、与促销行为(打折、送券)、与用户需求之间的关系,才能推荐满足用户需求的产品。这也是一个优秀的推销员或商场导购的思考逻辑。然而,要理解这些要素之间的联系,就必须构建零售行业的知识图谱,且需要不断动态学习来完善认知,才能进行有效的推荐,这就是“零售知识图谱”。当然,针对不同的零售细分领域,比如美妆、3C、食品等,可能又要建立完全不同的知识图谱,就像人类社会的细分一样,在每个行业都建立起特有的知识图谱。
类似逻辑同样适用于客服、金融、制造、娱乐等场景,总而言之,人工智能要在一个行业得到应用的前提,就是要让机器建立起对应行业的认知,形成行业知识图谱。王海峰在演讲中也指出,
“人工智能与传统产业融合的过程中,要想为这个行业提供更好的服务,就需要对这个行业进行定制化,要有行业知识,这时候就需要在通用知识图谱的基础上,有相应的行业知识图谱,进而帮助这个行业提升生产力,帮助这些行业、产业升级。”
王海峰的逻辑,也是未来人工智能走向应用的必经之路:机器通过人工智能技术与用户的互动,从中获取数据、优化算法,更重要的是构建和完善知识图谱,认知和理解世界,进而服务于这个世界,让人类的生活更加美好。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。