原标题:十年蓝图与产业升级:百度NLP给你的七夕礼赠
七夕是什么?
对于中国人来说,七夕绝不仅仅是一个关于爱情和浪漫的节日记忆。它是对美好的诗性眷恋,对想象的包容,对不可能的挣脱,对星辰大海与人间烟火的归一。
而今人与古人最大的区别在于,今天我们有了科学的工具。在古人只能想象牛郎织女的故事时,在同样的七夕,今人可以自己动手去变不可能为可能。
英国诗人塞缪尔·约翰逊说,语言是科学的唯一工具。古时候,人类很早就有了巴别塔的传说,希望让不同国家、族群的人享受无界限的语言;而在今天,各行各业都需要语音、语义、知识相关的自然语言技术,来提高产业智能化水准,升级工作间的沟通与交流效率;面向未来,人类还希望通过自然语言与机器对话,与万物交互,让语言跨过人机交互的界限。
这些希望,就像这个时代关于牵牛织女的梦境,但区别在于,这个七夕有人正在努力让梦境变成现实。并且为了这个目标,他们已经奔跑了整整十年。
用技术破解语言的谜题的实现方式,就是AI的重要分支NLP技术。而国内最著名的NLP技术团队与产业旗帜,就是百度NLP。
8月25日七夕这天,以“掌握知识、理解语言、拥有智能”为主题的百度大脑语言与知识技术峰会在线上开启。百度CTO王海峰发表主旨演讲,解读百度语言与知识技术的发展历程与最新成果,与产学研各界分享技术及产业发展趋势和展望。
百度集团副总裁吴甜和百度技术委员会主席吴华分别发布百度语言与知识技术系列产品和数据集共建计划,推出3大新品和6项升级,全面加速NLP技术大规模产业应用。
成立十年以来,百度NLP团队始终都是中国NLP在学术探索与产业落地方面的双向引领者。王海峰认为,“在百度语言与知识技术的布局和发展中,我们始终在注意把握两个趋势,即技术发展趋势和产业发展趋势,并力争引领趋势。”
从研究方法、研究对象、研究方向、产业应用等各个层面来看,百度NLP都是今天中国布局最完整,与产业接轨最成熟,技术前沿性最丰富的产业力量。十年来,百度在NLP领域获得包括国家科技进步奖在内的20多个奖项,30多项国际竞赛冠军,发表学术论文超过300篇,申请专利2000多项。同时也积极推动NLP技术产业落地,与行业发展紧密结合,将NLP技术优势平台化开放给广大开发者,引领智能语言技术与千行万业结合。
如果说,古人想象的最大界限,就是牛郎织女间的银河,那么全球化的今天,人与人、人与机器间的最大界限,就是语言的界限。神话的鹊桥横穿银河两端,今天百度NLP所做的事情,就是为智能时代搭建一座新的语言鹊桥。解析这场峰会,我们可以读懂:
过去十年,百度打造了怎样的NLP蓝图?
此刻的产业机遇期,百度如何为千行万业提供NLP的动力与加速度?
面向未来,人类的新巴别塔上,还有哪些待解之谜?
一座语言的鹊桥,在此刻的烟火尘世与未来的智能时代间凝结——以百度NLP之名。
往昔的耕耘:十年蕴育百度NLP蓝图
十年发展的百度NLP,确实已经积累了太多技术、应用与产业案例。但百度今天的NLP实力,又是牢牢建立在过往十年的产业发展底座上。所以在百度大脑语言与知识技术峰会中,王海峰首先全面分享了百度在语言与知识技术领域的完整布局和最新成果。为我们展示了一张历时十年,耕耘而出的百度NLP全景图:
在堪称NLP底座的知识领域,百度打造了世界上最大规模知识图谱,拥有超过50亿实体和5500亿事实,并在不断演进和更新。百度知识图谱应用于各行各业,每天的调用次数超过400亿次。
在此基础上,百度不断强化堪称NLP核心的语义理解技术能力。2019年3月,百度提出知识增强的语义理解框架ERNIE,在 学习的基础上融入知识,具备人类一样的学习能力,曾一举登顶全球权威数据集GLUE榜单,首次突破90分大关。基于知识图谱和语义表示,实现了阅读理解、对话理解以及跨模态 语义理解。
为了让人机交互自然流畅,语言生成技术是NLP体验的关键。基于预训练技术的成功经验,百度提出基于多流机制的语言生成预训练技术,兼顾词、短语等不同粒度的语义信息,显著提升生成效果。百度也探索了多文档摘要生成,通过图结构语义表示引入篇章知识,在单文档和多文档摘要生成效果都有提升。
这些技术蓝图流入产业谱系,就构成了百度NLP技术在应用层面的深耕与实践。在对话系统领域,百度提出了知识图谱驱动的对话控制技术,以及首个基于隐空间的大规模开放域对话模型PLATO等,并推出智能对话定制和服务平台UNIT,可帮助开发者高效构建智能对话系统,实现规模化应用。
在另一个重要的NLP应用机器翻译领域,百度翻译目前能够支持200多种语言,每日响应超过千亿字符的翻译请求,支持超过40多万家第三方应用,技术上,提出了多智能体联合学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等。
百度大脑语言与知识技术的探索,同时还以平台化的方式输出,赋能千行万业,提升社会生产的普遍智能化水准。
从这张根据公开数据整理的全球NLP巨头产业布局对比图中,我们可以发现百度NLP在核心技术、产品应用布局,以及研发力量储备上,都已经具备了国际一流水准,可以与谷歌、微软两大AI巨头一教高下。百度NLP的产业成绩,已经客观达成了国内最强、世界顶级,开启了代表中国NLP产业向未来航行的领军者态势。
十年蕴育成了百度NLP蓝图,同时也蕴育了百度在语言与知识领域的不断突破与创新能力。今天,百度NLP并没有停下脚步,而是为千行万业与广大AI开发者带来了最浪漫的七夕礼物。
此刻的浪漫:5款新产品、2大计划,推动NLP邂逅产业
推动NLP技术走向产业,融入智能化进程,是以 学习为代表的AI第四次兴起周期中最重要的产业议题之一。而这一目标,是建立在大量可规模化复用、能够支撑工业级应用的NLP技术与产品基础上的。为此,百度在七夕这天带来了重磅的NLP礼物——百度集团副总裁吴甜接续发布文心(ERNIE)、TextMind、AI同传会议解决方案、智能创作平台、智能对话定制与服务平台UNIT等5款新产品:
百度推出的语义理解技术与平台文心(ERNIE),基于 学习平台飞桨打造,提供一站式NLP开发与服务,将减少开发者90%数据标注量、90%算力投入、85%模型开发时长,进而全面降低NLP定制开发的成本,让开发者更简单、高效地定制企业级NLP模型。
全新发布TextMind智能文档分析平台,基于OCR、NLP技术,以文档解析为核心能力,支持文档对比与文档审核,具备“多快好省”的核心优势,促进企业办公智能升级。
全新发布AI同传会议解决方案,覆盖会议全场景、全流程,旨在打造用户随身的“会议同传专家”。在邀测期间,百度AI同传会议解决方案已经支持了上百场会议,覆盖数十个领域,包括线上远程会议、线下会议。
百度大脑智能创作平台针对媒体应用场景再升级,全新推出智能策划、智能采编、智能审校三大媒体场景方案,进一步助力媒体效率,加强采编能力。
智能对话定制与服务平台UNIT升级3大特性:更智能的任务式对话理解、极致便捷的表格问答和融合通用的新引擎。截至目前,UNIT平台已有2.7万开发者,10万应用,累计交互4200亿,并积累知识2.4亿。此次UNIT全新推出的三大能力,将进一步降低任务式对话、智能问答的定制成本,并融合通用对话能力,提升交互体验。
在NLP产业化落地中,另一个长期挑战是数据匮乏、算力不足。为应对挑战,百度联合中国计算机学会、中国中文信息学会发起全球首个中文自然语言处理数据共建计划——千言,解决数据稀缺问题。
千言一期由来自国内11家高校和企业的数据资源研发者共同建设,已涵盖开放域对话、阅读理解等7大任务,20余个中文开源数据集。百度技术委员会主席吴华表示,百度计划在未来3年,面向20余个任务,收集和建设不少于100个中文自然语言处理数据集,覆盖语言与知识技术全部领域。
吴华还发布了百度语言与知识技术算力共享计划,通过百度AI STUDIO平台提供算力支持,让广大开发者破除算力桎梏,专注于技术创新。
全新的技术、产品与产业合作计划,构成了百度NLP与千行万业智能升级进一步“相知相恋”的契机。在这个七夕里,最好的礼物是美好的未来,而这也是百度NLP的长久努力方向。
未来的银河:从NLP到智能时代
十年坚守,是为未来。
在AI技术推动第四次工业革命到来的关键契机中,NLP技术构成了变局的核心。从技术特征上看,NLP最大的潜力在于其探索 是近乎无限的,并且将始终激发新的需求、新的产业逻辑与落地场景。
无论是从百度过往布局的技术蓝图,还是今天推动的新技术、新产品,百度NLP始终在指向宏伟的未来,也就是百度NLP在部门成立时提出的“掌握知识、理解语言、拥有智能”。为了不断走近NLP指向的智能时代,百度NLP始终坚持人才为本,不断在发展过程中培养、吸引全球顶尖人才,为长期发展探索做出坚实准备。在峰会上,百度推出以王海峰为代表的百度NLP“十年十人”,也正是他们的十年坚守,不忘初心,才让NLP技术从科幻作品中走到现实,变成通往未来的康庄大道。
今天的NLP技术发展,还远远没有走到尽头。虽然百度NLP成果辉煌,但我们眼前更多的是未知与挑战。峰会上,王海峰也提到了语言与知识技术发展面临的难题。他表示,复杂知识表示和快速构建技术,知识与 学习进一步融合, 融合感知和认知的跨模态语义理解技术,模型可解释性和鲁棒性等等,仍有很多技术难题需要持续研究和解决。
而正是始终有未知,始终在探索,才让未来的银河绚烂于今夜的七夕。百度NLP的技术蓝图、新品发布,更远处指向着智能时代的洪流,指向着解开语言之谜的可能与执着。
关于百度NLP的未来发展,王海峰提出:“我们致力于更好的与学术界、产业界携手,推动语言与知识技术发展,进而推动人工智能技术持续进步,为产业持续升级、社会经济高质量发展贡献力量。我们对未来充满信心,坚持掌握知识、理解语言、拥有智能,继续突破和创新,为技术和社会进步做出更大贡献。”
当自然语言的奥秘,邂逅千行万业的智能化升级——金风玉露一相逢,便胜却人间无数。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。