极光开发者大会：达观数据王文广谈文本智能处理

2018年11月17日，由国内领先的移动大数据服务平台——极光大数据举办的首届极光开发者大会在深圳召开，近千位互联网公司技术领袖、合作伙伴、开发者齐聚一堂，围绕大数据、人工智能、移动开发等广受关注的热点话题，共同探讨移动开发的下半场，构建健康的开发者生态。

达观数据王文广作为人工智能分论坛的重要嘉宾出席本次大会，并发表《文本智能处理在企业的应用实践》的主题演讲。

文本智能处理在企业的应用实践

主讲人：达观数据王文广

大家好，我是来自达观数据的王文广。达观数据是一家专注于做文本智能处理的公司，主要集中在利用NLP技术帮助文本工作者提升效率，降低成本。

一、文本智能处理概述及其应用难点

我们今天的主题是文本智能处理。

文本智能处理在各领域的需求非常多。我们日常能见到各种各样的文本，律所、金融机构、媒体、政府等每天都要处理很多不同形式的文本。对人类来说，进行文字处理是一个非常自然的形式，我们可以利用不同的语境去理解文字。但由于风俗习惯、语言习惯，以及人所处的环境等隐含条件的存在，准确地理解文字对于计算机来说是非常复杂的。如何让计算机准确地理解文字，这是我们目前面临的一大难题。

为了解决这个难题，学术界、工业界的科学家们组织了三种不同层级的分析：词法分析、句法分析和语义分析。

1、词法分析：把句子截断成一个个的词，分别标注每个词是什么词性，从而帮助计算机从词或者字的层级上理解文字;

2、句法分析：把句子中的不同成分识别出来，比如主谓宾、定状补等，从而帮助计算机理解文字;

3、语义分析：通过各种算法帮助计算机理解文字里的隐含意思。

在词法分析中，可能会遇到一词多意的情况。比如搜索时，你可能会想到一些关键词，但是这个关键词除了你能想到的以外可能还有别的表达方式，如果计算机能够理解其他的表达方式，它就可以更好地把结果反馈给你。还有指代的问题，你我他对于人类来说是很容易理解的事情，但是对于计算机来说，还远远没有达到可以完美解决的地步。

在句法分析中，相同的字词在不同的上下文里可能会有不同的含义。有时候，文字顺序的变化对于人类来说完全不会造成理解上的问题，但是对计算机来说就会造成一定难度。

语义分析是更难的问题，因为它涉及到上下文、语境、不同地方风俗习惯的表达问题。

为了解决这些问题，我们构建了一个模型，把很多人类存在的文字输入到模型里，让模型去理解人类是如何表达这些意思的。当面对新的问题时，这个模型就能够很好得处理这些问题，并把处理结果以一种合适的方式展现出来。

二、学习技术在文本智能处理上的应用

刚才介绍到文本智能处理中遇到的一些问题。为了解决这些问题，我们发明了很多技术。学习便是其中一种。

在人工智能的范畴里，学习是机器学习的一个子领域，而机器学习是人工智能中的很小的一块。传统的机器学习需要像专家一样去理解文字，把文字中有用的信息提取出来，再通过机器学习的方式去建模。而学习可以把人工特征的部分做到模型里，在模型中解决特征抽取的问题。

学习并非有一个完全规整的数据就可以。当面向一个真实应用场景或者一个真正能为企业所用的项目时，它还需要有很多预处理工作，这些一般都是非常琐碎的。面向不同的业务场景时，我们可以应用文本分类、情感分析、中文分词、机器翻译等。

为了处理这些问题，近几年出现了很多算法：从2013年开始的Word2Vec，2014年的Glove，2016年的FastText，再到今年2月的ELMo和10月的BERT。BERT模型全面超越了前面几个模型。

BERT中主要有两个模型：一个叫Masked LM，也叫遮掩的语言模型，随机遮掩掉一个句子中的一些字或者词，让计算机预测被遮掩的部分。比如把“我来自达观数据”中的“自”和“观”遮掩掉，让计算机来预测“达”前后分别是什么字，这需要通过大规模的预料进行学习和预测;另一个叫Next Sentence Prediction，用来判断句子放在上下文中是否是合理的。举一个唐诗中的例子，“花径不曾缘客扫”，如果输入“花径不曾缘客扫，蓬门今始为君开”，这个模型会显示“是”;而输入“花径不曾缘客扫，一枝红杏出墙来”，会显示“否”。

BERT模型可以帮助理解词或者字在大规模预料的上下文中所表达的不同意思，它出现以后，刷新了所有NLP相关领域的各种评测分数。

BERT模型只能理解字、词或者文本的意思，但是理解本身并不是我们追求的目的，我们要的是真正地去处理问题，比如做情感分析。于是LSTM就成为文本处理自然而然的选择，它既可以做文本分类，也可以用来写一些简单的句子或者诗词。

LSTM的训练速度非常慢，于是我们又从TextCNN开始探索将CNN应用于文本智能处理。DPCNN是CNN的集大成者，它是一个2017年发布的模型，可以在不丢失结构信息的情况下，建模更复杂的非线性特征。

如何将学习应用到NLP常见的场景下呢?我们可以通过序列标注解决信息抽取的问题，将信息分为B(Begin)M(Middle)E(End)S(Single)四个类别，从而对词进行标注和判别。

对于自然语言处理来说，低频词汇和专用领域词汇是很大的难点。单纯的Bi-LSTM层并不能很好地解决问题。通过将专用词典的某种表示和原始的字向输入、拼接在一起作为CRF层的输入，在一定程度上可以解决这个问题。

当然，学习也有缺点，比如它需要非常多的训练语料、计算资源和存储资源。当这些条件无法达到时，我们需要学会权衡。通过Deep&Wide，达到更好的效果。

三、知识图谱技术在文本智能处理上的应用

除了学习，知识图谱技术也能够帮助我们更好地做文本处理，它最大的优点是可以把人类专家的知识结合进来。

知识图谱分为通用型知识图谱和行业垂直型知识图谱。通用型知识图谱是一些大型搜索公司做的“结构化的百科知识”;而行业垂直型知识图谱则是面向某一特定领域的，如金融、法律、财会、教育等，以专家知识为主，是“语义层面的行业知识库”。实体、属性和关系是知识图谱的核心三元组，基于已有的三元组，可以推导出新的关系。通过学习，知识的表示正在从三元组迈向稠密向量。

知识图谱的构建是一个复杂的系统工程，涉及Schema定义、知识抽取、知识存储、知识融合和知识推理等过程。

1、Schema定义：定义知识图谱需要非常多的业务专家。一般使用自上而下的方式构建Schema(本体)，自下而上构建方法则需对最终进入Schema库的内容进行审核和确认。

2、知识抽取：定完Schema之后，需要通过机器学习、学习、或其他技术把相应的知识抽取出来。一般而言，结构化、半结构化的文本可以很好地转化为知识图谱;但非结构化文本，比如新闻、法律相关的文本就需要通过各种技术进行知识抽取。在不同的场景下，我们可以采用不同的知识抽取算法。

3、知识融合：多源知识融合是巨大的挑战。相同实体、概念、属性和关系等可能存在于不同的数据源中，比如维基百科、百度百科、影视剧、二十四史中都有“苏东坡”这个实体;不同数据源对相同实体、概念、属性和关系等可能存在不同的描述，比如苏东坡，苏轼、东坡居士、子瞻、苏学士等;知识融合存在多种叫法不同但内容相近的名称，如实体对齐、实体匹配、实体消岐等;多语言也是一个挑战，不同的翻译经常出现，比如美国总统川普，特朗普，Trump等。

4、知识存储：一个好的存储系统才能够更好地支持检索和使用。比较传统的知识存储系统是RDF、Apache Jena等等，现在比较流行的是JanusGraph。

5、知识推理：知识推理能够对知识图谱进行补充和完善。知识推理的方法有基于符号逻辑的、基于统计的，以及最新的基于学习、强化学习的等各类方法。对不断演化的知识图谱进行质量评估是保证知识图谱质量的关键一环。

在实践过程中，关于数据的有效合理使用，有几点经验：

1、优先使用确定的结构化数据库中的数据;

2、优先使用置信度高的数据源;

3、结合外部互联网数据预料和内部企业自由文档资料;

4、行业内部积累的专业词典、行业术语、经验规则比较重要。

以上就是对构建和使用知识图谱的简单总结，这个过程是不断完善、不断进化的。

四、达观数据在文本智能处理上的应用实践

接下来介绍一下达观数据在文本处理领域的一些应用场景。

1、关键信息抽取：从大量文本中自动提取出指定类型的关键信息例如合同、票据、企业资料、人事简历、法律文书等文档中的核心内容，进行自动识别和抽取;关键信息抽取也是构建领域知识图谱的关键技术之一。

2、自动审核：为企业自动化抽取文档的关键信息、对比不同版本的文档差异、智能纠正错误文字内容，以及发现文书中潜在的法律风险，有效提升专业人员效率。

3、智慧招聘：通过构建行为画像，预测算法，从而预测职位需求，达到职位与简历之间的智能匹配，帮助HR更好的招聘。

4、融合知识图谱的智能推荐系统：个性化推荐 (千人千面);场景化推荐 (沙滩鞋->游泳衣、防晒霜、海岛度假产品);任务型推荐 (牛肉卷、羊肉卷->火锅底料、电磁炉? ;螺丝、螺钉->多功能螺丝刀);冷启动环境下推荐 (语义标签：摄影VS旅游;相同导演或相同主演的电影);跨领域推荐 (微博商品推荐?用户经常晒九寨沟、黄山、泰山的照片->登山装备);知识型推荐 (清华大学、北京大学->复旦大学(985名校);阿里、百度->腾讯(互联网BAT等)。

5、垂直搜索引擎：垂直搜索引擎可以帮助企业人员更好地进行企业资料和应用内搜索，更快、更准确地找到所需的资料，提高效率。

6、场景化分析系统：如舆情分析、热点分析、军事情报分析、商业情报分析等。

我们希望未来能够帮助到越来越多的文本专业写作人员或专业职位提高效率，让更多的人能有更多时间用来做更面向未来的事情。

我今天的分享就到这里，谢谢大家。

关于极光

极光(纳斯达克股票代码：JG)成立于2011年，是中国领先的移动大数据服务平台。极光专注于为移动应用开发者提供稳定高效的消息推送、即时通讯、统计分析、社会化组件和短信等开发者服务。截止到2018年9月份，极光已经为36.9万移动开发者和99.1万款移动应用提供服务，其开发工具包(SDK)安装量累计近174亿，月度独立活跃设备近10.3亿部。基于海量数据和洞察积累，极光已将业务拓展至大数据服务领域，包括精准营销(极光效果通)、金融风控、市场洞察以及商业地理服务(极光iZone)。极光将继续借助人工智能与机器学习为移动大数据赋能，致力于为社会和各行各业提高运营效率，优化决策制定。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

极光开发者大会：达观数据王文广谈文本智能处理

下一篇