知识图谱重构数据价值
通俗来讲,知识图谱就是一种以相互连接的实体和他们的属性构成的信息组织形式。也可以说是由一条条知识组成的一个集合,每条知识表示为一个SPO(Subject-Predicate-Object)三元组。谷歌正是利用这一方式将散落在互联网上的结构化、半结构化和非结构化信息进行组织,使计算机能够理解人类的语言交流模式,实现智能交互。同样,在银行风险管理工作中,利用知识图谱技术,可以在各种数据来源的信息上叠加领域知识,最后辅以各种数据可视化手段,展示目标对象的风险全景视图,满足风险识别、监测等多种需要。
如图是一个知识图谱系统的基本架构:从内外部的各类数据源获取信息,信息抽取之后经历信息的融合和计算完成知识图谱构建。在实际使用中,可能还会涉及知识准确性校验等工作。
图 知识图谱系统架构
知识获取
信息不对称是很多风险的根源,在知识获取阶段,需要突破广度和 的瓶颈,尽可能做到全面、应有尽有,满足完整性原则。银行内部数据非常庞大,如何从中抽取业务场景所需的信息是知识获取的关键。以信用风险为例,客户的财务状况、贷款记录、交易行为等能准确反映其信用状况。这些内部数据基本都以结构化的形式贮存在银行内部的关系型数据库中。
另外一方面,随着整个社会电子化程度的不断深入,能够从外部获取到的数据源也在逐年扩大。比如企业的工商登记、法院的案件和执行、各类行政和环保处罚、纳税记录等,这些数据都以各种半结构化或非结构化的形式驻留在各类机构、媒体的服务器上。银行通过有偿的数据接入或者公开渠道爬取的方式获得这些信息。
知识融合
融合过程中需要满足准确性原则,具体操作上存在两个维度的融合:一方面是银行内部数据之间;另一方面是外部数据和内部数据之间。其根本是要解决本体的一致性认定,一般采用数据映射技术或者实体匹配来进行本体融合。在具体实现中,通过对不一致的具体问题具体分析,有助于突破知识融合的难点。
一个比较大的不一致根源是数据标准不统一。对于内部数据而言,可以要求逐步统一数据标准,以保证后续数据的一致性。但对于大量的外部数据和内部历史数据很难苛求,只能通过各自业务领域约定俗成的规则来进行匹配。比如企业通过组织机构代码证,个人通过身份证号来匹配。还有一些比较复杂和耗时的,比如同名行外户的本体识别等。
另外一个比较大的不一致来源于同一个本体在时序上的表现状态差异化。比如公司更名、贷款重组等。这类不一致往往是各类风险隐患的温床,是需要重点突破的地方,成功与否决定着最后知识应用的效果。
在解决本体一致性认定问题之后,还需要完成本体之间的显性关系整理。这类关系整理相对容易,一般在银行内部以关系型数据的方式留存,采用传统的ETL方式即可。从贷款的担保中整理本体之间的担保关系,从工商注册登记中整理出本体之间的投资、股权、分支机构和法人、任职等关系。但也有一些常识性的显性关系反而不容易通过电子渠道获得,比如配偶、兄弟等关系,这些就需要严控数据录入源头、提升数据采集能力。
知识计算
本文讨论的问题域是银行风险,构建的是一个特定专业领域的知识图谱,而不是一个普适性的,因此在知识计算上应该满足适用性原则。以风险管理领域知识和需求为出发点来进行知识重构,本质上是要挖掘出知识之间的关系,主要是非显性的关系——隐性关系分析及深层次关系探索。在方法上,采用通用推理逻辑结合业务领域知识来发现隐含的知识。
利用文本分析技术,完成对舆情、案件等非结构数据的处理,构建出隐性关系。对于深层次的关系需要针对具体的问题场景制订模型进行分析。在结构上,知识图谱以RDF图的形式构成,采用一些基本的图推断方式发现本体的隐含关系。同时,还可以变相地构建时空图,分析图谱中实体的时空影响力,构建概率图模型推断复杂问题场景中的隐藏因子等。
在资金流水问题场景中,通过名称映射模型统一本体,在此基础上,基于时间序列模型将独立的交易流水汇聚成可以追溯的资金链路,再利用统计学的知识,解析出关键交易对手,并据此计算出本体之间的资金依赖程度。在企业控制关系问题场景中,通过图的遍历算法,结合业务规则,寻找出各类疑似关系。类似的还可以构建出实际担保关系、担保圈、一致行动人等。
对银行而言越来越迫切需要从集团层面来关注企业,而不是孤立地关注一个个的企业。但是在实际业务中,对于集团的识别却存在较大困难。一方面,传统的“人盯人”方式可以做到精细化管理,但如果要覆盖所有企业则成本高昂;另一方面,部分企业的股权结构变化频繁,时效性上无法获得保障;此外,严重依赖于人的主观判断,对业务人员要求较高,容易滋生道德风险。利用知识图谱,在知识计算过程中,通过控制溯顶和有效链路计算,即可有效构建集团关系族谱。
在这个问题场景中,根据给定的本体,在RDF图上路由股权投资关系信息,在路由的过程中根据业务逻辑规则裁剪掉公众持股、国资委等链路,即可找到符合业务需要的根节点。从根节点开始根据不同业务需求向下探索,刻画出该集团下所有节点的子树。以此构建整个集团的族谱,并可直观获知到目标企业的集团地位等一系列深层次知识。
知识应用
知识图谱构建完成之后,就可以轻松地应用到全面风险管理的多个操作环节上。比如在贷款全流程中,有效控制贷款准入,提升贷款决策的有效性;在审批额度时,防止多头授信,规避关联企业互相担保;在贷后监控中,监测资金流入关联企业,参与民间借贷;在保全过程中,可以识别企业的关联资产,弥补损失。
在具体的工作中,我们将自动化构建出来的集团与银行内通过客户经理手工维护的集团进行交叉比对,梳理出一批未被纳入集团统一授信的企业,有效达到了风险防控目的。同时通过比较计算出来的集团族谱与历史存量的集团树,可以不断完善和校验知识计算的准确性。两者可以相辅相成,互相验证和查漏补缺。
除了通过技术手段直接将知识图谱应用到业务管理之外,还需要一套简洁、高效、易用的人机交互接口,供各类用户使用。从本质上来说,谷歌搜索结果就是在提供类似的服务。简单地应用传统的界面展示技术即可完成客户风险的整体视图,而对于图的展示,则需要借助一些更友好和复杂的动态交互控件。
总结展望
大数据技术的不断发展提升了银行数据分析和挖掘的能力,如今普适性的知识图谱技术已经获得了卓有成效的应用,在具体专业领域内的知识图谱技术还有待进一步完善。在具体实施上,遵循的基本路径一致:通过知识获取、融合来准备数据,通过计算实现价值重构,应用于具体的场景以解决实际问题。
知识图谱在风险领域的应用有着广阔前景。从计算机的智慧化来讲,最原始的是在明确的规则下,特定的问题域内实现计算。目前很多的业务监控规则基本都是这一类型,解决的是人类重复劳动的问题。进一步发展到语音、图像和视频的识别,是一种感知的智能。最终希望实现人工智能,则必须要实现认知上的智能。要求计算机去理解、推理和解释,需要依赖于知识图谱。可以说,知识图谱是达到最终目的地的基石。
银行与金融科技融合的理想境界是什么?是银行即服务。
2019年6月14日,亿欧智库研究院将在“2019丨全球新经济年会·金融科技峰会”上发布《2019开放银行与金融科技发展研究报告》, 解读金融科技赋能开放银行的融合与落地应用——上海·虹桥·世贸展馆邀您见证!抢票链接:https://www.iyiou.com/post/ad/id/792
本文已标注来源和出处,版权归原作者所有,如有侵权,请联系我们。
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 万事达卡推出反欺诈AI模型 金融科技拥抱生成式AI
- OpenAI创始人的世界币悬了?高调收集虹膜数据引来欧洲监管调查
- 华为孟晚舟最新演讲:长风万里鹏正举,勇立潮头智为先
- 华为全球智慧金融峰会2023在上海开幕 携手共建数智金融未来
- 移动支付发展超预期:2022年交易额1.3万亿美元 注册账户16亿
- 定位“敏捷的财务收支管理平台”,合思品牌升级发布会上释放了哪些信号?
- 分贝通商旅+费控+支付一体化战略发布,一个平台管理企业所有费用支出
- IMF经济学家:加密资产背后的技术可以改善支付,增进公益
- 2022年加密货币“杀猪盘”涉案金额超20亿美元 英国银行业祭出限额措施
- 北银消费金融公司【远离各类不良校园贷】风险提示
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。