互金风控进化史：人工、实地到智能大数据走过哪些曲折？

今天大家都已经习惯了线上秒批、数字信用等基于人工智能和大数据的风控体系。但是追溯到十几年前，数字风控却付出过惨重的代价。十几年一路走来，随着大数据以及人工智能等技术的不断完善，互联网金融才真正让大数据风控走向完美。

日前，在玖富集团开放日上，玖富首席数据科学家、首席风险官谷颖讲解了人工智能的应用要素和发展阶段，揭示了智能风控的进化史。

(玖富集团开放日)

从互联网金融祖师爷的垮掉说起

NextCard是互联网金融行业绕不过的一个案例。这家公司堪称互联网金融的祖师爷。NextCard总部设在旧金山，通过互联网发放信用卡的公司。公司提供一套VISA卡网上信用审批系统，并为使用者申请者提供互动服务。

（维基百科关于NextCard的介绍）

在这家公司的征信体系之中，信用资料较少的申请人，只需在这里存有一定额度的存款，就可申请到信用卡。和今天很多互联网金融项目相似，NextCard主打短平快借贷，在当时备受美国用户的喜爱。从1996年推出到2001年的第三季度，NextCard积累了120万个信用卡账户，未偿余额达20亿美元，其成本却比传统做法低70%。

NextCard几乎拥有今天互联网金融企业的所有特点，甚至今天很多中国互联网金融项目都与之相似。不过，遗憾的是，2002年9月，NextCard遭到联邦证券监察机构的调查并宣告破产。破产的最大原因是因为该公司的客户主要都是一些被其他信贷机构拒绝的消费者，导致欺诈、坏账的激增。

然而，NextCard把许多属于客户故意拖欠不还的普通信用坏账归为“欺诈”损失(“欺诈”损失被归纳于一次性损失，财务上不需要相应的储备金)，它需要大量增加储备金来预备将来的信用损失，导致其丧失流动资金，不得不宣布破产。

回到15年前来看，NextCard错误很明显，主要是这三点：

1、在征信把关层面上就已经出现了漏洞

对于美国银行来说，影响审批额度的主要因素包括客户基本特征（包括男女、年龄、教育程度等等）、客户风险暴露情况（社会收入、债务情况、还债能力综合评估）、现有的社会表现（房贷还款情况、其他银行信用卡使用情况等）。但NextCard高估了人性，明显对用户的信用水准期待过高，忽略了信用欺诈的严重性，导致公司破产。

2、在风控层面上也缺乏合理的预警机制

按道理来说，在公司出现坏账时，应该加强储备金，以此抵御风险，但是NextCard几乎没有设置坏账红线，甚至也没有为坏账准备对冲风险的储备金，仅仅只是把坏账归纳为一次性损失，这样的损失过多的情况下，最终只会导致坏账如滚雪球一般越滚越大。

3、迷信线上审批，缺乏线下人工风控把关

在那个时代，线下人工把关是风控不可缺少的一环，很多小微企业的信贷甚至需要风控人员到现场查看生产现场，结合生产工艺，了解生产组织情况，固定资产更新情况。风控不仅仅是资本和金融层面的事情，更需要真正深入到产业之中，去了解一家企业的运行状况。显然，NextCard缺乏对线下的把控，以至于全盘皆输。

“人肉”风控的必不可少与逻辑悖论

NextCard的垮掉本质上是线上风控、征信技术有限，无法战胜人工的结果。在传统金融机构、小贷公司中，不仅仅有一整套严格的审核标准，需要贷款人提供各式各样繁琐的资料，而且风控人员甚至还会自己的经验判断，在面对一些特定行为特征、生活习惯的客户会首先有一个自己的直观打分判断，这些是长期经验累积的结果。想要拿到一笔贷款，金融机构、贷款公司会付出很高的人力、物力、时间成本。

玖富作为中国最早的互联网金融服务公司之一，如今已经有11年的历史，在行内颇受好评。这家金融服务公司当年为确保资产项目的真实、安全、可控，通过非常严格的完整审核体系的层层筛选，内部建立了独立的线上风控模型，并引入了实地征信风控合作。

不过，实地风控体系依然会存在各式各样的逻辑悖论。

对于金融企业来说，风控模型和风控体系需要非常有经验的金融从业人士来进行把控，比如说，银行的风控模型的出发点主要是测量借款方的还款能力，一般来讲，模型包含了两部分的评判，即客观性的和主观性的。客观性的主要是数据类型，能量化的。如公司的年度审计财务报告，银行流水，缴税金额等，这些数据放在已设定好的模型里就能给出个分数或等级，做为参考。

但光靠客观数据还不够，比如说这公司所在的行业是淘汰落后的行业（如钢铁、水泥等），那么评级可能需要有些降级，再比如说公司的管理人在该行业的经验年限的长短，都会影响到这家公司的风险，所以这部分就得靠人为主观的去做些调整。

因此，人在传统风控体系中起到了很大的作用。比如说，需要人工标记坏样本的方式来记录坏样本订单号，人工通过相关黑信息关联找出来的标记样本。系统设计是尽可能多的和并且尽可能精准的的收集到坏样本。

但是人毕竟是计算能力有限，而且对复杂的征信环境缺乏整体把控能力。在人工审核过程中，很容易出现样品偏差的问题。比如说，你发现骗子符合某些聚集特征，你指定策略1进行打击后，骗子的这种欺诈手段被控制，以后的损失案例都不具备这样的聚集特征。如果坏样本的收集时间在策略1上线之后，这个时候模型训练的结果极有可能出现满足聚集特征的风险低，不满足聚集特征的交易反而风险高，也就是说聚集特征的权重是负数。

另一个问题在于，金融行业的劳动力成本正在逐年上升。在传统金融尤其是传统信贷服务领域，我国传统信贷能服务的客户群仅占总人口的15%左右。传统信贷服务需要依托线下网点展开，资质审核、合同签订等流程都需面对面进行，服务效率低下，最终的结果是一方面风控人员不足，另一方面是单纯的线下人肉风控也缺乏对风控体系的百分百把控。

智能风控三阶段究竟解决了哪些问题

对此的应对方案是两个：一是引入在金融领域对于征信体系有能力建构一整套完整风控模型的人；第二个才是把大数据、人工智能引入到征信体系之中，进行智能风控。

今天BAT三巨头上手互联网金融的时候，几乎都在不断引入能够驾驭风控模型的人，以此根据不同行业，不同数据建构起不同的风控模型。玖富也在不断引入风控模型的把关人，比如说首席数据科学家兼首席风控官谷颖。谷颖博士在回国之前曾在华尔街投行工作达十年之久，其团队更连续六年在全美固定收益策略、量化研究领域排名第一。而且在一批成熟金融人才的研发下，玖富也构建起了“火眼”风控系统。

玖富的“火眼”风控系统形成了线上化、机器化、模块化的风控构架体系。充分利用大数据分析技术建立独特的风控体系，具有处理高效、风险可控、成本低、边际效应明显等特点，能够可以提早发现用户早期逾期表现，并能有更多的时间进行调整。

根据她的说法，人工智能应用在金融领域有三个阶段。第一个阶段是机器学习（ML）阶段，即互联网金融为代表的金融机构全面渗透到所有模型建设中；第二个阶段是自然语言处理（NLP）阶段，即国内大量互联网贷款和征信公司都在大量使用自然语言处理技术；第三个阶段是知识图谱（KG）阶段，即大量使用知识图谱进行反欺诈分析。“火眼”风控系统恰恰覆盖了这三个阶段的所有应用，也是目前比较完善的风控系统。

机器学习（ML）阶段解决的核心问题在于，让风控模型自动学习、自动匹配各项数据，在模型内发现异常，揪出信用黑户。尤其是机器学习算法能够根据数百万消费者案例，如：资产、履约、身份、偏好、社会关系及借贷情况等进行开发和训练，利用算法评估预测用户是否会违约、是否会按时归还贷款等。

自然语言处理（NLP）阶段解决的问题则是可以在个人及企业主页、社交媒体中发现蕴含着与违约风险关联的深层含义，通过复杂的词向量模型将文本转化为计算机能够识别和计算的词向量表征，并基于学习技术对其进行特征提取，最终运用成熟的分类器网络将文本数据与违约风险实现高度的风险挂钩，而通过传统方式很难充分挖掘其风险价值。

知识图谱反欺诈（KG）分析恰恰是最重要的一个环节，因为知识图谱反欺诈需要把所有技术融合在一起，构建图谱，从中发现欺诈行为。这也是很多互联网金融公司目前在主攻的方向。

因为在过去，反欺诈人员需要根据借款人提供的信息，查找多方面资料，进行不同属性的比对，从而发现不良征信人。这种工作复杂而枯燥，为了识别团伙欺诈，往往需要收集、整理、分析各种维度的数据，工作量更是成倍增加。而知识图谱反欺诈能够把把每个客户的信息、以及网络上公开的信息织成一张巨大的关系网，并通过可视化的图形将这种关系展示出来。结合反欺诈部门的经验，找存在欺诈的客户。

写在最后：

虽然如今大部分平台都在采用“大数据技术”来做风控，但审核结果严重趋同，现状不容乐观。真正大数据风控技术需要多云数据源（平台积累、征信机构、同业共享）来支持风控审核模型决策，这恰恰是中国互联网金融企业最需要发展的方向，也是必然需要走过的曲折道路。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

互金风控进化史：人工、实地到智能大数据走过哪些曲折？

下一篇