科学的风控评估体系

第一节大数据风控现状

目前，大数据风控似乎已经成为互联网金融企业的必备宣传点。凡提及自己的风控体系，好像不提大数据都不好意思见人。连"E租宝"这样的庞氏骗局企业，在宣传中也号称"引领大数据在行业信用管理和风控防范之中的应用趋势"。但除了空洞的宣传外，行业内对于如何落地大数据风控并没有给出合理可信的解释。

在很多情况下，大数据风控目前更像一群处男在谈论性，大家都没有做过，大家又表现的好像都做过，大家都在谈论它，但其实都不知道到底体验是什么。

当然，我们也看到了优秀的互联网金融公司组建了大数据团队，开展了大数据风控的探索。比例，利用知识图谱在社交数据上做欺诈分析，利用逻辑回归，支持向量机（SVM），决策树等模型补充或替代传统的打分卡，在更广泛的数据源上进行建模分析等。

第二节大数据风控落地路漫漫

然而，大数据风控建设的道路还很远。原因有如下几点。

一、不同的消费场景下，客户客群的特征是不一样的，收集到的客户信息差异可能很大，这些大数据方法的有效性前提就受到质疑。比如，针对热爱社交的80、90后年轻群体，能够爬取到有价值的社交数据，知识图谱就能发挥出一些价值。但针对贷款主流群体的60后来说，这些人用社交网络的非常少，"巧妇难为无米之炊"，这种方法就难有用武之地。

二、在中国目前的信用体系下，贷款审批的衡量是很复杂的。反欺诈能力，额度评估能力与催收手段等综合起来，共同决定了风险决策的能力。大数据在这些能力上的落地探索，还处于非常初期的阶段。在不同的场景下，有些可能是反欺诈的决定性更强些，有些可能是额度的评定更强些，有些可能是催收的手段来的更直接。抛开具体的贷款场景谈论风控的大数据技术，是有失偏颇的。

三、算法都是有适用性和局限性的，不是说看起来炫的方法就一定更有效，有没有效果，要看疗效。但疗效到底如何，不做是不知道的。

四、大数据算法的难以解释性，导致了算法落地的困难。比如，用SVM作出的模型可能从历史数据上显示是更好的，但是为什么会更好却无法解释，也无法保证是否在将来的业务中表现也好。同时，模型对金融产品是有指导意义的，如果模型本身不可解释，则对也会对产品的设计和推广带来障碍。

五，传统的金融产品，如房贷，车贷等，一定意义上也是大数据决策的。人工的风控决策方法，是信审人员长期与不良借款人斗智斗勇的结晶，是人的智慧对大数据的总结。数据挖掘算法在与人的经验的结合和PK的过程中，难以快速胜出。

大数据风控的颠覆性效果，现阶段更多的体现在创新型的金融产品上，比如淘宝和京东的分期服务，针对学生的3C分期服务，针对高速场景下货车的分期服务等。

同时，大数据风控的投入，却是很大的。无论从基础的设施投入、系统研发，到昂贵的大数据人才的雇用，再到负样本（坏账）的积累，都是巨大的投入。当企业的老板没有高瞻远瞩到愿意持续无悔的砸钱投入，当企业的技术人才没有过硬到一定能排除万难取得最终的胜利，大数据的产出都存在很大的未知数。这些未知数让很多老板望而却步。

如何能让大数据风控切实落地，产生实实在在的价值，不仅仅是大数据技术专家思考的核心问题，更是金融公司老板所关切的重要问题。

不幸的是，这些老板决策了对大数据技术的投资，并承担了最终的结果（坏账，以及对技术投资的回报率（ROI）），而他们往往对技术并不能深入的了解。如何高效地在这个领域进行资源的投入，是眼下的当务之急。

第三节：建立效果评估体系，循序渐进开展大数据风控

大数据风控是未来，但落地的困境又这么多，扭转局面的关键点在哪里？这个关键点，应该是在建立广泛认可的效果评估体系，然后在效果评估的框架下面，逐步推动大数据技术的普及。这个效果评估体系，将具备如下的特征。

一、指标的制定是服务阶段性商业目标的。在产品上线的阶段，有放贷限额，小范围试错；而业务成熟阶段，则会追求更高的批过率和更低的坏账率，并寻求两者之间最佳平衡。

二、用量化指标进行衡量。也就是说，大数据风控作为风控的方法，应该用清晰的指标来衡量取得的成果。

三、指标的物理含义是一般人都能理解的。只有让为投入买单的老板们理解了大数据风控的衡量指标，他们才能作出决策以开展持续的技术投入。

四、指标是完备的。比如，实施了一种大数据风控技术，可能带来坏账率的下降，但同时也可能带来批过率的下降。虽然坏账少了，但业务量也降低了。但从"得"的指标上衡量，是没有意义的。要"得"与"失"结合起来，根据企业不同的发展阶段，选择不同的技术。

在该评估体系下，老板们将能清晰地衡量具体的风控技术来带的ROI，然后决策该采用什么样的技术手段。在有清晰的产出预期下，大数据风控的投入就可以有循渐进的执行。企业将不再困惑于各种难以理解的模型算法，而是把它们当成工具，然后选择最优的算法即可。也就是说，在有逻辑回归，支持向量机，学习等多种方法候选的情况下，任何一种方法都可能有自己适用的人群。方法之间没有优劣之分，只有谁更适合。

第四节：建立模型评估体系

基于大数据的思想，人们提出了很多模型（支持向量机，逻辑回归，学习等）来做风控系统。同一种模型用不同的模型参数又可以横向衍生出很多新的模型。那么在众多的数学模型中，怎样知道应该使用那一种模型呢？模型评估体系的建设就显得尤为重要。通常评估一个模型的好坏应该从模型的三个属性去评估。他们分别是模型的

a.精确性：在预测状态变量时，模型必须有一定的精确性

b.稳健性：模型应该对于目标总体中的所有样本都有效，而不仅仅是对开发测试样本有效

c.合理性：模型表现出来的趋势对于观测到的行为必须有意义。

在这里我们主要讲讲模型的精确性。KS值、洛伦兹曲线（ROC）是被广泛使用的模型精确性评估指标。在统计学中，KS值是用来衡量模型的区分能力。通俗来讲就是模型区分好客户与坏客户的能力。好客户是指守约客户，坏客户是指违约客户。KS值越大，模型的识别能力就越强，反之，就越弱。ROC曲线的作用是衡量信贷模型的目标累积强度。这里的目标是指违约客户，通俗来讲ROC曲线的凸度大小反应了模型识别坏客户的能力。凸度越大说明模型越优秀如：在20%的总体人群中就能够辨别出60%的所有违约人群。ROC曲线凸度大小和KS值大小是正相关关系。ROC曲线的凸度越大，相对应模型的KS值就越大。这些指标有助于多个模型甄别，模型参数优化的情况。即便对于当前来看不错的模型，我们也应该定期检验模型的重要评估指标。评估体系的建立固然重要但同时也要充分认识模型的局限性。在利用模型制定信贷策略时，我们应该信奉‘实践是检验真理的唯一标准’。

第五节：行业内公司现状及未来展望

北京数云普惠科技有限公司致力于向消费金融公司普及大数据技术，提供标准化、模块化、易用的大数据风控系统以降低消费金融企业客户使用大数据技术的资金成本和技术门槛。其创始人海归博士孙林和首席科学家海归博士付亚博认为，困扰企业进行大数据技术投入的因素，不仅包括技术的难度和领导者的判断，更多的来自于技术本身对既有业务管理体系和决策层知识结构的挑战。它像一把双刃剑，如果用的不好，可能会对企业的业务带来混乱和灾难。明确的效果评估体系，能给大数据风控技术落地带来有效的指导和管控，把业务的开展统一到一个目标体系上来。当大数据风控的应用能够达到投入即能改善业务效果时，公司的发展就能进入一个良性的循环。当企业的业务都管理在一个大数据系统中的时候，企业的客户资源，数据资产等都不再受限于某一个员工角色，人员流失等对企业的影响就会越来越小，也会减轻管理的难度。

优信金融作为优信拍旗下二手车消费金融公司，在大数据风控应用上有长期的积累和探索，其CRO倪骥先生认为当前使用大数据进行风控还有很多困难。1，目前大数据还不够大。很多数据在覆盖率上能达到50%已经是惊喜了。2，传统的风险模型都需要违约数据的积累，中小型互联网金融机构在时间成本和资金成本都难以承受。因此，互联网金融企业相当需要与征信服务公司和数据提供商的多方位合作以提升在数据积累和建模等多方面的能力。

未来，在“谈消风声”公众号里，我们将推出一个系列的文章，通俗易懂地讲解大数据风控的效果评估指标。第一篇，我们将从“混淆矩阵”开始讲起，具体内容，在“谈消风声”公众号里回复“混淆矩阵”即可获得。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

科学的风控评估体系

下一篇