一年一度KDD。
8月19-23日,国际数据挖掘顶级会议KDD2018在英国伦敦正式召开,大约3000名来自世界各地的顶级学者和知名企业代表齐聚一堂,展示了各自在数据科学领域的最新技术与成果。由京东金融副总裁、首席数据科学家郑宇博士发起创办的国际城市计算论坛(International Workshop on Urban Computing)在大会上如期召开,吸引了众多顶级学者参与,共同探讨大数据和人工智能在城市计算领域的先进科研成果,成功实践案例,彰显了国际学界对城市计算的高度关注。
京东全面亮相KDD大会,并以发表10篇论文的成绩展示了中国技术发展的“京东力量”, 其中,京东金融共有4篇论文被KDD大会收录,这四篇论文均出自京东金融城市计算事业部,相关作者受邀出席大会并做技术报告。此外,京东金融风险管理部还有一篇论文被KDD上的“图的挖掘与学习国际研讨会”收录。
KDD大会的投稿量逐年攀升,今年的接收率仅为18.4%。京东金融的相关学术成果何以在KDD期间赢得广泛赞誉,首要的原因是这些成果将创新的技术和落地的应用有机融合。下面,就让我们来看看,京东金融的这五篇论文都取得了哪些成果。
1、中文标题:基于对等和时间感知的表示学习的驾驶行为分析
英文标题:You Are How You Drive: Peer and Temporal-Aware Representation Learning for Driving Behavior Analysis
摘要:
车辆驾驶是一种需要多种技巧的复杂行为,合理有效的分析挖掘司机的驾驶行为,能够帮助我们评估一个司机的驾驶技能,进而也能帮助评估城市每块区域或路段每一时刻的路面驾驶安全系数,帮助检测出高风险区域路段,提升交通安全,促进城市智能交通系统的发展。
某一时间,计算某一区域内 ,位置处于当前区域的司机的 driving score的平均值。分数越高越安全,越低越危险。这是业内首次实现对司机驾驶行为以及危险区域的实时评估。
分析司机的驾驶行为并预判某一区域的交通风险,有着显著的社会应用价值: 首先, 对交通管理部门说,提前对危险区域作出预判,及时疏导,为决策提供支持,优化资源的调配,例如信号灯、警示牌、医疗单位的位置规划等; 其次,对保险公司来说,可以根据司机的驾驶行为,使调整保费策略更加合理;第三,对提供地图和导航服务的企业来说,在提供导航服务时,可以根据危险区域的预判,对路线进行调整,完善自身的服务;最后,对司机个人来说,driving score的变化,对调整自己的驾驶行为和驾驶习惯有指导意义,可以帮助司机形成安全驾驶的良好习惯。
2、中文标题:共享单车动态调度:时空数据上的强化学习模型
英文标题:Dynamic Bike Reposition: A Spatio-Temporal Reinforcement Learning Approach
摘要:
共享单车在城市中越来越普及,便利城市出行的同时也给单车运营带来诸多问题:部分区域存在大量单车拥堵,而另一些区域却没有可供使用的单车。现阶段,单车运营商采用小型三轮车在城市各区域之间持续地进行单车调度来解决上述问题。我们提出了一种基于时空数据的强化学习模型来实时地指导城市内的各个三轮车进行协作、高效、长期最优地单车调度。
从应用层面来看,由于我们更好地考虑了实际调度中的不确定因素,通过上述方法进行单车调动,相较于传统模型可以大幅提升调度效率,,从而减少用户想找车却找不到的情况发生,使得单车系统服务的人数实现最大化,且进一步提升用户体验。
3、中文标题:基于 分布式融合网络的空气质量预测
英文标题:Deep Distributed Fusion Network for Air Quality Prediction
摘要:
随着城市化的快速发展,中国的大多数城市正经历着严重的空气污染问题。预测未来空气质量不仅可以帮政府更好地做出决策,也可以帮助人们规划未来出行计划。基于空气质量数据、气象数据和天气预报数据,借助大气科学领域的专业知识,我们提出了一种基于 学习的预测方法DeepAir来预测未来48小时细粒度空气质量。
中国于 2012 年开始对 PM2.5 进行监控,在 5 年前,可用数据点只有几千个,小样本问题是进行预测的一大障碍。如今,全国有超过 200 个城市、数千个站点在以小时为单位记录空气质量数据,数据量的极大丰富让研究者思考 学习能否更好地解决问题。研究者发现 学习在拐点预测方面有较大提升。
空气质量预测既需要考虑到大颗粒悬浮物,也要考虑污染物,是一项“既要看天,也要看人”的时空细粒度预测,它影响因素众多,且不可直接观测,需要应用机器学习模拟诸多影响因素的变化。在空气质量预测中,拐点预测尤为重要:它与工厂停工、学生停课等城市管理决策执行息息相关。
在 学习处理时空数据时,数据转化和属性捕捉是两大重点。 分布式融合网络设计了针对空气质量指数的特定的数据归集合并的方法,进行数据维度对齐和滤噪,然后把气象、 天气、其他污染物等因素引入,进行嵌入(embedding)后,利用不同的融合网络分别学习 AQI 受整体和各因素分别的影响权重,最后得出预测结果。这种方法很好地捕捉了空气质量骤变。准确率提高到接近 50%。
预测未来48小时细粒度空气质量,不仅是让居民精确知晓自己周边的空气质量如何、更健康的规划出行,还可帮助政府追溯污染源,并科学决策控制污染的措施。
4、中文标题:利用共享单车轨迹数据的违章停车检测
英文标题:Detecting Vehicle Illegal Parking Events using Sharing Bikes' Trajectories
摘要:
违章停车是大城市中普遍存在的问题。占道的违章停车引起交通拥堵,也会引发交通事故。仅仅通过目前的交警巡逻、摄像监控方案,很难覆盖整个城市,并且会耗费的不小的人力物力。近年来,共享单车的兴起产生了大量且质量高的轨迹数据,为我们检测违章停车提供了新的机遇。因为我们观察到,大多数违章停车发生在路边,会对自行车骑行轨迹造成影响。为此,我们提出了基于共享单车轨迹数据的违章停车检测技术。
这项工作包括一个预处理模块,进行有针对性的相应轨迹清洗、路网匹配、轨迹索引;以及一个检测模块,基于假设检验与轨迹融合进行检测。
在预处理部分,通过路网匹配去掉了匹配到高速路等自行车罕至地域的轨迹、与道路几乎垂直的、偏离道路过远的轨迹,同时因为违章停车对正向和反向骑行的自行车影响程度不同,因此将轨迹按其行进方向分开,用不同的模型分别刻画。
在检测部分,主要强调三点考量:1. 不区分不同模式的违章停车,将其全部视为一类。将其多样性内化。2. 不检测单条轨迹,而是把不同轨迹合在一起进行一次判断,排除可能影响单条轨迹的诸多误差。3. 对每条路单独建模,排除不同地区障碍物不同带来的 GPS 误差分布差异。检测模型将深夜的自行车轨迹视为基线数据,然后用 KS 检验判断白天与深夜的样本是否处于同一个分布,输出一个属于同一分布的置信度,然后用真实违停检验数据集确定分类的阈值。
这项研究的成果已经投入实际应用,能够实时检测整个城市里面什么地方出现了违章停车,不需要派管理员去看就能够自动识别,然后把有限的人力精准地投放到那些违章的路段。交管人员从“扫街”式监管,变成针对核心路段重点监测,提高了效率,节省了人力,有助于治理违章停车现象。
5、中文标题:可伸缩异构图上群体欺诈检测
英文标题:HGsuspector: Scalable Collective Fraud Detection in Heterogeneous Graphs
摘要:图可以直接地表示对象之间的关系,在学术界和产业界取得了广泛关注。但是目前的研究成果主要集中在同构图和二分图上,然而这些算法却很难应用在实际的场景中。因为在现实世界中,对象类型和关系是多种多样的,数据的数量可能非常大。本文针对“黑产”的特点,提出了一种可伸缩有向异构图上的集体欺诈检测算法。首先将有向异构图分解成一组二分图,然后对每个连通的二分图定义一个度量,该度量融合结构信息和事件概率。通过在分数空间的统计或其他异常检测算法可以得到区分正常和异常的阈值。
上述科研成果已经转化为实际应用,我们提出了电子商务场景下的群体欺诈检测的技术解决方案,并成功应用于京东电子商务平台,实现了对集体欺诈的实时检测。在拥有数十亿个节点和边缘的真实数据集上的实验表明,该方法比此前最先进的方法更加精确和快速,可以更有效地打击 “黑产”分子,维护网络安全。
对于京东金融而言,参与顶级学术会议不仅是为了与学术界交流学术成果、展现自身科研实力,而且是为了分享创新成果,紧密地把学术成果与应用落地相结合,以开放的态度,加速科研成果的应用转化,为全社会创造更大价值。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。