这届人工智能能够化身“新基建”的中流砥柱,避免了重蹈“AI寒冬”的覆辙,一个很大的原因就是,机器学习从产业层面提质增效,真正让技术变成了社会经济的价值推动力。
技术高速迭代的时代,也让无数从业者和普通人痛并快乐着。因为需要不断打开认知通道,敢于去触摸那些刚刚被释放出来的产业能量。
近日,江苏银行与腾讯安全共同举行联邦学习应用服务签约仪式,开启了联邦学习的“从云端到产业地平线”的落地之旅,也激发了不少人对这项技术的好奇。
联邦学习、金融业,与腾讯之间,如何搭建起一个属于未来的智能产业生态,是一个值得思考的议题。
联邦学习:联合与分治的技与艺
对于关注AI的读者来说,联邦学习并不陌生。
自从2016年谷歌最先提出并应用之后,联邦学习就被看做是下一代人工智能协同算法和协作网络的基础,国外如亚马逊、IBM,国内如BAT、华为、平安等科技公司在积极部署和推动联邦学习产业化的进程。
简单来说,联邦学习就是随着人工智能,以及分布式计算、区块链等技术的协同发展,自然迭代出的系统化方案——在保护隐私的前提下,对多方的大数据价值进行挖掘,实现AI模型的训练与性能提升。
为什么需要联合与分治共存,要从当下以机器学习为代表的人工智能应用中的很多现实问题说起。
一方面,人工智能逐渐普及,对隐私安全的监管越来越严格,面对GDPR等一系列法律法规的出台,以数据为训练基础的 神经网络必须做出改变,适应新的社会规范;
但是,合法合规的管控,又会加剧数据孤岛问题。不同机构和企业各自为营,捍卫自家的用户数据,让许多优秀算法模型无法得到充分的数据养料和有效训练,自然会给AI性能和准确率带来枷锁。
联邦学习,就在高质量数据的分与合之间,找到了辩证统一的平衡点——在不共享原始数据的前提下,利用双方的数据实现模型增长。
举个例子,假如A是银行,B是社交平台,C是出行打车平台,分别拥有各自的用户相关数据。现在ABC想要联合训练一个机器学习模型,来预测经常出没在哪些地区、关注哪些兴趣话题的人,拥有更高的偿债能力。
如果各个平台之间直接进行数据交换,作用用户肯定会担心暴露自己的隐私和信息安全。但不交换又该怎么训练呢?
答案就是,都使用联邦学习技术。在加密状态下,找到共有的用户,这样彼此都不知道数据对应的关键用户信息。用这部分数据来提取特征,并在自己的服务器上进行训练和调参,既遵守了隐私保护法规,又能够补充自己不具备的数据信息、提升双方模型的能力。
如此皆大欢喜的方案,大家怎么不快快都用起来呢?
某种程度上来说,联邦学习也是一张集合了心理题与技术题的综合考卷,只有都答对的企业才有可能推开这扇大门。
总的来说,联邦学习虽好,却也伴随着许多亟待解决的新问题:
1.各个AI企业之间的协作信任关系很难建立。
以前企业想上马AI,都是单打独斗式地运用自身数据自主训练,联邦学习要将各个不同行业、领域的企业并入一套标准化的系统,在一起进行多方联合建模。
这种合作就像南方人初入澡堂,要卸下重重防备一起享受实属挑战。如何从技术端保障企业之间的数据安全,让大多数公司愿意将数据拿出来和其他伙伴交换,有先锋公司和标杆案例的出现,用实打实的应用效果,来解决信任问题。
2.数据样本的复杂化,训练环境的不一致。
即使有公司愿意加入联邦共同成长建模,也必须面对现实中,不同企业和机构所处的计算环境、网络环境、数据环境各不相同的境况。
比如有的公司数据质量差,没有进行标注无法被训练;有的数据分散,不同部门之间没有数据合作;还有的数据实时变化,需要花费人力去维护,缺乏联邦学习的动力。
3.“要想富先投入”,联邦学习的额外成本。
通过联邦学习降低数据、建模的综合成本,提质增效,是产业的初衷。但围绕联邦学习搭建团队、沟通对接、进行训练,也需要投入一定量资源来完成,又进一步提升了联邦学习产业化的门槛。企业不仅应该着力想办法降低成本门槛,同时也要让新参与者接收初期成本。
通过这些问题可以看出,联邦学习想要迈出真实的步伐,必须精准吸引那些“准用户”,来主动解答这张前沿试卷。
开启智慧金融新篇章,腾讯扮演了三重角色
联邦学习借由金融场景落地到普通人身边,自然不是无缘无故的。腾讯安全在此时向银行和金融机构交付联邦学习应用服务,在我看来,是在锻造新的产业“内燃机”。
一方面,金融场景下数据保密等级高,安全要求更为严格;同时场景变化快,又对智能技术的升级迭代有着严苛的要求。在安全与升级之间,联邦学习技术与金融领域就达成了一次情投意合的碰撞。
从中长期来看,金融领域的数据挖掘必然会持续受到法律法规的捆绑,这就要求其必须注重共建模型的搭建,学会“戴着镣铐跳舞”。
此外,伴随着传统 神经网络算法的普及,金融机构和银行也都到了进一步发展和提升自身技术水位,与同业拉开差异化优势的阶段,以争夺增量客群。
而伴随着客群的规模扩大,必然会带来用户信用资质数据不足、质量参差不齐、风控风险高等潜在风险,此时联邦学习提供的共同建模,就能从根源上来帮助企业利用AI提质增效。
金融领域毫无争议地成为了联邦学习落地的第一站。作为国内最早倡导“联邦学习”技术的团队之一,腾讯安全也交付了一整套联邦学习应用服务(FLAS)产品。
对于盼望着技术甘霖从云端降落到地面的金融领域来说,腾讯至少扮演了三个角色:
1.平台输血者——打破信任僵局。
前面我们提到,联邦学习想要发挥效用,既要打破各个企业之间的信任障碍,也要保障用户信息的隐私安全。
但大家的数据彼此之间不能“碰面”,模型训练必不可少的特征变量都变得不可见了,还怎么联合建模?面对这一难题,腾讯安全作为平台方,就起到了重要的“输血”作用。
借助腾讯在20年的安全攻防过程中沉淀出的大数据分析能力,以及腾讯安全服务中国99%以上网民所沉淀下来的黑灰产库,积累出了三千多个风险种类的特征变量。然后,腾讯安全对联邦学习的框架进行了重新优化,在与金融机构的合作中进行融合,就能达到保护数据的同时,保障模型性能的效果。
比如在江苏银行的合作中,就基于对方资金流相关维度的数据沉淀下来的特征变量和特征工程,在可用不可见的情况下进行融合,只交换了机器学习的中间值(即梯度),在效果不衰减的情况下,达到了数据融合建模。
2.技术前哨站,探索应用业务创新。
任何前沿技术的产业下沉,最终都要落实到务实的商业价值上去,联邦学习也不例外。
如何让技术与自身业务相匹配?腾讯生态内的实战训练,就扮演了“前哨”的角色,以自身经验+场景定制的方式,来为垂直行业进行铺陈。
举个例子,在办理个人信贷业务时,除了用户所在地,包括户籍地、移动运营归属地、行为轨迹等数据之外,金融机构还可以通过申请,引入诸如兴趣偏好、社交网络、收入情况等互联网产品的其他数据,通过纵向联邦学习,来训练自己的风控模型,实现更准确的综合评估。
腾讯安全团队在明确了联邦学习与金融业务的最佳契合点之后,充分发挥技术效能,推进行业端敏捷的业务创新。对200余个业务指标进行筛选与联邦建模,联邦学习联合建模新模型的AUC值提升10%-15%,最大KS值提升50%左右,为江苏银行的信用卡智能化管理打下了基础。
3.成本精算师。
腾讯安全联邦学习的附加值,还体现在以高度可应用化的技术输出形式,帮助企业控制技术升级成本。
首先,腾讯微众银行(WeBank)提出了工业级别联邦学习框架——联邦学习开源项目Federated AI Technology Enabler(简称 FATE);腾讯TEG数据平台部基于自研分布式机器学习平台Angel,设计了一种“去中心化”的联邦学习框架PowerFL,并研发了FM、神经网络等联邦学习算法。腾讯安全则进一步对这两种计算框架进行了云化部署,形成了PaaS级联邦学习服务。
另外,基于腾讯的海量安全大数据,腾讯安全联邦学习应用服务可以通过云端的SaaS服务进行输出,让技术成果被快速下沉到产业场景中;用云交付的方式,落地到业务场景中去,不需要企业再不需要再投入人力去现场训练模型,就能达到彼此所需要的数据融合,进一步降低了训练成本。
同时,支持海量互联网用户参与对用户有价值的联合建模,在个人隐私数据均不出个人终端设备的情况下,利用联邦学习,金融业务可以更快速的迭代模型,更敏捷地适应市场变化,实现有价值的数据应用,提升业务的竞争力。集成化的软件和工具,以及服务的高复用性,让各种类型的金融机构不用 “重新发明轮子”,以低学习成本、高价效比的方式,就能实现AI联合建模。
可以说,伴随着产业智能化的继续深化,以及联邦学习的下沉,所产生的差异化优势也将真正显露出来,开启金融业的新一轮技术竞技。
编织AI新生态,向产业智能化的更远处进发
金融领域是技术敏感度最高、数据监管最严苛的行业之一。
由此带来了一个新的问题:当腾讯安全联邦学习应用服务开始在金融领域落地,未来会发生什么?
可以肯定的是,金融领域的AI规则必然会被改变。最直接的就是数据方将改变传统上单打独斗的思路,开始以协作、融合的姿态联合起来推动产业智能化效率的提升,未来也将改变行业获取数据、搭建AI的方式和门槛,打破行业“巨无霸”的“数据霸权”,释放出更多的数据生产力。
在此基础上,金融领域的应用只是联邦学习产业潜力的冰山一角。数据规制的严格化将是智能社会发展的整体趋势,未来在零售、医疗、工业、政务等各个智慧场景中,联邦学习都将担负起捍卫安全、降本增效的责任。
从这个角度讲,联邦学习如同一个操作系统一样,亟待建立一个标准化、生态化的繁荣技术圈。而与大数据打交道最为频密的腾讯生态土壤,有着举足轻重的价值。
陈寿在《三国志》中写过,和羹之美,在于合异。把各种不同的数据味道合在一起,腾讯安全烹制出的这道名为“联邦学习”的菜肴,也将是技术落地节点中,从智能社会的地平线上生长出的馈赠。
免责声明:此文内容为第三方自媒体作者发布的观察或评论性文章,所有文字和图片版权归作者所有,且仅代表作者个人观点,与 无关。文章仅供读者参考,并请自行核实相关内容。投诉邮箱:editor@fromgeek.com。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。