数据安全共享需要自律与他律,更需要创新技术
《通用数据保护条例》(GDPR)下的欧洲再现数据泄露 。11月3日,瑞典最大的保险公司Folksam证实,近100万客户的个人信息已泄露给Facebook和Google等社交媒体,泄露信息包括敏感个人数据如个人社会保险账号等。
大数据与人工智能时代背景下,数据在各行各业应用越广泛,数据价值就愈加凸显,数据泄露和滥用造成的影响和损失也越大。
新加坡国立大学副教授何丙胜表示,数据泄露已非孤立事件,各行业都有相关事件。在教育、医药、能源、健康等领域,每一起数据泄露事件造成的平均损失至少在500万美元以上。
矛盾之处在于,数据唯有流动和共享才能发挥价值,但反复出现的数据泄露事件不仅造成了巨大的经济损失,更消耗了整个社会对数据共享的意愿和信心。数据的安全流动与共享似乎成为一个伪命题。
传统观点认为,数据保护与共享需要依靠“自律” 及“他律”,即自身防护和制度保障,可谓“被动防守”。而近年来,随着隐私计算技术的出现,数据共享即将告别瞻前顾后的窘境,引领“主动出击”新趋势。
简单来说,隐私计算就是通过技术实现数据“可用不可见”,让不同来源的数据安全共享,产生更大价值,具体包括了如TEE(基于芯片的可信计算环境)、基于密码学的安全多方计算(MPC)、源自人工智能的联邦学习等在内的各类技术的单项或综合使用。
从产业视角来看,隐私计算已成为当下创投圈的热点话题,国内外众多互联网及科技巨头纷纷投身该赛道,一批创业企业也各有所长,显示出了强劲实力。
尽管隐私计算行业尚处早期,相关技术尚未成熟,但并不意味着隐私计算只是“飘在空中”的美好理想。纵观全球,隐私计算已经在人工智能、金融、医疗等许多场景中应用落地。
谷歌Password Checkup ——世界巨头旗下小而美的科普案例
2019 年2 月,谷歌推出密码检查器Password Checkup,一个Chrome扩展程序,帮助用户检测他们在网站上输入的用户名和密码是否已被盗用。
Password Checkup依赖于隐私集合交集(PSI)的加密协议,收集了超过40 个亿的已知不安全或已外泄的账号和密码,在Chrome 用户安装这功能后,一旦用户登录某个网站时,Google 便会主动侦测帐户密码是否在外泄名单中。
该功能支持全美“大多数”站点,如果被撞到,会及时向用户发出警告。值得注意的是,Password Checkup 会自动读取保存在谷歌浏览器中的表单的帐号和密码,然后采用哈希加密数据后发送到谷歌服务器再对比。
谷歌鉴于密码检查依赖于机密的信息,强调所有的加密都是在本地完成的,确保无人能查询用户密码,数据库中的密码以散列和加密的形式存储,且生成的有关的任何警告,所以用户也不需要担心在密码传输过程中出现意外泄露引起问题等。
谷歌Password Checkup的原理
图片来源:谷歌官网
Password Checkup程序体积小巧,功能简单,但背后却对大量数据进行高安全等级处理。本地加密、密文数据对比等可以说是隐私计算基本概念的教科书式展现,也令其成为数据安全共享的典型科普案例。
iOS基于差分隐私技术"把隐私锁在本地"——在手中的隐私计算
移动互联网时代,手机里几乎承载了一个人收集所有的秘密。举例来说,如果一个被移除ID类信息的数据集发布,从法律和伦理来说这个数据集因为没有涉及个人隐私,因此是合法合规的。但是如果通过一些技术手段,利用不同数据集、公开信息之间的关联性,可以推测出某个具体个人信息的时候,问题就出现了。早在2013年一位当时就读于美国西北大学的研究生,结合搜索引擎与纽约城市出租车和豪华轿车委员会对外公布的一份2013年全市的出租车行程数据,便锁定了几位明星的行踪,证实了这一风险。
由此可得,仅仅移除数据中的ID这类信息是不足以保护隐私的。但要如何抵御上述情况中对于个体用户隐私数据的“精确计算”问题,而又能提高数据共享和使用的效率?
比如始终坚持选择成为用户数据守卫者的苹果公司,当其他公司都在通过各类方式采集用户数据的时候,苹果对此说了“NO”。但事实是,在一番努力后,iOS中仍有几个矛盾未解。比如苹果需要通过用户行为数据来对特定功能进行精准调整,以满足其智能服务。差分隐私技术便是破解这一问题的答案。跟随iOS 10的推出,苹果就已经开始使用差分隐私来收集并分析来自键盘、Spotlight和Notes的用户数据。
差分隐私的原理是用算法加扰个人用户数据,使上述的技术回溯过程无法实现。随后在无法获得原始数据的情况下对数据批量计算,输出计算结果。在获得机器学习所需的数据资源的同时,实现用户隐私数据的保护。
而iOS 10采取的是本地化差分隐私算法对用户数据进行计算。即对单个用户数据进行随机化处理,再将设备数据集体发送给苹果公司。苹果公司也不会收集用户键入的每一个单词或搜索关键字。这样一来能够有效消除苹果公司泄露数据的安全隐患,也减少了数据在传输过程中如因发生泄露而导致的不可逆转后果。
在2016年开始使用差分隐私技术的不止苹果公司,还有谷歌(RAPPOR系统)。而当时差分隐私领域的权威人士,著有《差分隐私的算法基础》一书的宾夕法尼亚大学教授Aaron Roth当收到苹果递交给他评审的差分隐私执行文件后,这位教授使用“开创性”一词评价了苹果在差分隐私方面的工作。
微众银行FATE平台 —— 人工智能时代联邦学习助力数据安全共享
人工智能的发展构筑于数据之上,却也受限于数据利用的瓶颈。一方面许多场景并没有足够数量的大数据,另一方面即使有大数据,这些数据也可能相互孤立,无法交流共享。尤其在相关法规(如GDPR)不断趋严,各行业数据安全意识不断提升的背景下,数据的安全流动与共享对机器学习乃至人工智能的发展带来了挑战。
于是,联邦学习应运而生,成为人工智能“量身定制”的隐私计算解决方案。联邦学习是一种加密的分布式机器学习技术,参与各方可以在不披露底层数据的前提,按照底层数据加密(混淆)形态下共建模型。
联邦学习具有四大显著优势:一是数据隔离,二是保证模型质量无损,三是参与者地位对等,最后则是能够保证参与各方在保持独立性的情况下,进行信息与模型参数的加密交换,并同时获得成长。
在国内,微众银行可以说是联邦学习领域的领头羊。早在2018年末,电气和电子工程师协会标准委员会(IEEE Standard Association)就批准了由微众银行发起的关于联邦学习架构和应用规范的标准P3652.1立项。微众银行成为工作组召集单位,工作组主席则是微众银行首席人工智能官,国际人工智能学会理事长杨强教授。
在2019年初举行的AAAI(Association for the Advancement of Artificial Intelligence)年会上,微众银行AI团队正式发布了联盟AI生态系统(Federated AI Ecosystem)和开源联盟AI解决方案FATE(Federated AI Technology Enabler)。
FATE提供了一个安全的计算框架来支持联邦学习需求。它实现了基于同态加密和多方计算(MPC)的安全计算协议,同时支持联合学习体系结构和各种机器学习算法(包括逻辑回归,基于树型算法, 学习和迁移学习)的安全计算。
作为联邦学习领域第一个商用级开源项目,FATE为开发者提供所必须的多方协同建模工作流管理、加密机器学习工具库和并行计算基础设施抽象三层能力,同时提供了很多开箱即用的联邦学习算法和联邦迁移学习算法供开发者参考,极大简化了联盟AI开发的流程并降低了部署难度。
几乎同时,全国连锁租车品牌一嗨租车与微众银行共同宣布达成 战略合作关系,宣布双方将在汽车出行、会员服务、金融保险、区块链技术等方面展开多场景多维度创新合作。一嗨租车使用联邦迁移学习、AI人脸认证技术、支付技术等金融科技,以优化提升用户体验为目的 融入租车服务流程,并将租车场景与银行大数据风险控制体系相结合,从而为年轻一族及长租客户提供新的出行生活方式。
华控清交助力首都金融数据应用运行新模式——创新团队的创新案例
防范系统性金融风险首先要做到的就是能够及时发现和准确甄别金融体系中的系统性风险。有效的监管不光需要依赖金融监管部门本身的数据,还需要有效地利用各金融市场参与方的大量和实时的数据,使监管部门对金融行为和金融风险的画像更完整、分析更准确、判断更及时。但这些数据往往会涉及这些市场参与方的重要商业机密或客户隐私。
华控清交基于多方安全计算并融合其他隐私计算技术提出的安全数据融合解决方案,能够在不解密加密数据的情况下,直接以密文数据进行计算,从技术层面解决了数据隐私保护与数据高效流通对立的问题,使多个非互信金融数据源之间可以在数据全程加密的前提下进行高效的大数据融合和计算。
该方案获评“首都金融创新激励项目”,解决了“确保首都金融科技高速发展与提升监管水平、保障金融安全”之间的矛盾,开启了首都金融数据应用的新运行模式。
华控清交PrivPy平台架构
图片来源:华控清交官网
华控清交主打多方安全计算,其PrivPy平台是一个实现了高性能通用的安全计算框架、集群化和可扩展的解决方案,是各类技术路径融合的创新典型,在市场层面也代表了国内创业企业的不俗实力。
翼方健数厦门“健康医疗数据应用开放平台”—— 首个城市级应用案例
翼方健数基于城市级医疗数据底座,为国家医疗健康大数据首批试点城市厦门构建了基于隐私安全计算技术的 “健康医疗数据应用开放平台”,在保证数据隐私的前提下,通过开放平台提高数据使用效率,打破数据孤岛,构建了一个医疗数据应用开放的数据生态。翼方健数协助厦门实现医疗数据战略从顶层设计到底层实现的“落地”,为厦门医疗大数据的科研协作分析以及精准医学的发展提供了有力的基础设施保障,是目前所知首个利用隐私计算技术实现城市级数字化应用的案例。
翼方健数所构建的XDP翼数坊是一个以开放应用平台形式实现的数据生态系统。平台为用户提供完善的数据安全保护机制,为第三方应用程序提供友好的计算和开发环境,以及为数据生态中各方设计价值分配机制,可以完全满足对数据共享和协作的要求。
平台面向生态中的不同角色,满足各方数据服务诉求。例如,数据提供方的诉求包括数据存储、数据安全、数据脱敏、数权保护、数据价值生成等;数据服务方的诉求包括开发环境和价值归隐等;数据需求方的诉求包括高质量数据服务,如数据清洗、数据血缘、数据探查,其中包括了平台在用户数据探查和访问控制的设计中贯彻数据的“最小可用原则”,进一步保证数据隐私。
目前,基于这套隐私安全计算平台已成功推出智能分级诊疗的“厦门模式”,同时实现临床科研协作以及传染病防控等多项能力输出。
翼方健数通过隐私安全计算技术,确保数据不离开平台,只输出数据价值,来协助数据所有者“共享”自己的数据而又不用担心数据被他人获取,破局顽固的“信息孤岛”,实实在在做到了以数据流通造福社会。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )