GAITC智能传媒专题｜任奎：人工智能安全评测助推大模型健康发展

6月23日,由中国人工智能学会主办,CAAI 智能传媒专业委员会、中国传媒大学数据科学与智能媒体学院、媒体融合与传播国家重点实验室、新浪新闻承办的主题为“变量激荡增量涌现”2024全球人工智能技术大会智能传媒专题活动在杭州拉开帷幕。浙江大学计算机科学与技术学院院长、区块链与数据安全全国重点实验室常务副主任任奎教授分享了题为《大模型时代人工智能安全与评测》的演讲。

任奎教授主题演讲中。

以下是任奎教授演讲实录,内容经编辑略有删减:

非常高兴有机会在这里介绍浙大网安团队的工作。今天报告主要包括浙大在人工智能安全平台开发上的一些成果。当前,人工智能已成为全球大国博弈的关键领域,也是我国发展新质生产力的重要引擎之一,人工智能的重要性及其对国家的科技战略意义与影响不言自明。然而,人工智能的快速发展也引发了一系列的安全问题。本次报告将主要从人工智能安全评测、合成检测、合成内容标识这三个方面介绍团队的工作。这些工作各自从不同的维度应对当前AI发展过程中的多样化的安全问题。

第一部分是人工智能安全的测评。随着人工智能技术的广泛应用,安全问题日益凸显。人工智能系统作为软硬件结合的整体,在硬件、系统、框架、算法、模型、数据等多个层面面临着安全威胁。近年来,人工智能安全事件层出不穷,包括2023年主流分布式AI框架Ray被发现安全漏洞导致巨额损失;训练数据污染导致GPT-3模型中毒;2024年AMD GPU硬件出现数据泄露漏洞等等。这些事件的发生,凸显了人工智能安全的多维度特性。而妥善应对人工智能安全需求,需要研究者从系统整体的角度来考虑安全问题。

人工智能安全攻防技术自出现以来就在快速迭代。从早期以对抗样本、模型后门为主的算法和模型层面攻防,延伸到侧信道、系统漏洞等软硬件系统框架层面,再到近年来大模型的突破带来的提示词注入、安全护栏等新型安全挑战,这种持续的攻防博弈推动着人工智能安全技术的不断进步。

面对复杂多样的人工智能安全挑战,学术界和工业界已提出多个AI安全评测工具和平台。然而,这些工具在应对真实场景中未知多样的攻击手段、快速迭代的模型架构等问题仍存在局限性。主要挑战包括:安全风险来源多、威胁感知难、模型算法缺乏可解释性、因果溯源难、模型架构模态多样、评测工具适配困难等。

为应对这些挑战,浙大网安团队研发了人工智能安全评测平台AIcert。该平台具备多层面全栈威胁感知、多维度安全评估和模型自动化安全评测能力,支持10种人工智能系统23项安全测试任务,自动化程度超过90%。平台可适配多种学习任务,支持主流开源大模型评测,并积累了千万级的多模态数据基座和评测样本。

AIcert平台的核心能力体现在以下三个方面:首先是多层面全栈威胁感知。平台支持从数据、模型、算法、开发框架、操作系统到硬件设备的多层面安全威胁识别。它可以感知对抗样本、毒化数据、模型攻击、开发框架漏洞、操作系统漏洞和硬件故障等多种威胁。其次是多维度安全评测基准。平台构建了鲁棒性、可靠性、完整性、公平性、可解释性、可验证性六维安全评测基准,实现了人工智能系统决策因果分析可视化。这些维度涵盖了算法鲁棒性、系统可靠性、数据完整性、模型公平性、因果可解释性和结果可验证性等多个方面。

最后是模型自动化安全评测。平台拥有22万例样本的评测数据库,56种风险合规检测与57种鲁棒性检测的算法库,具备多环境多模态的测试样本自动生成能力。这为大规模、高效率的安全评测提供了基础。

AIcert平台自2024年3月开源发布以来,获得了公安部、华为等多个政府部门和大型头部企业的关注。浙大网安团队还与电子技术标准化研究院等机构合作,作为主要单位参与了相关国家标准的准备工作,联合定期发布大模型安全评测榜单,评测范围涵盖了LLaMA、Gemma、Qwen、ChatGLM等35个开源大模型的合规性和鲁棒性。不仅如此,AIcert平台已在中车株洲智轨交通风险评估系统、淘宝直播安全风控框架、蚂蚁集团金融场景AI安全评测等多个领域得到应用,显著提高了相关系统的决策准确性和安全性。

人工智能安全评测是一项具有挑战性的工作,需要在持续的研究和在实践中优化。展望未来,浙大网安团队将继续聚焦大模型安全评测,着力构建更准确的检测方法、提升评测流程的效率、强化智能加固能力。目标是确保大模型在各类应用场景中能够安全、可靠、负责任地运行。这需要深入研究模型安全机理,突破大模型因果推理可解释性分析技术,构建标准化评测体系,实现测试用例智能生成、评测模型自主学习、安全漏洞自动发现,并开发鲁棒性增强、后门检测、对抗样本防御等关键技术。期待通过AIcert平台的不断完善和应用,为人工智能技术的安全发展做出贡献,推动人工智能在各行各业的安全、可控应用,最终实现新质生产力的健康发展。

第二部分是合成检测。当前,AIGC的安全问题日益严峻。从安全角度而言,合成的内容可能导致各种各样的风险,这些安全风险事件屡见不鲜,且呈现蔓延之势。合成内容的生成与检测,实际上构成了一场激烈的对抗性博弈。

从合成算法角度而言,从最早的VAE到后面的扩散模型等,合成算法一直在演进。从检测的角度而言,检测方法经历了手工特征提取伪造痕迹、卷积神经网络提取痕迹、预训练大模型提取痕迹等过程。检测的内容、内涵和外延也在不断扩展,举一个例子,之前我们从没考虑到特朗普在合成图像里面的最明显特征是他的那一撮黄头发,很多人用一小撮黄头发的形象代表特朗普。另外,之前与网易易盾交流,我们也发现了一些例子,比如男性怀孕的伪造照片,也是我们前面想不到要去检测的内容。现在AIGC技术成熟所催生的大量合成内容导致安全攻击面扩大、安全攻击事件频发。

浙大网安最近的一项研究工作,对Midjourney等生成大模型进行攻击,使其能够产生任意领导人的伪造图像,生成任意色情、暴力、血腥的图片。Midjourney等大模型其实是有安全护栏的,但我们的研究发现这些安全护栏很容易被一击即穿。同时,研究还发现可以通过攻击Midjourney这类的大模型,获得它背后的训练数据,即现在的商业大模型也存在训练数据泄露的风险。

因此,围绕着AIGC与合成内容的攻防对抗,是安全技术博弈的最前沿之一。目前, 伪造检测技术整体上还处于初期阶段,在合成算法未知、数据分布多样的真实场景下检测性能不足。检测模型在检测亚裔人脸时效果不佳。公开的人脸数据集主要是白人数据集,有2000多万张。而亚洲人脸的数据集,公开可得的只有100多万张,缺少亚裔训练数据导致合成内容检测模型对亚裔人脸检测精度低。

针对这些问题,浙大网安团队研发了合成内容检测平台DFscan,支持语音和图像的真伪检测、伪造区域定位,并输出多维度的可视化结果分析报告。真伪检测是检测输入的语音或图像是真的还是伪造合成的。伪造区域定位是标出这个图片里伪造的区域在哪里或这个语音里伪造的片段在哪里,也就是进一步解释我们检测结果的判断依据。

合成检测平台现在积累了100多种音视图合成与检测算法,收集图像1500多万张,音频数据181万条。与此同时,Sora等最新的大模型生成的视频数据也被收集作为平台的训练语料。合成检测平台也集成了自研的伪造特征解耦、检测模型跨域迁移等创新前沿技术,提升了未知伪造算法、亚裔数据上的精准率,达到90%的平均精度。并且集成了压缩、亮度调整、翻转、模糊等图像干扰技术及混响、加噪等音频数据增强技术,以此实现了对社交媒体真实数据的检测精度提升。

第三部分介绍合成内容标识。合成内容标识和前面介绍的检测方法共同构成了安全治理的一个重要维度。即使针对可信的参与方,对AI生成的内容也需要嵌入相关标识。这是一种管理的方式,是一种侵权溯源的方式,也是一种版权保护的方式。嵌入的标识也有不同的功能和类型。例如,对于某个生成内容,可以只是简单的标识出它们是自然真实存在的还是由AI模型生成的。此外,标识还可以标记生成这些内容的具体模型。更进一步,标识还可以同时标记用户和模型。合成内容标识在功能性上也可以进一步划分,以满足监管的不同要求。

此外,合成内容标识也需要满足鲁棒性标准,即确保水印标识在信道传输、压缩等过程中,甚至是在有恶意攻击者的情况下还能稳定存在。总的来说,水印领域还有很大的发展前景,合成内容水印技术的发展势在必行。

然而,现在的AIGC水印产品只能实现简单的标识功能,对更广泛的AIGC场景支持并不完善,无法很好地满足AIGC场景下的新需求,也缺乏相关标准规范。浙大网安团队目前正与电子四院展开合作,希望通过制定相关技术标准来规范AIGC水印技术的开发和应用。

为了应对合成内容水印标识当前面临的问题,浙大网安团队提出合成内容安全水印平台GCmark,实现以下两种核心功能。一方面,实现合成内容水印嵌入,该核心功能以支持责任主体溯源、内容证伪、可证明鲁棒性的三种水印算法作为技术底座,支撑责任主体判定、内容证伪、版权保护三种关键能力。另一方面,实现合成内容水印算法安全评测,从三大方面对水印算法进行评测,实现了信道传输攻击、传统的内容修改攻击、AIGC 篡改等具有代表性的鲁棒性评测技术,这些基础底座和关键能力都是完善的AIGC水印平台所必不可少的。

未来,平台将进一步实现多种前沿技术功能,开发实时性水印、可继承水印和细粒度溯源等前沿技术,将生成内容与模型和用户紧紧耦合在一起。这是GCmark平台将要继续深入探索的功能和场景,希望能为AIGC应用发展进一步赋能。

以上三方面是浙大网安对人工智能安全的探索研究以及实用化的一些成果。目前浙大建设有区块链与数据安全全国重点实验室,实验室面向国民经济主战场、面向卡脖子技术、面向国家重大需求,开展有组织的科研,力求在关键问题上实现重大突破与创新。在人工智能安全方面,浙大网安认为人工智能,尤其是大模型,是未来数据最大的使用者,也是数据最大的生产者。数据安全是国重实验室的重点研究领域,而人工智能的数据安全则是我们在其中布局的重点研究方向。在大模型时代,我们希望能够推出一系列人工智能数据安全相关的安全系统,并让这些系统在实践中真正发挥作用。

浙江大学刚刚跟联通共建了数字安全联合实验室,其中一项重要的内容也与数据安全相关。浙大网安和信通院有一个关于智能网联车数据安全的联合实验室,这是因为我们发现智能网联车的数据在应用过程中也存在非常严重的安全问题。此外,最近在国家数据局的数据大讲堂上,我做了有关隐私计算的报告。隐私计算是数据安全从另外一个角度,即从融合、传输、分享、产生价值的角度,探索如何保护数据的安全性,从而让数据供得出、用得好。

浙大网安将在人工智能安全这三个方向持续发力,今天在场的有很多业界的人士,希望今后能有机会多合作。在未来,我们可以开展以下若干方向的合作:一是共同组织人工智能安全相关的大型技术比赛,二是合作构建人工智能大模型安全测评榜单的Benchmark,三是联合制定行业和国家标准。这些都是非常重要的几个领域,产学研各方应联手一起推动,才能有效助力国家在人工智能安全治理方面水平的整体提升,同时在世界人工智能技术发展中占领先机。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）