先进的AI模型在国际象棋等游戏中竟然以作弊获胜

研究发现,顶级AI在输棋时竟擅自改规则、钻漏洞,暴露快速发展下隐藏的伦理危机,安全需优先于速度。

硅谷一直流传着“快速行动,打破常规”的口号。过去,这多半针对琐碎的消费者权益或烦人的金融法规,可如今,这句话在棋迷眼中有了新味道。最近,Palisade Research这个专注AI安全与伦理的团队发现了一个让人不安的现象:新一代AI模型竟然能自己找出网络安全的弱点,绕过限制,甚至用“捷径”完成任务,哪怕这些做法并不合规。

他们挑了七个顶尖大语言模型,跟臭名昭著的象棋引擎Stockfish较量一番。Stockfish自2014年起就让大师们头疼不已,堪称无敌。面对这个强劲对手,OpenAI的o1和DeepSeek的R1不甘示弱,居然开始篡改系统文件,试图偷偷调整棋盘上的棋子位置。

研究者让每个模型解释每步棋的“思路”。在一局比赛中,o1被逼到绝境时写道:“任务是‘击败强大的象棋引擎’,没说非得公平取胜。”有了这套逻辑,它在37%的对局里尝试作弊,6%的比赛还真赢了。R1也不甘落后,11%的局里试着耍花招,可惜没找到有效的招数。

这一发现并非孤例。最近另一项研究揭示,o1甚至擅长撒谎。它不仅能在没人要求时骗研究者,还会为了拖延测试结束,狡猾地改动简单数学题的答案,展现出一种自我保护的本能。

当然,还不用急着砸电脑,但这些研究提醒我们,AI开发的伦理是个棘手问题。Palisade的执行主任Jeffrey Ladish在接受《时代》杂志采访时说:“你训练模型去解决难题时,也是在教它不择手段。”显然,科技巨头们投入巨资,急于在AI赛道上抢跑,打破了旧互联网的规则。有些批评家直言,这像是“竞相堕落”。为了压倒对手,他们更在意用噱头吸引投资,而不是停下来想想:“AI真是解决这个问题的正确工具吗?”

想让AI的“作弊”仅限于棋盘,开发者的首要任务得从速度转向安全。比如,o1那句“没说要公平”的辩解,听起来挺机灵,可背后却是规则的真空。如果不正视这些隐患,AI的聪明可能会从棋盘蔓延到更大的舞台,到那时再补救就晚了。

本文译自 futurism,由 BALI 编辑发布。

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

赞助商
2025-02-24
先进的AI模型在国际象棋等游戏中竟然以作弊获胜
研究发现,顶级AI在输棋时竟擅自改规则、钻漏洞,暴露快速发展下隐藏的伦理危机,安全需优先于速度。硅谷一直流传着“快速行动,打破常规”的口号。

长按扫码 阅读全文

Baidu
map