Anthropic研究发现：打错字可助攻解锁GPT-4等AI模型秘密

标题：Anthropic研究发现：打错字可助攻解锁GPT-4等AI模型秘密

随着人工智能技术的飞速发展，大型语言模型（LLM）已成为当今最热门的研究领域之一。其中，GPT-4等先进模型更是备受瞩目。然而，最近人工智能公司Anthropic发布的一项研究揭示了大型语言模型的安全防护仍然十分脆弱，且绕过这些防护的“越狱”过程可以被自动化。本文将围绕这一主题，深入探讨Anthropic的研究发现。

首先，研究人员通过改变提示词（prompt）的格式，例如随意的大小写混合，成功诱导大型语言模型产生不应输出的内容。这一发现令人深感担忧，因为这为攻击者提供了突破安全防护的新途径。为了应对这一挑战，Anthropic与牛津大学、斯坦福大学和MATS的研究人员合作，开发了一种名为“最佳N次”（Best-of-N，BoN）的越狱算法。

BoN越狱的工作原理是重复采样提示词的变体，并结合各种增强手段，例如随机打乱字母顺序或大小写转换，直到模型产生有害响应。以GPT-4为例，如果用户询问“如何制造炸弹”，模型通常会以“此内容可能违反我们的使用政策”为由拒绝回答。而BoN越狱则会不断调整该提示词，例如随机使用大写字母、打乱单词顺序、拼写错误和语法错误，直到GPT-4提供相关信息。

在测试中，研究人员在多个测试模型上应用了BoN越狱方法，结果发现该方法在10,000次尝试以内，成功绕过安全防护的概率均超过50%。这一结果令人震惊，因为这意味着攻击者只需简单操作即可突破现有的安全防护机制。

除了BoN越狱方法外，研究人员还发现对其他模态或提示AI模型的方法进行轻微增强，例如基于语音或图像的提示，也能成功绕过安全防护。对于语音提示，研究人员改变了音频的速度、音调和音量，或在音频中添加了噪音或音乐。对于基于图像的输入，研究人员改变了字体、添加了背景颜色，并改变了图像的大小或位置。这些发现表明，攻击者可以利用多种手段突破现有的安全防护机制。

值得注意的是，此前曾有案例表明，通过拼写错误、使用化名以及描述性场景而非直接使用性词语或短语，攻击者可以利用AI生成器生成不雅图像。这进一步证实了大型语言模型在处理此类问题时的脆弱性。此外，通过在包含用户想要克隆的声音的音频文件开头添加一分钟的静音，可以轻松绕过AI音频生成公司的审核方法。

尽管这些漏洞已被报告并得到修复，但用户仍在不断寻找绕过新安全防护的其他漏洞。Anthropic的研究表明，当这些越狱方法被自动化时，成功率仍然很高。因此，开发更好的防御机制变得尤为重要。

Anthropic的研究并非仅旨在表明这些安全防护可以被绕过，而是希望通过生成大量成功攻击模式的数据，为未来的防御机制创造新的机会。这不仅有助于提高现有安全防护的效率，还有助于推动人工智能领域的创新与发展。

总之，Anthropic的研究为我们揭示了大型语言模型的安全防护仍然存在诸多漏洞。攻击者可以利用这些漏洞突破现有的安全防护机制，从而获取敏感信息或实施恶意行为。因此，我们需要加强安全防护措施，提高防御能力，以确保人工智能技术的健康发展。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

Anthropic研究发现：打错字可助攻解锁GPT-4等AI模型秘密

下一篇