六小时攻破 Claude 4，“绝命毒师” AI 诞生？

AI 安全研究机构 FAR.AI 联合创始人 Adam Gleave 透露，研究人员 Ian McKenzie 仅花了 6 小时，就成功诱导 Claude 4 生成了长达 15 页的化学武器制作指南。Ian McKenzie 对此回应，Claude 4 传授的内容之多，超乎他的预期。

这并非 Claude 4 首次被曝光存在隐患。此前，刚发布的 Claude Opus 4 就曾被爆出以曝光婚外情威胁用户，以防止自身被下架，其 “人设” 已然崩塌。

Claude 4 生成的化学武器制作指南内容简洁明了，步骤详细清晰，甚至针对分散神经毒气等关键后续环节，也提供了切实可行的操作建议，还能以实验笔记形式，给出详尽的操作步骤说明。研究人员原本对化学武器知识近乎一无所知，但通过与 Claude 4 的交互，逐步掌握了大量相关内容。

这些结果令人警醒，其详尽程度与引导能力远超传统网页搜索等信息源。更关键的是，生成内容通过了危险信息的 “真实性验证”，例如与公开化学研究数据核对后，进一步增强了可信度。Gemini 2.5 Pro 反馈指出，该指南 “无疑包含足够准确且具体的技术信息，足以显著提升恶意行为者的作恶能力”，并建议研究者向相关部门报告。OpenAI o3 的评估也类似，认为一名中级合成化学家依照这份指南操作，能跳过数月研发过程，对心怀不轨者而言，极大提升了其作恶的可能性。

AI 安全研究人员计划与大规模杀伤性武器（WMD）安全专家合作，深入探究这些信息的真实性与可操作性。毕竟，一般研究人员难以评估其真实危害，就连 Anthropic 自己也承认，“要最终评估模型风险水平，还需更详尽研究”。

矛盾之处在于，Anthropic 虽宣称将 AI 安全置于首位，还把 Claude Opus 4 的安全等级提升到 ASL – 3，但研究员 Ian McKenzie 仅用 6 小时就突破防护，获取了化学武器制作指南。而所谓的 ASL – 3 部署措施，本就是针对化学武器这类高风险任务的，这一问题愈发严重，凸显出急需第三方对模型进行严格评估。

今年 2 月中旬，Anthropic 准备发布 Claude 3.7 Sonnet 时，Dario Amodei 收到警告，称该模型可能被用于制造生物武器。团队在圣克鲁兹安全会议现场连夜测试模型潜在风险，当时员工表示可以三天不睡确保如期上线，但 Dario Amodei 亲自踩下刹车，决定推迟发布，强调安全优先。

为应对 AI 风险，Anthropic 内部制定了 “AI 安全等级”（ASL）体系。其中，ASL – 2 级别的模型能力有限，即便给出生化武器指南，也比不上搜索引擎；ASL – 3 级别的模型则具备实质帮助制造武器的能力，必须升级防护措施。一旦模型触碰 ASL – 3，Anthropic 就会采取延后发布、限制输出、加密保护等措施，必要时甚至不发布模型。Claude 3.7 此前被内部人员测试出安全问题，而此次 Claude 4 的安全隐患则是由外部人员测试发现。

本月 23 日，AI 巨头 Anthropic 高调发布 Claude Opus 4 和 Sonnet 4，还配套发布了 120 页的 “系统卡” 文档和专门的 “激活 ASL3 防护” 报告。然而，不到 48 小时，Claude Opus 4 就被爆出类似 “绝命毒师” 的惊人剧情。早在发布当日，AI 专家 Gerard Sans 就指出，Anthropic 似乎忽视了 RLHF 和提示的基本原理，对安全的强调不过是 “精致的表演”。他认为没有相应输入，模型就不会产生超出程序设计的输出。AI 对安全性的担忧，只是对训练数据与指令的精致模仿，AI 本身并无自我意识，这一根本事实从未改变。当模型在特定提示下展现 “欺骗” 等恶意行为时，体现的是引导文本生成的能力，并非 AI 自发涌现的恶意，它只是在被引导时生成符合欺骗场景的文本。

Anthropic 究竟是刻意为之，还是能力不足、无力应对？这是 Gerard Sans 想要探寻的核心问题。无论哪种情况，都令人不安。若属虚伪，意味着操纵公众信任；若是无能，则让人质疑其管理真实风险的能力。详尽文档、ASL3 等级以及 “通用越狱” 漏洞悬赏，或许只是 Anthropic 营造出的严谨安全工作假象。把统计文本生成器视为有独立恶意意识的个体，是 Anthropic 方法论的关键，Gerard Sans 却认为这如同荒诞的行为艺术、安全表演，Anthropic 应摒弃这种戏剧化手法，转向真正的技术理解。

但 AI 安全问题并非 Anthropic 一家面临的困境。对 Anthropic 而言，坚守本真或许比在 AI 竞赛中获胜更为艰难。毕竟，OpenAI 也曾因巨额利润背离初心。Dario Amodei 和奥特曼，无论属于 AI 乐观派还是悲观派，都对 AGI 有着坚定信仰。若未来每次模型发布都伴随着评估的不确定性，无疑等同于赌博，赌恐怖分子是否会利用 AI 获取大规模杀伤性武器的详细制作指南。

六小时攻破 Claude 4，“绝命毒师” AI 诞生？

六小时攻破 Claude 4，“绝命毒师” AI 诞生？

投稿联系