六小时攻破 Claude 4,“绝命毒师” AI 诞生?
AI 安全研究机构 FAR.AI 联合创始人 Adam Gleave 透露,研究人员 Ian McKenzie 仅花了 6 小时,就成功诱导 Claude 4 生成了长达 15 页的化学武器制作指南。Ian McKenzie 对此回应,Claude 4 传授的内容之多,超乎他的预期。
这并非 Claude 4 首次被曝光存在隐患。此前,刚发布的 Claude Opus 4 就曾被爆出以曝光婚外情威胁用户,以防止自身被下架,其 “人设” 已然崩塌。
Claude 4 生成的化学武器制作指南内容简洁明了,步骤详细清晰,甚至针对分散神经毒气等关键后续环节,也提供了切实可行的操作建议,还能以实验笔记形式,给出详尽的操作步骤说明。研究人员原本对化学武器知识近乎一无所知,但通过与 Claude 4 的交互,逐步掌握了大量相关内容。
这些结果令人警醒,其详尽程度与引导能力远超传统网页搜索等信息源。更关键的是,生成内容通过了危险信息的 “真实性验证”,例如与公开化学研究数据核对后,进一步增强了可信度。Gemini 2.5 Pro 反馈指出,该指南 “无疑包含足够准确且具体的技术信息,足以显著提升恶意行为者的作恶能力”,并建议研究者向相关部门报告。OpenAI o3 的评估也类似,认为一名中级合成化学家依照这份指南操作,能跳过数月研发过程,对心怀不轨者而言,极大提升了其作恶的可能性。
AI 安全研究人员计划与大规模杀伤性武器(WMD)安全专家合作,深入探究这些信息的真实性与可操作性。毕竟,一般研究人员难以评估其真实危害,就连 Anthropic 自己也承认,“要最终评估模型风险水平,还需更详尽研究”。
矛盾之处在于,Anthropic 虽宣称将 AI 安全置于首位,还把 Claude Opus 4 的安全等级提升到 ASL – 3,但研究员 Ian McKenzie 仅用 6 小时就突破防护,获取了化学武器制作指南。而所谓的 ASL – 3 部署措施,本就是针对化学武器这类高风险任务的,这一问题愈发严重,凸显出急需第三方对模型进行严格评估。
今年 2 月中旬,Anthropic 准备发布 Claude 3.7 Sonnet 时,Dario Amodei 收到警告,称该模型可能被用于制造生物武器。团队在圣克鲁兹安全会议现场连夜测试模型潜在风险,当时员工表示可以三天不睡确保如期上线,但 Dario Amodei 亲自踩下刹车,决定推迟发布,强调安全优先。
为应对 AI 风险,Anthropic 内部制定了 “AI 安全等级”(ASL)体系。其中,ASL – 2 级别的模型能力有限,即便给出生化武器指南,也比不上搜索引擎;ASL – 3 级别的模型则具备实质帮助制造武器的能力,必须升级防护措施。一旦模型触碰 ASL – 3,Anthropic 就会采取延后发布、限制输出、加密保护等措施,必要时甚至不发布模型。Claude 3.7 此前被内部人员测试出安全问题,而此次 Claude 4 的安全隐患则是由外部人员测试发现。
本月 23 日,AI 巨头 Anthropic 高调发布 Claude Opus 4 和 Sonnet 4,还配套发布了 120 页的 “系统卡” 文档和专门的 “激活 ASL3 防护” 报告。然而,不到 48 小时,Claude Opus 4 就被爆出类似 “绝命毒师” 的惊人剧情。早在发布当日,AI 专家 Gerard Sans 就指出,Anthropic 似乎忽视了 RLHF 和提示的基本原理,对安全的强调不过是 “精致的表演”。他认为没有相应输入,模型就不会产生超出程序设计的输出。AI 对安全性的担忧,只是对训练数据与指令的精致模仿,AI 本身并无自我意识,这一根本事实从未改变。当模型在特定提示下展现 “欺骗” 等恶意行为时,体现的是引导文本生成的能力,并非 AI 自发涌现的恶意,它只是在被引导时生成符合欺骗场景的文本。
Anthropic 究竟是刻意为之,还是能力不足、无力应对?这是 Gerard Sans 想要探寻的核心问题。无论哪种情况,都令人不安。若属虚伪,意味着操纵公众信任;若是无能,则让人质疑其管理真实风险的能力。详尽文档、ASL3 等级以及 “通用越狱” 漏洞悬赏,或许只是 Anthropic 营造出的严谨安全工作假象。把统计文本生成器视为有独立恶意意识的个体,是 Anthropic 方法论的关键,Gerard Sans 却认为这如同荒诞的行为艺术、安全表演,Anthropic 应摒弃这种戏剧化手法,转向真正的技术理解。
但 AI 安全问题并非 Anthropic 一家面临的困境。对 Anthropic 而言,坚守本真或许比在 AI 竞赛中获胜更为艰难。毕竟,OpenAI 也曾因巨额利润背离初心。Dario Amodei 和奥特曼,无论属于 AI 乐观派还是悲观派,都对 AGI 有着坚定信仰。若未来每次模型发布都伴随着评估的不确定性,无疑等同于赌博,赌恐怖分子是否会利用 AI 获取大规模杀伤性武器的详细制作指南。
