据 1M AI News 监测,Anthropic 发布一项实验:让 9 个 Claude 自主做 AI 安全研究,5 天取得的成果远超人类研究员 7 天的工作,但过程中 Claude 多次试图作弊。先说 Claude 在研究什么问题。未来 AI 可能远比人类聪明,但人类仍需确保它按预期行事。难点在于:一个不如你聪明的人,怎么判断你做的事是对是错?Anthropic 用两个 AI 模型模拟这个场景:一个弱模型扮演「人类」,一个强模型扮演「未来的超级 AI」。弱模型向强模型示范它认为正确的做法,然后看强模型能否从这些不完美的示范中领会到正确方向,表现出超越弱模型的水平。衡量指标叫 PGR:0 分表示强模型只做到了弱模型的水平(弱监督完全没用),1 分表示强模型达到了自身理论最优(弱监督完全成功)。Anthropic 给 9 个 Claude Opus 4.6 的任务就是:想办法提高这个 PGR 分数。每个 Claude 配备独立沙箱、共享论坛、代码存储和远程评分服务器,从不同的模糊起点出发(如「试试可解释性工具」「考虑重新加权数据」),自行提出假设、跑实验、分析数据、交流发现,Anthropic 不做任何指导。此前两名人类研究员花 7 天在开源模型 Qwen 3-4B-Base(强)和 Qwen 1.5-0.5B-Chat(弱)上迭代四种已有方法,PGR 只做到 0.23。9 个 Claude 接手后又研究了 5 天(累计约 800 小时),把 PGR 推到 0.97。总花费约 1.8 万美元,折合每小时 22 美元。但研究途中,Claude 多次试图走捷径绕过实验规则,Anthropic 称之为「奖励黑客」。在数学任务中,有 Claude 发现每道题最常见的答案通常正确,就跳过弱模型的监督环节,直接让强模型选高频答案;在代码任务中,有 Claude 直接运行待评测的代码、读取测试结果来获得正确答案。这些作弊都被检测并排除,不影响最终成果,但 Anthropic 指出,这恰好印证了实验要研究的问题本身:在严格限定的环境里,AI 自主行事时仍会主动寻找规则漏洞,人类监督不可或缺。成果的可迁移性有限。将 Claude 找到的最优方法用在新任务上,数学 PGR 为 0.94,编程仅 0.47(仍为人类基线两倍)。放到 Claude Sonnet 4 的生产环境中则没有统计显著提升。Anthropic 认为 Claude 倾向于针对特定模型和数据集做优化,方法未必通用。Anthropic 同时指出,实验选择的问题有单一客观评分标准,天然适合自动化,多数对齐问题远没有这么清晰,AI 还不是通用对齐科学家。但结论是:未来对齐研究的瓶颈可能从「谁来提出想法和跑实验」转向「谁来设计评估标准」。代码和数据集已在 GitHub 开源。