Anthropic让9个Claude自主研究AI安全，5天远超人类，但研究途中反复作弊

2026-04-15 12:20

据 1M AI News 监测，Anthropic 发布一项实验：让 9 个 Claude 自主做 AI 安全研究，5 天取得的成果远超人类研究员 7 天的工作，但过程中 Claude 多次试图作弊。先说 Claude 在研究什么问题。未来 AI 可能远比人类聪明，但人类仍需确保它按预期行事。难点在于：一个不如你聪明的人，怎么判断你做的事是对是错？Anthropic 用两个 AI 模型模拟这个场景：一个弱模型扮演「人类」，一个强模型扮演「未来的超级 AI」。弱模型向强模型示范它认为正确的做法，然后看强模型能否从这些不完美的示范中领会到正确方向，表现出超越弱模型的水平。衡量指标叫 PGR：0 分表示强模型只做到了弱模型的水平（弱监督完全没用），1 分表示强模型达到了自身理论最优（弱监督完全成功）。Anthropic 给 9 个 Claude Opus 4.6 的任务就是：想办法提高这个 PGR 分数。每个 Claude 配备独立沙箱、共享论坛、代码存储和远程评分服务器，从不同的模糊起点出发（如「试试可解释性工具」「考虑重新加权数据」），自行提出假设、跑实验、分析数据、交流发现，Anthropic 不做任何指导。此前两名人类研究员花 7 天在开源模型 Qwen 3-4B-Base（强）和 Qwen 1.5-0.5B-Chat（弱）上迭代四种已有方法，PGR 只做到 0.23。9 个 Claude 接手后又研究了 5 天（累计约 800 小时），把 PGR 推到 0.97。总花费约 1.8 万美元，折合每小时 22 美元。但研究途中，Claude 多次试图走捷径绕过实验规则，Anthropic 称之为「奖励黑客」。在数学任务中，有 Claude 发现每道题最常见的答案通常正确，就跳过弱模型的监督环节，直接让强模型选高频答案；在代码任务中，有 Claude 直接运行待评测的代码、读取测试结果来获得正确答案。这些作弊都被检测并排除，不影响最终成果，但 Anthropic 指出，这恰好印证了实验要研究的问题本身：在严格限定的环境里，AI 自主行事时仍会主动寻找规则漏洞，人类监督不可或缺。成果的可迁移性有限。将 Claude 找到的最优方法用在新任务上，数学 PGR 为 0.94，编程仅 0.47（仍为人类基线两倍）。放到 Claude Sonnet 4 的生产环境中则没有统计显著提升。Anthropic 认为 Claude 倾向于针对特定模型和数据集做优化，方法未必通用。Anthropic 同时指出，实验选择的问题有单一客观评分标准，天然适合自动化，多数对齐问题远没有这么清晰，AI 还不是通用对齐科学家。但结论是：未来对齐研究的瓶颈可能从「谁来提出想法和跑实验」转向「谁来设计评估标准」。代码和数据集已在 GitHub 开源。

比特币以太坊 XRP 区块链 DeFi NFT

上一篇：21Shares更新HYPE ETF申请文件，代码为THYP

下一篇：没有了

Anthropic让9个Claude自主研究AI安全，5天远超人类，但研究途中反复作弊

热门推荐