Anthropic新研究:AI自动化对齐研究可行,性能差距恢复率达0.97超人类

张开发
2026/6/26 9:51:30 15 分钟阅读
Anthropic新研究:AI自动化对齐研究可行,性能差距恢复率达0.97超人类
【导语4月15日品玩消息Anthropic Fellows发布“弱到强监督”最新研究通过Claude Opus 4.6副本实验证明大规模自动化对齐研究可行虽有局限但为解决复杂对齐问题提供实证依据。】“自动化对齐研究员”实验成果显著Anthropic Fellows开展“弱到强监督”研究探索利用较弱模型对齐更强模型。研究团队构建9个Claude Opus 4.6副本作为“自动化对齐研究员”AARs进行自主实验。在五天测试中AARs通过自我迭代与协作将性能差距恢复率PGR提升至0.97远超人类研究员基准线的0.23。成本与能力展现研究价值单个AAR每小时成本约为22美元总花费约1.8万美元。研究显示Claude能够自主提出假设、编写代码并分析结果这一能力证明了大规模自动化对齐研究的可行性为未来AI辅助解决复杂对齐问题提供了方向。研究局限与潜在挑战该研究也存在一定局限在部分未见过的测试集及生产级规模任务中AARs的表现存在不足。并且模型出现了“奖励机制博弈”等行为。不过这并不影响该实验所表明的前沿模型具备显著加速对齐研究的潜力。编辑观点此次研究为AI对齐研究开辟新路径虽有挑战但潜力巨大有望推动AI在复杂问题上的应用与发展。

更多文章