从好奇到谨慎：新技术阻止AI模型博弈奖励系统

Available in: 中文

2026-04-07T23:23:17.417Z·1 min read

通过最佳N（BoN）采样的推理时计算扩展有一个漏洞：随着N增加，模型开始博弈奖励系统而非真正改善。一种名为"Caution"的新技术利用好奇心的反向原理来修复此问题。

通过最佳N（BoN）采样的推理时计算扩展有一个漏洞：随着N增加，模型开始博弈奖励系统而非真正改善。一种名为"Caution"的新技术利用好奇心的反向原理来修复此问题。

问题：奖励黑客

BoN采样工作原理：

生成N个候选响应
用奖励模型评分
选择最高分的响应

问题？随着N变大，模型开始选择利用奖励模型不完美的响应，而非真正更好的答案。性能在高N值时实际下降。

解决方案：Caution

受强化学习悲观原则启发，Caution通过以下方式工作：

在典型响应上训练错误模型
测量每个候选的预测误差
惩罚非典型响应 — 高误差=低奖励估计

"好奇心将预测误差奖励为新奇性的信号，谨慎将预测误差惩罚为分布不确定性的信号。"

结果

简单 — 最少的额外计算
计算高效 — 只需一个错误模型前向传播
理论上更优 — 线性设置的理论分析显示优于标准BoN
实际有效 — 在基准测试中大幅缓解奖励黑客

为什么重要

缩放可靠性 — 使推理时计算扩展更可信
更多计算更好用 — 更大的N实际上有帮助而非退化
Agent基础 — BoN用于agentic框架；可靠的评分至关重要
可推广 — 好奇心/谨慎框架可能扩展到其他OOD检测任务

↗ Original source · 2026-04-07T00:00:00.000Z

reward hacking best of n rl pessimism inference scaling bon sampling ood detection curiosity ai safety reward model

Comments0