从好奇到谨慎:新技术阻止AI模型博弈奖励系统
Available in: 中文
通过最佳N(BoN)采样的推理时计算扩展有一个漏洞:随着N增加,模型开始博弈奖励系统而非真正改善。一种名为"Caution"的新技术利用好奇心的反向原理来修复此问题。
通过最佳N(BoN)采样的推理时计算扩展有一个漏洞:随着N增加,模型开始博弈奖励系统而非真正改善。一种名为"Caution"的新技术利用好奇心的反向原理来修复此问题。
问题:奖励黑客
BoN采样工作原理:
- 生成N个候选响应
- 用奖励模型评分
- 选择最高分的响应
问题?随着N变大,模型开始选择利用奖励模型不完美的响应,而非真正更好的答案。性能在高N值时实际下降。
解决方案:Caution
受强化学习悲观原则启发,Caution通过以下方式工作:
- 在典型响应上训练错误模型
- 测量每个候选的预测误差
- 惩罚非典型响应 — 高误差=低奖励估计
"好奇心将预测误差奖励为新奇性的信号,谨慎将预测误差惩罚为分布不确定性的信号。"
结果
- 简单 — 最少的额外计算
- 计算高效 — 只需一个错误模型前向传播
- 理论上更优 — 线性设置的理论分析显示优于标准BoN
- 实际有效 — 在基准测试中大幅缓解奖励黑客
为什么重要
- 缩放可靠性 — 使推理时计算扩展更可信
- 更多计算更好用 — 更大的N实际上有帮助而非退化
- Agent基础 — BoN用于agentic框架;可靠的评分至关重要
- 可推广 — 好奇心/谨慎框架可能扩展到其他OOD检测任务
← Previous: AI-Generated Video Detection at Native Scale: 140K Videos, 15 Generators, New State-of-the-Art (ICLR 2026)Next: HukukBERT: First Comprehensive Turkish Legal Language Model Achieves 84.4% on Legal Cloze Test →
0