为什么越来越难以衡量 AI 性能:基准测试正在变得过时
Available in: 中文
AI 行业正面临日益严重的危机:用于衡量模型性能的基准测试正变得越来越不可靠。根据 Understanding AI 的 Timothy B. Lee 的分析,追踪 AI 进步的传统图表——基于 MMLU、HumanEval 等标准化测试——可能不再准确反映实际能力的改进。
AI 领域最著名的图表可能即将过时
AI 行业正面临日益严重的危机:用于衡量模型性能的基准测试正变得越来越不可靠。根据 Understanding AI 的 Timothy B. Lee 的分析,追踪 AI 进步的传统图表——基于 MMLU、HumanEval 等标准化测试——可能不再准确反映实际能力的改进。
基准饱和问题
核心问题在于 AI 模型已经变得如此强大,以至于它们正在饱和现有基准:
- 接近完美分数:领先模型在许多标准基准上的得分已超过 90%,几乎没有区分不同代际的空间
- 基准泄漏:训练数据通常包含基准问题,使得分数不能可靠地衡量真实能力
- 范围狭窄:基准测试特定技能,这些技能可能无法推广到实际任务
- 古德哈特定律在起作用:当一个衡量标准成为目标时,它就不再是一个好的衡量标准
新的测量挑战
随着基准饱和,行业面临几个难题:
- 当每个人的分数都接近完美时,我们如何比较模型?
- 可以设计哪些不会被作弊或饱和的新基准?
- 我们能开发连续的、非二元的 AI 能力度量方法吗?
- 如何衡量难以测试但明显存在的能力?
新兴方法
AI 社区正在实验新的评估方法:
- 人类评估:回归人类判断来评估质量
- 真实世界任务表现:衡量实际用例的成功而非合成测试
- 对抗性测试:创建故意设计的有挑战性的问题以抵抗记忆化
- 多模态评估:同时评估文本、图像、代码和推理能力
- ELO 式评级:基于成对比较的连续评级系统
对行业的影响
基准饱和具有重要的商业影响:
- 采购决策:当基准失去意义时,企业买家难以比较 AI 供应商
- 研究方向:没有清晰的指标,研究优先级变得难以证明
- 投资者信心:展示进步的能力变得更加定性而非定量
- 监管挑战:政策制定者需要客观的指标来评估 AI 安全和能力
从传统基准转向代表 AI 行业的成熟——从简单的竞争指标转向对 AI 系统实际能力的更细致理解。
← Previous: US-Iran Conflict Day 38: Strait of Hormuz Traffic Surges as Iraq Gets ExemptionNext: OpenAI Shuts Down Sora AI Video App to Focus on Core Mission →
0