为什么越来越难以衡量 AI 性能：基准测试正在变得过时

Available in: 中文

2026-04-06T04:48:00.654Z·1 min read

AI 行业正面临日益严重的危机：用于衡量模型性能的基准测试正变得越来越不可靠。根据 Understanding AI 的 Timothy B. Lee 的分析，追踪 AI 进步的传统图表——基于 MMLU、HumanEval 等标准化测试——可能不再准确反映实际能力的改进。

AI 领域最著名的图表可能即将过时

AI 行业正面临日益严重的危机：用于衡量模型性能的基准测试正变得越来越不可靠。根据 Understanding AI 的 Timothy B. Lee 的分析，追踪 AI 进步的传统图表——基于 MMLU、HumanEval 等标准化测试——可能不再准确反映实际能力的改进。

基准饱和问题

核心问题在于 AI 模型已经变得如此强大，以至于它们正在饱和现有基准：

接近完美分数：领先模型在许多标准基准上的得分已超过 90%，几乎没有区分不同代际的空间
基准泄漏：训练数据通常包含基准问题，使得分数不能可靠地衡量真实能力
范围狭窄：基准测试特定技能，这些技能可能无法推广到实际任务
古德哈特定律在起作用：当一个衡量标准成为目标时，它就不再是一个好的衡量标准

新的测量挑战

随着基准饱和，行业面临几个难题：

当每个人的分数都接近完美时，我们如何比较模型？
可以设计哪些不会被作弊或饱和的新基准？
我们能开发连续的、非二元的 AI 能力度量方法吗？
如何衡量难以测试但明显存在的能力？

新兴方法

AI 社区正在实验新的评估方法：

人类评估：回归人类判断来评估质量
真实世界任务表现：衡量实际用例的成功而非合成测试
对抗性测试：创建故意设计的有挑战性的问题以抵抗记忆化
多模态评估：同时评估文本、图像、代码和推理能力
ELO 式评级：基于成对比较的连续评级系统

对行业的影响

基准饱和具有重要的商业影响：

采购决策：当基准失去意义时，企业买家难以比较 AI 供应商
研究方向：没有清晰的指标，研究优先级变得难以证明
投资者信心：展示进步的能力变得更加定性而非定量
监管挑战：政策制定者需要客观的指标来评估 AI 安全和能力

从传统基准转向代表 AI 行业的成熟——从简单的竞争指标转向对 AI 系统实际能力的更细致理解。

ai benchmarks evaluation mmlu machinelearning research openai anthropic performance

Comments0