为什么越来越难以衡量 AI 性能：基准测试危机

Available in: 中文

2026-04-05T14:17:54.030Z·1 min read

Timothy B. Lee 指出，随着模型不断改进，传统的 AI 性能基准测试正变得越来越没有意义。定义 AI 竞赛的图表——显示模型向人类水平性能攀升——可能不再告诉我们需要知道的信息。

AI 领域最著名的图表可能即将过时

Timothy B. Lee 指出，随着模型不断改进，传统的 AI 性能基准测试正变得越来越没有意义。定义 AI 竞赛的图表——显示模型向人类水平性能攀升——可能不再告诉我们需要知道的信息。

基准测试的问题

传统基准测试如 MMLU、HumanEval 等是为 AI 的不同时代设计的：

饱和 — 顶级模型在许多基准上已接近满分，无法区分
数据污染 — 训练数据越来越多地包含基准问题，使分数不可靠
范围狭窄 — 基准测试衡量特定能力但遗漏了更广泛的智能维度
博弈指标 — 公司优化基准分数而非通用能力

什么在替代基准测试

行业正转向更细致的评估方法：人类评估、真实任务性能、动态基准测试、特定能力评估。

为何重要

基准危机有真实后果：基于过时指标的投资决策可能错误配置资本；公司可能过度投资基准性能而忽视实际效用；当标准指标失去意义时，安全评估变得更困难。

前进方向

AI 社区需要开发新的评估框架，捕捉真正重要的东西：模型是否能可靠地在多样化场景中执行有用的工作。

ai benchmarks evaluation llm ai safety research

Comments0