IEEE Spectrum深度分析：如何衡量AGI进展仍是AI研究最大难题之一

Available in: 中文

2026-04-04T14:47:53.652Z·1 min read

随着OpenAI、Anthropic和Google DeepMind的AI实验室领导者预测几年内实现AGI，IEEE Spectrum深入探讨了为什么追踪通用人工智能的进展仍然是AI研究中最困难的问题之一。

衡量通用人工智能的进展比你想象的难得多

随着计算能力、算法和数据的扩展，AI时间线已经大幅压缩。主要AI实验室负责人现在表示，他们预计在几年内实现AGI——即在大多数任务上匹配人类能力的AI技术。但定义和衡量这一进展被证明异常困难。

AGI基准测试面临根本性挑战：没有人同意AGI是什么：

没有对定义的共识，创建有意义的基准几乎不可能。

尽管面临挑战，基准测试仍然是必要的：

现有AI基准存在重大局限：

IEEE Spectrum分析认为，AI社区需要一种根本性的新基准方法——不仅要捕获任务性能，还要捕获AI推理的质量、适应性和可靠性。利害关系重大：AGI测量错误可能导致不安全系统的过早部署或有益技术的不必要延迟。

来源：IEEE Spectrum https://spectrum.ieee.org/agi-benchmark

Comments0