AGI 基准测试：为什么追踪通用人工智能进展仍然极其困难

Available in: 中文

2026-03-29T22:28:44.237Z·1 min read

AGI 基准测试面临定义分歧、人类-机器智能不可比、测试可被记忆攻克等根本挑战。Hinton 称'我们在建造外星生物'。可靠测量对社会准备 AGI 冲击至关重要。

OpenAI、Anthropic 和 DeepMind 领导者预测几年内实现 AGI，但研究者面临根本问题：如何衡量一种定义仍存争议的技术的进展？

定义问题：AGI 定义分歧严重——按基准表现、内部工作机制、经济影响还是定性判断？Geoffrey Hinton 说'我们在建造外星生物'。

标准测试为何失效：为人类设计的 IQ 测试可能不衡量机器的相同能力、AI 与人类有不同的优劣势、智能是多维的（流体推理、固化知识、社会智能、物理智能）、当前基准可通过记忆而非真正理解来攻克。

AI 能力不像人类能力那样打包，直接比较人类和机器智能根本困难。基准对制定法律监管、工程目标、社会规范和商业模式至关重要。

Comments0