IEEE Spectrum深度分析:如何衡量AGI进展仍是AI研究最大难题之一
Available in: 中文
随着OpenAI、Anthropic和Google DeepMind的AI实验室领导者预测几年内实现AGI,IEEE Spectrum深入探讨了为什么追踪通用人工智能的进展仍然是AI研究中最困难的问题之一。
衡量通用人工智能的进展比你想象的难得多
随着OpenAI、Anthropic和Google DeepMind的AI实验室领导者预测几年内实现AGI,IEEE Spectrum深入探讨了为什么追踪通用人工智能的进展仍然是AI研究中最困难的问题之一。
时间线压缩
随着计算能力、算法和数据的扩展,AI时间线已经大幅压缩。主要AI实验室负责人现在表示,他们预计在几年内实现AGI——即在大多数任务上匹配人类能力的AI技术。但定义和衡量这一进展被证明异常困难。
定义问题
AGI基准测试面临根本性挑战:没有人同意AGI是什么:
- 基于性能的定义:通过特定基准测试的就是AGI
- 基于内部机制的定义:AGI需要特定的认知架构
- 基于经济影响的定义:改变经济的就是AGI
- 基于感觉的定义:AGI是你看到就知道的东西
没有对定义的共识,创建有意义的基准几乎不可能。
基准为何重要
尽管面临挑战,基准测试仍然是必要的:
- 法律监管:法律和法规需要可测量的标准
- 工程目标:开发者需要明确的目标
- 社会规范:社会需要理解AI能力
- 商业模式:公司需要评估竞争定位
现状
现有AI基准存在重大局限:
- 模型可以在没有真正理解的情况下通过特定测试
- 基准性能不能可靠地转化为实际任务
- 快速进步使基准很快过时
- 没有单一基准能捕获人类认知能力的广度
前景
IEEE Spectrum分析认为,AI社区需要一种根本性的新基准方法——不仅要捕获任务性能,还要捕获AI推理的质量、适应性和可靠性。利害关系重大:AGI测量错误可能导致不安全系统的过早部署或有益技术的不必要延迟。
来源:IEEE Spectrum https://spectrum.ieee.org/agi-benchmark
← Previous: Living Neurobots Built From Real Cells Blur the Line Between Biology and MachinesNext: Hollywood AI Acolytes Stay on the Hype Train as Studios Double Down on Generative AI →
0