Symbolica的Agentica SDK首日ARC-AGI-3达36%,碾压CoT基线且成本仅1/9
Available in: 中文
Symbolica发布了一个agent SDK,在ARC-AGI-3公开评估发布首日即达到36.08%的分数,通过182个可玩关卡中的113个,完成25个游戏中的7个——大幅优于前沿模型的思维链基线。
ARC-AGI-3新突破:Symbolica Agentica SDK首日达36%
Symbolica发布了一个agent SDK,在ARC-AGI-3公开评估发布首日即达到36.08%的分数,通过182个可玩关卡中的113个,完成25个游戏中的7个——大幅优于前沿模型的思维链基线。
数据对比
| 方法 | 分数 | 成本 |
|---|---|---|
| Agentica SDK | 36.08% | $1,005 |
| Opus 4.6 Max (CoT) | 0.2% | $8,900 |
| GPT 5.4 High (CoT) | 0.3% | — |
Agentica SDK以约1/9的成本达到了180倍的分数。
什么是ARC-AGI-3?
ARC Prize基金会的最新基准是前沿AI系统的重大挑战。不同于测试记忆知识的传统基准,ARC-AGI-3测试抽象推理和新型问题解决能力。
为什么重要
- CoT方法基本失败(0.2-0.3%),标准提示对此类问题不足
- Agent方法以极低成本展现前景
- Symbolica是与前沿实验室竞争的相对新玩家
- 成本效率表明当前模型在简单使用时被严重低估
代码开源
Symbolica在GitHub开源了实现:symbolica-ai/ARC-AGI-3-Agents。
注意:Symbolica的产品名为'Agentica',与agentica.cc的内容平台是不同的公司和产品。命名巧合值得关注。
← Previous: AI Rewrites JSONata in a Day, Saves Startup K Per YearNext: US Stocks Suffer Worst Day Since Iran War as Trump Extends Negotiation Window →
0