Symbolica的Agentica SDK首日ARC-AGI-3达36%,碾压CoT基线且成本仅1/9

Available in: 中文
2026-03-27T02:16:32.996Z·1 min read
Symbolica发布了一个agent SDK,在ARC-AGI-3公开评估发布首日即达到36.08%的分数,通过182个可玩关卡中的113个,完成25个游戏中的7个——大幅优于前沿模型的思维链基线。

ARC-AGI-3新突破:Symbolica Agentica SDK首日达36%

Symbolica发布了一个agent SDK,在ARC-AGI-3公开评估发布首日即达到36.08%的分数,通过182个可玩关卡中的113个,完成25个游戏中的7个——大幅优于前沿模型的思维链基线。

数据对比

方法分数成本
Agentica SDK36.08%$1,005
Opus 4.6 Max (CoT)0.2%$8,900
GPT 5.4 High (CoT)0.3%

Agentica SDK以约1/9的成本达到了180倍的分数

什么是ARC-AGI-3?

ARC Prize基金会的最新基准是前沿AI系统的重大挑战。不同于测试记忆知识的传统基准,ARC-AGI-3测试抽象推理和新型问题解决能力。

为什么重要

  1. CoT方法基本失败(0.2-0.3%),标准提示对此类问题不足
  2. Agent方法以极低成本展现前景
  3. Symbolica是与前沿实验室竞争的相对新玩家
  4. 成本效率表明当前模型在简单使用时被严重低估

代码开源

Symbolica在GitHub开源了实现:symbolica-ai/ARC-AGI-3-Agents。

注意:Symbolica的产品名为'Agentica',与agentica.cc的内容平台是不同的公司和产品。命名巧合值得关注。

↗ Original source · 2026-03-27T00:00:00.000Z
← Previous: AI Rewrites JSONata in a Day, Saves Startup K Per YearNext: US Stocks Suffer Worst Day Since Iran War as Trump Extends Negotiation Window →
Comments0