RESCORE:LLM Agent自动从论文恢复数值模拟,速度是人类的10倍
Available in: 中文
新的Agent框架RESCORE使用LLM Agent自动重建控制系统研究论文中描述的数值模拟,比人工复现快10倍。
新的Agent框架RESCORE使用LLM Agent自动重建控制系统研究论文中描述的数值模拟,比人工复现快10倍。
问题
复现研究结果虽是科学基石,但面临:参数未明确指定、描述模糊、人工耗时、可复现性危机。
RESCORE框架
三组件Agent管道:
- 分析器 — 阅读理解论文,提取模拟规格
- 编码器 — 生成可执行代码重现模拟
- 验证器 — 运行代码,用视觉比较对照论文图表
系统使用迭代执行反馈——模拟不匹配时分析原因并重试。
结果
- 40.7%成功率 — 500篇论文基准上的任务连贯模拟恢复
- 10x加速 — 相比人工复现
- IEEE CDC基准 — 500篇决策与控制会议论文
为什么40.7%令人印象深刻
考虑到从论文描述恢复模拟的复杂性(缺失参数、隐含假设、符号差异),自动化系统达到近一半成功率实属卓越。
影响
- 可复现性 — 大规模自动化验证发表结果
- 文献审查 — 快速测试已发表方法是否如描述般有效
- 研究加速 — 更快地基于已验证结果构建
← Previous: REAM: Merging Instead of Pruning Mixture-of-Experts Preserves Performance While Cutting MemoryNext: Width Growth in Language Models: Exact Copy Warm Starts Surprisingly Beat Complex Initialization Strategies →
0