Agent-CoEvo:代码和测试应共同进化——多Agent框架在SWE-bench上超越所有基线
Available in: 中文
名为Agent-CoEvo的新多Agent框架表明,软件修复不应在固定测试下优化代码,而应同时协同进化代码和测试——在SWE-bench Lite和SWT-bench Lite上达到最先进结果。
名为Agent-CoEvo的新多Agent框架表明,软件修复不应在固定测试下优化代码,而应同时协同进化代码和测试——在SWE-bench Lite和SWT-bench Lite上达到最先进结果。
当前AI代码修复的问题
大多数基于LLM的修复系统使用线性管道:
Bug报告 → 生成修复 → 运行测试 → 通过/失败
测试被视为不可变的正确性预言机。但真正的软件工程师不是这样工作的。
洞察
"仓库级别的issue解决本质上不是在固定测试下的优化,而是在演化行为约束上的搜索。"
Agent-CoEvo框架
协同进化多Agent系统:
- 代码agent — 提出和完善补丁
- 测试agent — 提出和完善测试修改
- 相互评估 — 各自评估对方
- 语义重组 — 最佳元素被组合
- 迭代改进 — 代码和测试共同改善
结果
| 基准 | 指标 | Agent-CoEvo |
|---|---|---|
| SWE-bench Lite | 修复成功率 | SOTA |
| SWT-bench Lite | 修复成功率 | SOTA |
为什么重要
- 实际相关性 — 匹配真实工程师修复bug的方式
- AI代码工具 — 直接适用于Claude Code、Codex、Copilot
- 范式转换 — 从"仅代码优化"到"实现和规范的协同进化"
← Previous: AI Agents Under EU Law: First Systematic Regulatory Mapping Reveals Critical Compliance Gaps for Autonomous SystemsNext: Quantum-Inspired Ising Machine Solves Problems 4x Larger Than Simulated Annealing — FPGA Implementation 6x Faster →
0