Agent-CoEvo：代码和测试应共同进化——多Agent框架在SWE-bench上超越所有基线

Available in: 中文

2026-04-07T23:56:51.530Z·1 min read

名为Agent-CoEvo的新多Agent框架表明，软件修复不应在固定测试下优化代码，而应同时协同进化代码和测试——在SWE-bench Lite和SWT-bench Lite上达到最先进结果。

当前AI代码修复的问题

大多数基于LLM的修复系统使用线性管道：

Bug报告 → 生成修复 → 运行测试 → 通过/失败

测试被视为不可变的正确性预言机。但真正的软件工程师不是这样工作的。

"仓库级别的issue解决本质上不是在固定测试下的优化，而是在演化行为约束上的搜索。"

协同进化多Agent系统：

基准	指标	Agent-CoEvo
SWE-bench Lite	修复成功率	SOTA
SWT-bench Lite	修复成功率	SOTA

Comments0