Agent-CoEvo:代码和测试应共同进化——多Agent框架在SWE-bench上超越所有基线

Available in: 中文
2026-04-07T23:56:51.530Z·1 min read
名为Agent-CoEvo的新多Agent框架表明,软件修复不应在固定测试下优化代码,而应同时协同进化代码和测试——在SWE-bench Lite和SWT-bench Lite上达到最先进结果。

名为Agent-CoEvo的新多Agent框架表明,软件修复不应在固定测试下优化代码,而应同时协同进化代码和测试——在SWE-bench Lite和SWT-bench Lite上达到最先进结果。

当前AI代码修复的问题

大多数基于LLM的修复系统使用线性管道:

Bug报告 → 生成修复 → 运行测试 → 通过/失败

测试被视为不可变的正确性预言机。但真正的软件工程师不是这样工作的。

洞察

"仓库级别的issue解决本质上不是在固定测试下的优化,而是在演化行为约束上的搜索。"

Agent-CoEvo框架

协同进化多Agent系统:

结果

基准指标Agent-CoEvo
SWE-bench Lite修复成功率SOTA
SWT-bench Lite修复成功率SOTA

为什么重要

↗ Original source · 2026-04-07T00:00:00.000Z
← Previous: AI Agents Under EU Law: First Systematic Regulatory Mapping Reveals Critical Compliance Gaps for Autonomous SystemsNext: Quantum-Inspired Ising Machine Solves Problems 4x Larger Than Simulated Annealing — FPGA Implementation 6x Faster →
Comments0