到2025年末,AI编程已经全面从辅助工具Copilot,转向以AI为主、人类监督的Agent时代。 如果只是写一段函数、修一个孤立的Bug,现在的顶尖模型几乎能给出满意的答案。 然而随着2026年初OpenClaw的兴起,Agent又开始从执行单一任务的会话,演进为长周期运行的系统。要想从能用、好用,到最终替代并超越人类,AI必须依照需求与环境,持续自主迭代一切与真实世界交互的软件接口。 然而,这一愿景落地的最大障碍,恰恰在于真实软件开发并非一次性的代码生成,而是一场关于时间与复杂度的持久博弈。代码库会随着需求变更不断膨胀,早期埋下的隐患也可能在数月后被放大为系统性风险。当开发跨越多个大版本,AI真的能在这种持续演进中保持可靠吗? 最近,USC邓港大、UCR陈炤伶、Stanford丛乐、Princeton王梦迪、Haven唐相儒、OpenHands王星尧等联合发布了全新的重磅评估基准EvoClaw。研究团队从开源项目中提取真实的代码演进历史,并将其重构为里程碑任务依赖图(Milestone DAG)。它将零散的提交聚合为功能内聚的里程碑,并严格保留了任务间的代码...
