OpenClaw代码越改越崩？新研究EvoClaw揭示：Agents持续开发成功率仅13.37% - AI资讯

到2025年末，AI编程已经全面从辅助工具Copilot，转向以AI为主、人类监督的Agent时代。如果只是写一段函数、修一个孤立的Bug，现在的顶尖模型几乎能给出满意的答案。然而随着2026年初OpenClaw的兴起，Agent又开始从执行单一任务的会话，演进为长周期运行的系统。要想从能用、好用，到最终替代并超越人类，AI必须依照需求与环境，持续自主迭代一切与真实世界交互的软件接口。然而，这一愿景落地的最大障碍，恰恰在于真实软件开发并非一次性的代码生成，而是一场关于时间与复杂度的持久博弈。代码库会随着需求变更不断膨胀，早期埋下的隐患也可能在数月后被放大为系统性风险。当开发跨越多个大版本，AI真的能在这种持续演进中保持可靠吗？最近，USC邓港大、UCR陈炤伶、Stanford丛乐、Princeton王梦迪、Haven唐相儒、OpenHands王星尧等联合发布了全新的重磅评估基准EvoClaw。研究团队从开源项目中提取真实的代码演进历史，并将其重构为里程碑任务依赖图（Milestone DAG）。它将零散的提交聚合为功能内聚的里程碑，并严格保留了任务间的代码...