让AI写的代码不止「能跑」，还要「跑得快、占得少」，CSE让代码「可控进化」

这两年，大模型写代码的能力突飞猛进：需求描述一给，程序就出来了。

但在真实业务里，很多团队很快会遇到另一个更「现实」的问题：代码「写得对」只是及格，真正上线拼的是——跑得快不快、占内存多不多、成本高不高。

于是大家开始用「自进化」思路：让模型一次次生成候选解、跑测试、挑更好的，再继续改。比如 Google DeepMind 的 AlphaEvolve 论文，就是采用了一种自进化的 LLM 优化算法，这听上去很合理，但实际经常卡在三件事上：

1.起步就跑偏（初始化偏置）：第一批候选解质量不高、还很像，预算很快被「无效版本」消耗掉。

2.越改越随机（不可控进化）：随机变异、随机拼接缺少反馈引导，方向不稳定，容易「改崩逻辑」。

3.反复踩坑（经验难沉淀）：没有可复用的「经验账本」，跨轮次、跨任务重复试错，长期低效。

近日，美的 AI 研究院联合南京大学、北京大学、QuantaAlpha 等多个团队，提出了 Controlled Self‑Evolution（CSE）：一个面向算法代码优化的「可控自进化」框架。

在 EffiBench-X 上评估生成代码的时间复杂度与空间复杂度，CSE 在多种开源与闭源模型上均取得了优于 Google DeepMind 的 AlphaEvolve 等基线的表现：CSE 不仅起步即拉开差距，更能通过持续进化实现代码性能的稳定跃升，展现出极高的预算利用率与可控进化能力。

它要做的事情很直接：

让代码执行轨迹的自我进化不再靠「碰运气」，而是每一步怎么改、改哪里、改完有没有变好，都可控、可追溯、可复用——有路线规划、有实时反馈、有经验复盘。

CSE 用「三件套」构建了高效闭环：
多样化规划初始化 + 可控遗传进化 + 分层进化记忆，把「生成—验证—进化」连成一条更稳的流水线。

CSE方法：别靠运气，让进化「可控、可追溯、可复用」

传统的代码自进化大多是「生成—跑测试—选更好—再生成」的循环，问题在于：起步容易同质化、迭代容易随机化、经验容易蒸发。CSE 把这条循环改造成一条「可规划、可控、可复盘」的路线，核心由三部分组成：

1）多样化规划初始化：先把路规划出来
在写第一版代码前，先让模型给出多条差异明显的解题路线（不同思路、不同数据结构），再分别生成初始版本。目的不是「一上来就最强」，而是别所有人都挤在同一条路上。

2）遗传进化：只改该改的地方
进入进化阶段后，CSE 会优先选择表现更好的候选作为「父代」，但也会保留一部分有潜力的思路，避免过早陷入局部最优。

更关键的是：它把「突变」从随手乱改升级为可控改动——先把代码拆成若干相对独立的功能块，再让模型复盘定位瓶颈/故障点，只对问题区域做小范围修复，其它区域尽量冻结不动，从而降低「优化性能却把正确性改崩」的风险；同时，CSE 也支持把不同候选的优点进行结构化组合，把一段更快的逻辑和另一段更稳的边界处理「嫁接」到一起。

3）分层进化记忆：把每次试错变成可复用资产
很多进化方法的低效，来自「同样的坑反复踩」。CSE 把每轮迭代的结果做成两层记忆：任务内记忆记录「这一次改动为什么有效/为什么失败」，用于当前任务快速收敛；任务间记忆则把高价值的改进轨迹抽象成模板，在新任务里通过检索直接调用，相当于给系统配了一本会增长的「优化笔记」。

图 2. CSE 框架概览

实验评估：在623道算法题上验证，预算更省、效果更稳

为了验证 CSE 的有效性，团队在 EffiBench‑X 上进行了大规模评测：该基准包含 623道来自 LeetCode、Codeforces 等平台的复杂算法题，覆盖 Python 与 C++，重点看「时间 + 内存」的综合效率指标（MI）。

实验设定也很贴近真实成本约束：
每个任务统一预算 30 个候选解，并与 AlphaEvolve、SE‑Agent 等方法对比。

•开源模型：基于 DeepSeek‑V3，CSE 的综合效率指标 MI 提升到 55.09%，优于 AlphaEvolve 的 52.13%。

•强模型上仍有效：在 GPT‑5、Claude‑4.5‑Sonnet 等模型上，CSE 依然能进一步提升，体现出方法的普适性。

•迭代更稳、优势更早建立（图3）：随着进化轮数增加，CSE 的 Best MI 持续上升且全程领先对比方法，体现出在同等预算下更稳定可控的优化收益。

表 1. 在 EffiBench-X (Python, C++) 上的主实验结果

图 3. 最佳 MI 指标随迭代轮次的攀升趋势

消融实验：为什么说「三件套缺一不可」？

团队还做了消融实验，结论很清晰：
去掉分层记忆，性能下降最大——MI 从 68.10% 降到 63.08%，说明「经验复用」是打破重复踩坑的关键。

更有意思的是「协同效应」：
如果只有「规划阶段引入记忆」但没有完整进化过程，性能甚至会下降（‑0.23%）；而把记忆接入「规划+进化」的完整闭环后，增益可达 +5.02%。这也印证了：CSE的价值在闭环，而不是单点技巧。

案例一瞥：代码真的会「越进化越像老工程师」

团队展示了一个任务的完整 30 轮进化轨迹：从早期预计算策略，到中期搜索结构重构，再到后期针对瓶颈的精准修复与逻辑交叉，最终生成的方案在设计与实现上都达到了非常高的效率水平。

图 5. 算法进化轨迹的全流程案例研究

结语：下一步，让「进化成本」沉淀进模型本身

CSE 证明了：在预算受限的真实条件下，多轮进化依然能持续提升代码效率。
而未来更值得期待的方向，是把进化过程产生的高质量轨迹进行知识蒸馏，让基础模型逐步具备更强的「内生优化能力」，最终实现更接近 One‑pass 的高效代码生成，在推理成本与生成质量之间取得更优的平衡。

Plain Text 论文标题：Controlled Self‑Evolution for Algorithmic Code Optimization
arXiv： https://www.arxiv.org/abs/2601.07348
开源代码： https://github.com/QuantaAlpha/EvoControl

最新文章