MIT新研究：大模型加噪声就能替代GRPO/PPO调参 - AI资讯

只需向模型添加高斯噪声，性能就能比肩甚至超越GRPO/PPO等经典调参算法。 MIT新论文向大家都在头疼的“调参”开炮了！为了将预训练模型变成某一任务领域专家，无数人夜以继日，纷纷掉发。然而现在，一对来自MIT的师生用一篇新论文告诉大家：不用复杂调参，随机改改参数再整合结果，模型效果就能和GRPO/PPO等专业调参方法差不多。在这篇论文诞生前，我们熟悉的论调是：专家模型是训练出来的。甭管是靠梯度下降还是强化学习，都得一步一个脚印慢慢优化参数。但这篇论文却揭示，专家模型早就存在，只是藏在权重空间里，预训练模型的真实形态be like：专家模型像灌木一样密密麻麻长在周围。（即论文提到的“Neural Thickets（神经丛林）”现象） △ 就是说，只要在预训练权重附近稍微扰动一下参数，就可能“碰到”一个新的任务专家。基于此，作者进一步提出了一种非常简单的方法RandOpt：只需向大语言模型添加高斯噪声（单步操作——无需迭代、无需学习率、无需梯度），然后将它们集成起来，就能在数学推理、编程、写作和化学任务...