只需向模型添加高斯噪声,性能就能比肩甚至超越GRPO/PPO等经典调参算法。 MIT新论文向大家都在头疼的“调参”开炮了! 为了将预训练模型变成某一任务领域专家,无数人夜以继日,纷纷掉发。 然而现在,一对来自MIT的师生用一篇新论文告诉大家: 不用复杂调参,随机改改参数再整合结果,模型效果就能和GRPO/PPO等专业调参方法差不多。 在这篇论文诞生前,我们熟悉的论调是:专家模型是训练出来的。 甭管是靠梯度下降还是强化学习,都得一步一个脚印慢慢优化参数。 但这篇论文却揭示,专家模型早就存在,只是藏在权重空间里,预训练模型的真实形态be like: 专家模型像灌木一样密密麻麻长在周围。(即论文提到的“Neural Thickets(神经丛林)”现象) △ 就是说,只要在预训练权重附近稍微扰动一下参数,就可能“碰到”一个新的任务专家。 基于此,作者进一步提出了一种非常简单的方法RandOpt: 只需向大语言模型添加高斯噪声(单步操作——无需迭代、无需学习率、无需梯度),然后将它们集成起来,就能在数学推理、编程、写作和化学任务...
