LeCun的世界模型单GPU就能跑了

LeCun世界模型最新进展,开源了一套极简训练方案,单GPU就能跑。 这套方案叫LeWorldModel,它基于JEPA架构,实现像素输入直接预测未来,速度快到离谱,完整规划仅需1秒。 它能只看像素画面、不用复杂技巧、单GPU就能稳定训练,学会预测 “我做这个动作,世界会变成什么样”,用来帮机器人、智能体做规划和控制,又快又稳又好用。 实际效果也很不错: 速度飞起:规划速度比大模型方案快48倍,1秒内搞定。 参数很小:只有1500万参数,所有训练与规划实验均在单张NVIDIA L40S显卡上完成,几小时即可训完。 控制很强:在推箱子、机械臂、导航等 2D/3D 任务里,超过之前的端到端方法,和大模型方案打得有来有回。 懂物理: latent里藏着位置、角度等物理信息,还能识别 “不合物理” 的怪事(比如物体突然瞬移,它会觉得 “很意外”)。 技术架构:把JEPA简化到本质 团队介绍,以往的JEPA方法通过启发式方法或技巧(例如EMA、停止梯度法、预训练表示、掩码或复杂的损失函数)来避免模型崩溃。 然而,这些技巧使得JEPA训练不稳定且...

查看原文 →