当人们谈到“世界模型”(World Models)时,很多人会首先想到近年来迅速发展的生成式视频模型。 从通用生成模型Wan到NVIDIA的视频世界模型Cosmos,这些模型已经能够生成视觉效果极为逼真、质量极高的动态场景,看起来仿佛真实世界的录像。 在很多情况下,这种能力已经足够令人惊叹: 模型可以生成海浪拍岸、火焰燃烧、车辆行驶、甚至复杂的人类活动。从视觉角度来看,它们似乎已经“学会了”世界的运行方式。 然而,如果仔细观察这些视频,就会发现一个耐人寻味的现象: 它们看起来很真实,却未必真正“理解”物理世界。 例如,在一些生成视频中,会看到: 无中生有、不断蔓延的蜂蜜; 斧头劈柴结果不同步;…… 这些违背常识的细节,正在暴露一个关键问题: 现有的视频生成模型,本质上仍然停留在“外观拟合”,而非真正的“物理建模”。 换句话说,它们可以生成“像物理”的画面,却未必真正理解: 物体为何运动 力如何传递 物理现象应当在何处发生 这也引出了一个越来越受到关注的问题: 生成式视频模型,究竟是在“模拟世界”,还是仅仅...
