生成视频总出物理bug？用VLM迁移+token级对齐，让燃烧在正确位置发生，碰撞遵循动量守恒，CVPR 2026近满分接收 - AI资讯

当人们谈到“世界模型”（World Models）时，很多人会首先想到近年来迅速发展的生成式视频模型。从通用生成模型Wan到NVIDIA的视频世界模型Cosmos，这些模型已经能够生成视觉效果极为逼真、质量极高的动态场景，看起来仿佛真实世界的录像。在很多情况下，这种能力已经足够令人惊叹：模型可以生成海浪拍岸、火焰燃烧、车辆行驶、甚至复杂的人类活动。从视觉角度来看，它们似乎已经“学会了”世界的运行方式。然而，如果仔细观察这些视频，就会发现一个耐人寻味的现象：它们看起来很真实，却未必真正“理解”物理世界。例如，在一些生成视频中，会看到：无中生有、不断蔓延的蜂蜜；斧头劈柴结果不同步；…… 这些违背常识的细节，正在暴露一个关键问题：现有的视频生成模型，本质上仍然停留在“外观拟合”，而非真正的“物理建模”。换句话说，它们可以生成“像物理”的画面，却未必真正理解：物体为何运动力如何传递物理现象应当在何处发生这也引出了一个越来越受到关注的问题：生成式视频模型，究竟是在“模拟世界”，还是仅仅...