今天的大型视觉语言模型(VLM)做离线视频分析很强,但一到实时场景就尴尬: 视频在往前走,模型还在“补作业”。 监控告警、机器人交互、自动驾驶——这些任务要的是边看边想,不是看完再想。 为此,越来越多的方法采用“帧文交错”的方式实现流式感知视频,即:“看一会,说一会”。 这样的方式看起来够用,是因为模型“想得短”。一旦引入Chain-of-Thought,推理变得更加复杂:模型一思考就占着生成通道不放,新的帧进不来;打断会丢思路,不打断就会过时。 宁波东方理工大学/宁波数字孪生(东方理工)研究院沈晓宇团队的研究提出TaYS,并给出一个明确结论: 要让VLM真正具备实时视频推理能力,必须从“帧文交错”切换到“并行”。 研究论文: 《Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models》 目前,该论文已被CVPR 2026接收。 为什么现在的推理系统不适合实时视频? 主流VLM视频推理系统基本沿用同一套逻辑: 完整视...
