打破视频推理「先看后想」惯性，实现真正的「边看边想」 - AI资讯

今天的大型视觉语言模型（VLM）做离线视频分析很强，但一到实时场景就尴尬：视频在往前走，模型还在“补作业”。监控告警、机器人交互、自动驾驶——这些任务要的是边看边想，不是看完再想。为此，越来越多的方法采用“帧文交错”的方式实现流式感知视频，即：“看一会，说一会”。这样的方式看起来够用，是因为模型“想得短”。一旦引入Chain-of-Thought，推理变得更加复杂：模型一思考就占着生成通道不放，新的帧进不来；打断会丢思路，不打断就会过时。宁波东方理工大学/宁波数字孪生（东方理工）研究院沈晓宇团队的研究提出TaYS，并给出一个明确结论：要让VLM真正具备实时视频推理能力，必须从“帧文交错”切换到“并行”。研究论文：《Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models》目前，该论文已被CVPR 2026接收。为什么现在的推理系统不适合实时视频？主流VLM视频推理系统基本沿用同一套逻辑：完整视...