国产模型悄无声息地赢得了一场多模态战役 - AI资讯

就在昨天，国产模型悄无声息地赢得了一场多模态战役。正当字节跳动的Seedance 2.0视频生成模型扬名海外，OpenAI却突然宣布即将关停旗下视频生成模型Sora的相关服务。在这个智能体时代，人们已经逐渐意识到多模态能力的重要性。 Seedance 2.0凭借它的强大能力，已经被人们视为未来制作电影的“神器”，而它现在唯一存在的尴尬之处，就在于缺少配音。音频生成看起来比视频生成要简单，但给视频精准配音（Video-to-Audio, V2A）却十分困难：完美的配音不仅要“贴脸（语义与声音同步）”，还要做到“好听（美学质量）”和“身临其境（空间立体声）”。为了补齐视频生成模型“走向电影”的短板，阿里通义实验室和香港科技大学、香港中文大学的研究团队共同进行了一项有里程碑意义的研究：PrismAudio。这是业内首个将强化学习（RL）与专门的多维思维链（CoT）规划深度集成到V2A生成中的框架。研究团队不仅提出了能够大幅降低扩散模型强化学习训练成本的Fast-GRPO算法，还开源了高难度基准测试数据集AudioCanvas。更惊人的事实是...