国产模型悄无声息地赢得了一场多模态战役

就在昨天,国产模型悄无声息地赢得了一场多模态战役。 正当字节跳动的Seedance 2.0视频生成模型扬名海外,OpenAI却突然宣布即将关停旗下视频生成模型Sora的相关服务。 在这个智能体时代,人们已经逐渐意识到多模态能力的重要性。 Seedance 2.0凭借它的强大能力,已经被人们视为未来制作电影的“神器”,而它现在唯一存在的尴尬之处,就在于缺少配音。 音频生成看起来比视频生成要简单,但给视频精准配音(Video-to-Audio, V2A)却十分困难:完美的配音不仅要“贴脸(语义与声音同步)”,还要做到“好听(美学质量)”和“身临其境(空间立体声)”。 为了补齐视频生成模型“走向电影”的短板,阿里通义实验室和香港科技大学、香港中文大学的研究团队共同进行了一项有里程碑意义的研究:PrismAudio。 这是业内首个将强化学习(RL)与专门的多维思维链(CoT)规划深度集成到V2A生成中的框架。 研究团队不仅提出了能够大幅降低扩散模型强化学习训练成本的Fast-GRPO算法,还开源了高难度基准测试数据集AudioCanvas。 更惊人的事实是...

查看原文 →