阿里通义实验室发布 PrismAudio 视频生成音频框架：声画同频，音效随行 - AI资讯

IT之家 3 月 24 日消息，阿里巴巴通义实验室今日发布了 PrismAudio，这是一个视频生成音频（Video-to-Audio）框架，其研究重点是环境音 / 音效合成，比如马蹄声、风雨声、金属敲击声等与画面内容同步的背景声音，而不是给人物配音。IT之家附官方详细介绍如下：PrismAudio 是首个将强化学习与思维链紧密结合的视频生成环境音框架。简单来说，我们教模型学会了“先思考，再发声”，并且有四位“老师”同时给它打分。语义老师盯着画面，教模型认准“这是马蹄声，不是鸟叫声”。时序老师拿着秒表，监督声音和动作必须严丝合缝。美学老师挑剔音质，要求声音自然、有层次、不刺耳。空间老师听声辨位，检查声音是不是从该来的方向来。但问题来了：四个老师同时打分，如果要求不一样怎么办？比如语义老师说“这个声音像了”，时序老师说“但慢了半拍”，听谁的？PrismAudio 的解法是：让模型先想清楚，再动手。第一步：先写笔记，再发声传统的配音模型是“端到端”的：输入视频，直接输出音频。模型内部发生了什么，没人知道，也没人控制。但我们希望模型不是“瞎蒙”，而是“有思路”地生成。所以，我们没让模型一上来...