IT之家 3 月 24 日消息,阿里巴巴通义实验室今日发布了 PrismAudio,这是一个视频生成音频(Video-to-Audio)框架,其研究重点是环境音 / 音效合成,比如马蹄声、风雨声、金属敲击声等与画面内容同步的背景声音,而不是给人物配音。IT之家附官方详细介绍如下:PrismAudio 是首个将强化学习与思维链紧密结合的视频生成环境音框架。简单来说,我们教模型学会了“先思考,再发声”,并且有四位“老师”同时给它打分。语义老师盯着画面,教模型认准“这是马蹄声,不是鸟叫声”。时序老师拿着秒表,监督声音和动作必须严丝合缝。美学老师挑剔音质,要求声音自然、有层次、不刺耳。空间老师听声辨位,检查声音是不是从该来的方向来。但问题来了:四个老师同时打分,如果要求不一样怎么办?比如语义老师说“这个声音像了”,时序老师说“但慢了半拍”,听谁的?PrismAudio 的解法是:让模型先想清楚,再动手。第一步:先写笔记,再发声传统的配音模型是“端到端”的:输入视频,直接输出音频。模型内部发生了什么,没人知道,也没人控制。但我们希望模型不是“瞎蒙”,而是“有思路”地生成。所以,我们没让模型一上来...
