阿里通义实验室开源影视级配音多模态大模型 Fun-CineForge,解决音画同步与情感表达难题

IT之家 3 月 16 日消息,今日,阿里通义实验室宣布发布并开源首个支持影视级多场景配音的多模态大模型 Fun-CineForge。此外,还配套开放了高质量数据集的构建方法。官方称,通过“数据 + 模型”的一体化设计,Fun-CineForge 正尝试解决影视级 AI 配音长期面临的关键问题。IT之家附官方介绍如下:在真实影视制作场景中,一段高质量的配音,需要同时通过四大严苛考验:口型同步:合成的语音需要和画面中人物唇部运动高度同步;情绪表达:依赖角色面部形象和指令描述,实现情感和语气的拟人化呈现和自由控制;音色一致:在多角色配音的复杂场景下要保持每个角色音色的相似度和一致性;时间对齐:即便画面中说话人被遮挡或不存在,语音也必须在正确的时间区间内合成;然而,现有 AI 配音方法普遍面临两大瓶颈:01、高质量多模态数据集稀缺。高质量的配音数据集依赖多种模态的信息,现有的配音数据集数据量过小、标注类型有限,难以满足大模型的有效训练;高度依赖人工标注成本较高,难以大规模生产;缺乏对话和多人场景的长视频数据使大模型难以应对复杂配音场景。02、模型能力不足。传统配音模型在方法上,仅依赖视频画面...

查看原文 →