从媒体机构与AI公司的版权纠纷,到音乐、影视行业对生成式模型的质疑,再到创作者发现作品被秘密用于AI训练,围绕训练数据来源的争议不断浮现。 AI模型赖以成长的海量数据,究竟来自哪里,又该如何获得合法授权? 随着生成式AI从技术探索走向产业应用,这一问题已成为行业无法回避的现实。当AI从技术探索走向产业应用,训练数据不再只是技术问题,而开始成为一个制度问题。 合作止痛,难医根本 面对不断增加的版权争议,一些企业已经开始尝试通过合作方式,为AI训练数据寻找更加稳定的来源。 部分AI公司正在与媒体机构、出版机构建立内容授权合作,通过付费授权或联合开发的方式,为模型训练提供合法数据来源。一些大型内容集团,例如迪士尼与OpenAI以及达成相关协议,探索类似合作路径。 这种模式在一定程度上缓解了版权冲突,也让AI企业能够获得更清晰的数据来源。 但从行业角度看,个别合作很难成为长期解决方案。AI模型训练所需的数据规模往往以亿计,涉及的内容类型复杂,权利主体极其分散。即便大型机构之间能够达成合作,也难以覆盖数量庞大的中小创作者和海量内容。 换句话说,合作可以缓解局部问题...
