生成式AI下一道门槛：数据合规 - AI资讯

从媒体机构与AI公司的版权纠纷，到音乐、影视行业对生成式模型的质疑，再到创作者发现作品被秘密用于AI训练，围绕训练数据来源的争议不断浮现。 AI模型赖以成长的海量数据，究竟来自哪里，又该如何获得合法授权？随着生成式AI从技术探索走向产业应用，这一问题已成为行业无法回避的现实。当AI从技术探索走向产业应用，训练数据不再只是技术问题，而开始成为一个制度问题。合作止痛，难医根本面对不断增加的版权争议，一些企业已经开始尝试通过合作方式，为AI训练数据寻找更加稳定的来源。部分AI公司正在与媒体机构、出版机构建立内容授权合作，通过付费授权或联合开发的方式，为模型训练提供合法数据来源。一些大型内容集团，例如迪士尼与OpenAI以及达成相关协议，探索类似合作路径。这种模式在一定程度上缓解了版权冲突，也让AI企业能够获得更清晰的数据来源。但从行业角度看，个别合作很难成为长期解决方案。AI模型训练所需的数据规模往往以亿计，涉及的内容类型复杂，权利主体极其分散。即便大型机构之间能够达成合作，也难以覆盖数量庞大的中小创作者和海量内容。换句话说，合作可以缓解局部问题...