为什么基于公共领域构建的数据集可能不足以支持人工智能

版权法和适用于训练大型语言模型的大型数据集之间存在 tension。Common Corpus 是一个仅使用版权过期的来源的文本数据集,旨在绕过法律问题。这是一项有用的成就,为在没有立即诉讼风险的情况下进行研究铺平了道路。我也担心这种方法可能会导致糟糕的政策,从而加强版权持有者的权力;不是小型创作者,而是大型企业。 

基于公共领域来源的数据集

2024年3月,Common Corpus 作为开放访问数据集发布,用于训练大型语言模型 (LLM)。首席开发者 Pierre-Carl Langlais 在宣布发布时表示:“Common Corpus 表明,有可能在没有版权问题的来源上训练完全开放的 LLM。”该数据集包含 5000 亿个单词,涵盖多种欧洲语言和不同的文化遗产。这是一个由法国初创公司 Pleias 协调,并由致力于开放科学的组织(如 OcciglotEleuther AINomic AI)支持的项目,并部分由法国政府资助。Common Corpus 的既定目标是普及高质量大型数据集的访问。它还有许多其他积极的特点,Open Future 的 Langlais 演讲摘要 也强调了这一点。 

公共领域需要更多数据

深度探索:人工智能 过程引发的关于 训练数据的作用 的辩论突显了人工智能从业者在组装数据集时会遇到许多障碍。与此同时,我们发现科技巨头相对于研究人员和初创企业具有令人难以置信的优势。他们 几十年来一直在大量收集数据,有经济能力 提起诉讼,并且可以签订 双边协议 来许可数据。这些策略对于小型竞争对手和学者来说是遥不可及的。如果接受创建适用于训练 开源人工智能 系统的开放大型数据集的唯一途径是使用公共领域的来源,则存在巩固现有大型企业主导地位的风险。

开放领域已经面临着大型科技公司及其影响立法能力的问题。大型企业游说 延长版权期限,引入了 DMCA,反对 维修权,并且有资源继续游说和起诉任何他们认为过于接近的新进入者。有 大量例子 表明他们在保护他们认为是自己的东西方面具有不平等的优势。非营利组织 Fairly Trained 认证公司“愿意证明他们的人工智能模型是在他们拥有、已获得许可或属于公共领域的数据上训练的”,尊重版权法:谁将从这种方法中受益?

不适用于公共政策

像 Common Corpus 和 The Stack(用于训练 Starcoder2)这样的倡议是重要的成就,因为它们允许研究人员开发新的 AI 系统,同时降低被起诉的风险。它们还推动了使用较小数据集可以实现的技术边界,这些数据集不需要核电站来训练新模型。但我认为它们掩盖了潜在的问题:人工智能需要数据,并且将开放数据集仅限于公共领域来源永远无法使其规模与专有数据集相提并论。版权最大化主义者的游说团体一直在寻找扩大范围和延长版权期限的方法,当他们成功时,这是一个单向棘轮。如果立法者听信他们的诡辩,并基于创造者需要人工智能保护的表面共识制定新的法律,那将是社会的悲剧。
数据在训练机器学习系统中的作用是一个存在争议且复杂的话题。拥有像 Common Corpus 这样的数据集是人工智能科学利用更好的来源取得进展的非常有用的方法。对于政策而言,我们最好推动类似于 Open Future 和 Creative Commons 在他们的论文 迈向人工智能训练的图书数据共享 中提出的建议。