版权法认为,对于开源人工智能,应该要求提供数据信息,而不是开放数据集
开源促进会 (OSI) 正在开展一个博客系列,介绍一些积极参与开源人工智能定义 (OSAID) 协同设计过程的人员。协同设计方法允许将不同的观点整合为一个公正、统一且可行的标准。来自重要且广泛的利益相关者的支持和贡献对于开源过程至关重要,并已证明能够揭示各种问题,快速交付成果并获得社区的支持。
本系列收录了帮助塑造和正在塑造该定义的志愿者的声音。
认识费利克斯·雷达

费利克斯·雷达(他/他们)一直是开源人工智能定义 (OSAID) 协同设计过程的积极贡献者,将其个人兴趣和版权改革方面的专业知识带到了在线论坛。他在数字政策领域工作了十多年,包括 2014 年至 2019 年担任欧洲议会议员,并与战略诉讼非政府组织 Gesellschaft für Freiheitsrechte (GFF) 合作。费利克斯目前是 GitHub 的开发者政策主管。他还是哈佛大学伯克曼·克莱因互联网与社会中心的附属机构,并在德国开放知识基金会董事会任职。他拥有德国美因茨大学政治学和传播学硕士学位。
数据信息作为一种可行的替代方案
注意: 原文由费利克斯·雷达贡献,作为对斯特凡诺·马富利在开源人工智能论坛上进行的讨论的回应,该讨论关于帖子开源人工智能定义的草案如何达到目前的状态、数据信息概念背后的设计原则以及其运行所受的约束(法律和技术)。
当我们考虑将开源原则应用于人工智能领域时,版权法就发挥作用了,尤其是在训练数据访问方面。开放数据集一直是编写开源人工智能定义协作过程中的一个持续讨论点。我想解释一下为什么数据信息概念对于 OSAID 的目的是一种可行的替代方案。
开源软件的定义包含访问要素和法律要素——访问要素是源代码的可用性,法律要素是植根于软件版权保护的许可证。其基本假设是,将软件作为开源提供的实体是该软件的权利持有人,因此有权提供源代码,而不会侵犯第三方的版权,并许可其重复使用。如果第三方受版权保护的材料被纳入开源软件,则必须根据兼容的开源许可证发布,该许可证也允许再分发。
当涉及到人工智能时,情况就截然不同了:开源人工智能模型只会使用开发者有权再分发的受版权保护的材料进行训练的假设并不成立。世界各地不同的版权制度,包括欧盟、日本和新加坡,都有明确允许为人工智能训练目的进行文本和数据挖掘的法定例外。我最了解的欧盟文本和数据挖掘例外是为了促进人工智能和其他自动化分析技术的发展而引入的。但是,它们只允许复制受版权保护的作品(即复制),而不允许提供这些作品(即将其发布在互联网上)。
这意味着,如果开源人工智能定义要求重新发布完整数据集,人工智能模型才能被认定为开源,那么这将完全排除开源人工智能模型依赖版权中的文本和数据挖掘例外的能力——尽管立法者明确决定,在某些情况下(例如允许权利持有人声明机器可读的退出机制,以避免在科学研究范围之外进行训练),出于训练人工智能模型的目的使用受版权保护的材料应该是合法的。这个结果将尤其适得其反,因为它甚至会使开源人工智能模型在数据集的可再现性完全符合 OSAID 论坛讨论的标准的情况下也变得非法。
示例
想象一下,一个人工智能模型是在互联网上公开可访问的、版本受控的文本上训练的,权利持有人没有声明退出,但权利持有人也没有将其置于宽松的许可之下(保留所有权利)。根据版权法,使用此文本作为人工智能模型的训练数据是合法的,但重新发布训练数据集将是非法的。发布关于训练数据集的信息,包括所使用的数据版本、何时以及如何从哪个网站检索数据以及如何对其进行标记化,如果(且仅当)它使技术人员能够构建自己的数据集以重建等效系统,则将满足 OSAID v 0.0.8 的要求。
与需要发布数据集的情况不同,原始开源人工智能模型的开发者和重建它的技术人员都不会在此过程中违反版权法。在 OSAID 中包含发布数据的要求(人工智能开发者通常不拥有版权)几乎没有额外的好处,但会大大减少可用于训练的材料,尽管存在明确的法律许可可以使用该内容进行人工智能训练。我认为那是不明智的。
公有领域的国际关注
虽然我支持创建可以不受限制地重新发布的公共领域数据集,但我谨告诫不要将这些努力视为解决训练数据集中版权问题的方案。公有领域地位在国际上并未统一——在一个司法管辖区属于公有领域的作品在世界其他地方通常受到版权保护。例如,在美国的讨论中,人们通常认为美国政府雇员创作的作品属于公有领域。但事实并非如此,它们仅在美国属于公有领域,而在其他司法管辖区则受到版权保护。
版权已到期的作品也是如此:尽管《伯尔尼公约》允许缔约国将作品的版权期限限制在作品原产国的保护期届满之前,但允许对此规则进行例外处理。例如,尽管米老鼠的第一个版本最近已在美国进入公有领域,但由于 1892 年美国和德国之间一项晦涩的双边版权条约,它在德国仍然受到版权保护。版权保护并不以作品的注册为条件,并且不存在任何甚至略微全面、可靠的关于作品版权状态的权利信息。祝一位试图掌握所有这些法律陷阱的开源人工智能开发者好运。
底线
对于使用受版权保护的作品进行人工智能训练(复制),存在可靠的法律许可。对于将受版权保护的作品纳入可发布的数据集(提供)中,则没有同等的法律许可。开源人工智能开发者认为属于公有领域并因此可以在开放数据集中发布的内容,实际上经常被证明仍然受版权保护,至少在某些司法管辖区是这样。
与复制品不同,复制品只需要遵守复制发生所在国家的版权法,而在线提供内容需要在可以访问该内容的所有司法管辖区都是合法的。如果 OSAID 要求发布数据集,这将经常导致开源人工智能模型无法跨国界访问的情况,从而阻碍其协同改进,而协同改进是开源的巨大优势之一。我怀疑,如果采用如此严格的定义,开源人工智能将无法获得任何实际意义。可悲的是,旨在促进跨国界研究合作和创新的文本和数据挖掘例外,只会支持专有的人工智能模型,同时排除开源人工智能。数据信息的概念将帮助我们避免这种陷阱,同时坚持开源原则。
如何参与
OSAID 协同设计过程对所有有兴趣参与协作的人开放。有很多种参与方式