开放源代码对人工智能的贡献:CPDP-ai 会议的小组讨论
上周,我作为小组成员参加了在布鲁塞尔举行的 CPDP-ai 2024 会议,我们在会上讨论了开放源代码对人工智能的重大贡献,并强调了开放源代码人工智能与专有解决方案的区别所在。我代表全球公认的非营利组织“开放源代码促进会 (OSI)”(该组织定义了“开放源代码”一词)发言,强调了长期以来赋予用户对技术的完全自主权和控制权原则,事实证明,这一原则带来了广泛的社会效益。
以下是我和我的其他小组成员被问及的问题和答案的简要介绍
问题:斯特凡诺,请解释一下开放源代码对人工智能的贡献是什么,以及开放源代码人工智能是否具有使其对用户以及面对其结果的人们产生影响的特定属性。
回答:开放源代码软件的定义已经存在超过 25 年;但这并不适用于人工智能。“软件开放源代码定义”为数字生态系统中的所有参与者(从大大小小的公司到公民和政府)提供了稳定的指路明灯。
开放源代码定义的基本原则是赋予任何技术的用户对技术本身的完全自主权和控制权。这意味着开放源代码技术的用户对其技术解决方案拥有自主权。
开放源代码定义已经证明,当消除学习、使用、共享和改进软件系统的障碍时,会产生巨大的社会效益。有充分的证据表明,赋予用户对其技术选择的自主权、控制权和主权,会产生基于无需许可创新的可行生态系统。欧盟委员会和哈佛大学研究人员的多项研究都为开放源代码软件赋予了重要的经济价值,所有这些都基于 26 年前那个单一、清晰、被理解和认可的定义。
对于人工智能,尤其是最新的机器学习解决方案,社会如何保持对技术的自主权以及如何实现无需许可的创新尚不清楚。尽管许多人都在谈论开放源代码人工智能,包括《人工智能法案》,但对于这意味着什么,目前还没有共识!
开放源代码促进会正在完成一项全球性的、多方利益相关者共同设计的过程,以找到开放源代码人工智能的明确定义,并且我们正朝着这个过程的结论迈进,对人工智能机器学习领域的知识有了极大的增长。开放源代码人工智能定义的当前草案 认识到,为了研究、使用、共享和修改人工智能,需要参考人工智能系统,而不是单个组件。全球过程已经确定了社会保持对技术控制所需的组件,这些组件是:
- 关于用于训练系统的数据集的详细信息以及代码,以便熟练的人员可以使用类似的功能训练系统
- 用于运行训练和推理的所有库和工具
- 模型架构和参数,如权重和偏差
不受限制地访问所有这些要素是使人工智能成为开放源代码人工智能的原因。
我们正处于流程的最后阶段,开始为定义的当前草案争取支持。
讨论中最具争议的部分是数据在训练中的作用。为了回答您关于大型外国科技公司力量的问题,撇开硬件要求不谈,数据才是争夺的焦点。在人工智能领域,关于数据似乎存在两种世界观:一种观点认为,文本和数据挖掘基本上是对人性的掠夺,并且所有未经权利持有人同意的数据积累都必须被定为非法。另一种世界观认为,为了训练开放源代码人工智能而进行的文本和数据挖掘可能是大型公司超级力量的唯一解药。这些阵营尚未找到共同立场。日本似乎已经下定决心,将不受限制的文本和数据挖掘合法化。我们将拭目以待美国的诉讼结果,如果它们最终进入法院裁决,或者像我怀疑的那样,它们将在庭外和解。
无论如何,数据、能力以及在某种程度上硬件,都是控制人工智能发展的杠杆。
开放源代码一直在平衡技术竞争环境。我们从开放源代码软件的过往经验中得知,允许人们不受限制地访问数字生产资料能够产生巨大的经济价值。这在欧洲和中国都奏效了。我们认为,开放源代码人工智能可以产生同样的价值创造效应,同时将技术的控制权掌握在社会手中。
问题:大型科技公司对于人工智能的发展至关重要。除了纯粹的技术影响外,还具有经济重要性。欧盟委员会最近一直非常关注数字单一市场,并启动了 DSA 和 DMA 等立法,以改善竞争和市场准入。考虑到最近通过的《人工智能法案》,这些工具是否足以应对人工智能的推广?或者是否需要额外关注?
回答:开放是应对权力集中的最佳解药。尽管如此,我认为这些立法是必要的棍棒。我希望我们也考虑一下胡萝卜。我们不想重蹈互联网早期年代的覆辙。开放源代码软件在美国和欧洲同样可用,但尽管如此,少数欧洲开放源代码冠军企业并没有发展到足以产生全球影响力的程度。而且一些最大的欧盟公司对开放源代码也不是很友好。
中国公司采取了不同的方法。但在欧洲,我们有人才,而且我们的生活质量很有吸引力,因此我们可以吸引更多人才。资金从来都不是问题。我们需要消除阻碍我们公司发展壮大的不利因素,扩大进入欧盟内部市场的准入,并支持它们的国际扩张。
例如,我们需要审查关于标准化的欧盟法规 1025,以适应开放源代码。1025 法规制定于开放源代码被视为“商业模式”的时代,而信息和通信技术标准是关于电线中的电压。今天,开放源代码占所有软件的 80% 到 90%,“数字元素”构成了每个现代产品的一部分。甚至硬件解决方案也由“数字元素”主导。因此,1025 采取的方法已经过时,很可能需要进行彻底的反思,以正确应用于当今世界和我们预期的未来世界。
我们需要确保网络韧性法案要求的标准化规则与开放源代码拥护者共同制定,以便这些规则不会只偏袒那些试图寻租而不是创新的欧洲专利持有者卡特尔。欧洲拥有成为人工智能创新中心的所有手段;它体现了多元化和协作的正确价值观。
结束语:我们认为开放源代码是应对人工智能市场集中的最佳解药。数据是现在权力集中的地方,并且掌握在大型公司手中:不仅包括谷歌、Meta、亚马逊、Reddit,还包括索尼、华纳、Netflix、Getty Images、Adobe……所有这些公司都已经合法地获得了大量数据。这些公司基本上合法地拥有我们的数据:我们的照片、我们的朋友圈关系图、所有的书籍和电影……
如果我们不制定允许文本和数据挖掘以换取真正的开放源代码人工智能(社会可以完全控制的人工智能)的政策,那么我们就有可能将最强大的人工智能系统留在能够负担得起用金钱换取数据访问权的寡头手中。