开放源代码人工智能的重要性以及解放数据的挑战
(本文摘自 OSI 执行董事斯特凡诺·马富利在 LLW 2023 上远程发表的演讲)
会议议程将两个演讲背靠背安排,标题分别是“开放源代码人工智能的目标”和“自由软件人工智能的目标”…… 但对我而言,开放源代码和自由软件之间的区别微不足道。开放源代码是我用意大利语称之为“Software Libero”的英文术语。我们应该停止区分这种只有少数小圈子理解,而公众往往会忽略,更糟糕的是——误解的区别了。
当我开始研究人工智能时,我担心其复杂性可能会使开放源代码变得无关紧要。我说这话是因为我看到了 iPhone 和 AWS 这两项关键技术与我们失之交臂时发生的事情,我不想重蹈覆辙。这两者都彻底改变了软件的分发和执行方式,但开放源代码社区低估了这种影响。当时出现了一些反应,例如:“云是别人的电脑”和“iPhone 是锁定的,不要使用它们。”
如今,开放源代码的价值观在移动和云领域都很大程度上是陌生的。
如果我们也错过了应对人工智能的影响,我们可能会与超过 35 年的历史告别,收拾东西去钓鱼了。
那么 OSI 在这方面做了什么呢?去年,我们启动了一项调查,以从多个角度了解人工智能主题。 概括来说:这东西有用、危险,并且引入了新的数字产物。更多信息请参阅报告。
只要我们谈论的是术语,我就使用“人工智能”一词来指代机器学习、大型语言模型、深度神经网络和所有这些系统。我意识到围绕现代系统所谓“智能”的过度炒作。与此同时,人工智能这个术语已经有 70 多年的历史了,并且与一门成熟的科学学科联系在一起。我发现某些团体提出的替代方案(SALAMI 或其他)贬低了该主题的重要性。让我们保持严肃,立法即将出台,立法者也称之为人工智能。我们将继续使用这个术语,同时对炒作保持怀疑。
开放源代码起源故事
值得回顾的是,在计算机科学的早期,软件是广泛可用的,并且不受版权保护。麻省理工学院人工智能实验室的黑客社区拥有完全的自由来运行、复制、共享和修改软件。正是版权和秘密的引入迫使理查德·斯托曼设计了一个黑客行为并引入了反版权。然后是 GNU 宣言,最后是 GNU GPL。这个顺序很重要。
当一种新的人类生产产物(软件)出现时,一个围绕原则(如宣言)建立的社区被建立起来,以创建新的软件(GNU 操作系统),并通过一项颠覆该系统(反版权许可)的法律协议共享。
当时,软件相对简单:人类用可理解的语言编写的源代码,由编译器不可逆转地转码为机器可读的代码(“二进制文件”)。直到 70 年代,版权才被应用于软件。在美国,直到 80 年代的苹果诉富兰克林案,才明确软件受版权保护。
版权阻碍了知识和创新的共享。因此,GNU 宣言提出了黄金法则
如果我喜欢一个程序,我必须与其他喜欢它的人分享。软件销售商想要分裂用户并征服他们,让每个用户都同意不与他人分享。
然后列出了 GNU 操作系统的优点
- […] 将避免系统编程工作的许多浪费性重复
- 学校将能够提供更具教育意义的环境……通过鼓励所有学生学习和改进系统代码
- […] 考虑谁拥有系统软件以及一个人有权或无权对它做什么的额外负担将被解除
黄金法则及其好处可以很容易地适用于现代人工智能系统,将“程序”一词替换为“人工智能系统”。
如果我喜欢一个人工智能系统,我必须与其他喜欢它的人分享。
我需要分享这样的人工智能系统什么?
开放源代码人工智能建立在数据之上
现代人工智能建立在三个组成部分之上:硬件、知识和数据。获取硬件只是金钱的功能:较富裕的组织可以相当容易地采购足够的 GPU 和其他定制芯片,就像埃隆·马斯克最近的公告所显示的那样。在法律上,没有太多障碍。
知识是时间和金钱的函数。没有多少开发人员和系统工程师能够设置适合训练大型人工智能系统的集群。但是 EleutherAI、LAIoN 等组织表明,收集足够的知识来训练复杂模型并不太难。
相反,数据是多种因素的函数。首先,大型模型需要大型数据集……非常庞大。Pile,EleutherAI 用来训练 LLM 的数据集为 825 GiB(JSON 压缩)。相比之下,整个维基百科为43 GiB(XML 未压缩)。
组装大量数据是一项技术挑战,同时也充满了法律障碍。数据受各种法律法规的约束:版权、特殊权利(数据库)、各种隐私法(世界各地不同)、使用条款、双边合同。
人工智能系统不像 70 年代的软件那么简单。不仅仅是源代码和二进制文件。要为开放源代码人工智能创建 GNU 宣言,我们需要从数据开始,因为创建大型数据集不仅仅是时间、金钱或知识的功能。
解放数据是开放源代码人工智能的第一步
在 OpenAI 和其他大型公司发布公告后,视觉艺术家和开发人员对版权问题做出了回应。“不得在您的数据集中使用[我的代码|我的艺术作品]。”
这种方法直接违背了适用于人工智能的 GNU 宣言的既定目标。基于版权对数据聚合设置障碍迫使用户同意不与他人分享。学校的好处将被消除,并且会增加大量的额外开销。
此外,通过对数据挖掘设置障碍,我们并没有阻止大型公司无论如何积累数据。我们正在将这个空间留给已经证明擅长积累大型科技公司和大型政府机构的数据。
我认为,创建数据集已经受到其他法律的高度监管。反歧视、消费者保护、人权、残疾人保护、隐私、国家安全法以及更多法律框架。为什么还要在上面添加版权?
相反,我们应该将此视为尽可能消除版权以产生和传播知识和自由的机会。这是一个创造新规范的历史性机遇,就像反版权在很久以前破解了强加于软件的法律体系一样。
开放源代码在解决软件供应商制造和分发的专有、秘密、过度保护的软件方面取得了巨大的成功。然而,这归因于多种因素的结合(软件的性质、反版权的衍生概念、软件的实际分发、许多领域中专有开发的内在低效等),这些因素有利于创建和维护有效的公共领域。相同的工具不适用于其他领域,例如数据。
模型也应排除在版权之外
数据集的精细化就是模型。对于这些,我们也不需要版权。结果是:我们真的不应该考虑编写人工智能许可证。
但是我们如何保护公众免受滥用?我们如何才能维持作家、艺术家的有偿工作?我们如何才能阻止大规模的虚假信息宣传以及每次提到 ChatGPT 时我们读到的所有其他末日情景?
我打赌我们已经拥有了控制局面所需的所有法律。反歧视、劳动保护、隐私、可访问性、诽谤和中伤,所有这些要么已经有规定,要么可以进行修订以涵盖人工智能打开的新盲点。
结论
开放源代码的价值观体现在其定义中,但可以提炼为“自主性、透明度、无摩擦创新、教育、社区改进”。许可证是在默认与此相反的版权法面前实现这些目标的一种方式。许可证不是实现这些目标的机制。相反,它是社区和创新,当您消除合作的法律障碍时,它们就会产生。
许可证还做了一些其他事情:它们消除了共享的责任,而这种责任的缺乏对于允许人们共享至关重要。即将出台的法规将阻止软件和机器学习的协作和共享,我们应该探索条款和机制,以尽可能避免这些新的法律障碍对共享造成的负面影响。
现在是集思广益的时候了,不是为了编写新的许可证,而是为了支持政策制定者,以便开放源代码能够在人工智能领域像早期鼎盛时期一样蓬勃发展。请在Mastodon上与我联系。
图片来自 Alma Studio 经由 Canva.com