迈向定义开源人工智能的旅程:在开源峰会欧洲站的演讲
几周前,我参加了由 Linux 基金会组织的 2024 年开源峰会欧洲站,该活动汇集了来自世界各地的杰出开发者、技术专家和领导者,再次印证了开源的真正意义——协作、创新和社区。
我很荣幸主持了一场会议,探讨了当今开源运动中最关键的挑战之一——定义人工智能的“开源”意味着什么。我与 OSI 董事会董事贾斯汀·科拉尼诺一起展示了开源人工智能定义 v.0.0.9 版本。本次会议标志着开源促进会 (OSI) 和更广泛的社区的一个重要里程碑,这是一个凝聚了多年协作、学习和探索的时刻。
开源人工智能定义背后的故事
我们的会议题为“开源人工智能定义(几乎)准备就绪”,它不仅仅是一场演讲——而是一场互动对话。正如贾斯汀在会议开始时所说,他抓住了我们一直在进行的旅程的精髓。OSI 一直在努力理解将人工智能系统、模型和权重称为“开源”意味着什么。而此时,公司甚至监管机构都在使用这个术语,但没有明确、达成共识的定义。
从一开始,我们就知道我们必须做对。推动了如此多软件创新的开源价值观——透明、协作、自由——也需要成为人工智能的基础。但人工智能与传统软件不同,这就是我们挑战的开始。
起源:播客和愿景
当我第一次担任 OSI 执行董事时,我提出了探索开源原则如何应用于人工智能的想法。我们花了几个月的时间制定战略,而且我们越深入研究,就越意识到这项任务的复杂性。那时我们对人工智能知之甚少,但我们渴望学习。我们向来自不同领域的专家求助——一位版权律师、一位伦理学家、来自 Eleuther AI 和 Debian ML 的人工智能先驱,甚至还有一位来自 DARPA 的人工智能安全专家。这些对话最终促成了我们创建的播客节目 Deep Dive AI,我强烈推荐给任何对此话题感兴趣的人。
通过早期的讨论,我们清楚地认识到,人工智能和机器学习并非传统意义上的软件。像“源代码”这样的概念,由于理查德·斯托曼和 GNU GPL 等人的努力,在软件中得到了很好的定义,但并没有 1:1 地应用于人工智能。我们甚至不知道人工智能中的“程序”是什么,也无法轻易确定“进行修改的首选形式”——这是开源许可的基石。
这种认识引发了将我们都非常熟悉的开源原则适应人工智能独特世界的必要性。
共同设计开源人工智能的未来
一旦我们了解了挑战的范围,我们就知道创建这个定义不能是单枪匹马的努力。它必须与全球社区共同设计。在 2023 年初,我们的资源有限——只有两名全职员工和少量预算。但这并没有阻止我们前进。我们开始筹款,以支持关于开源人工智能应该是什么样子的多方利益相关者的全球对话。
我们聘请了 Mer Joyce,一位共同设计专家,她向我们介绍了确保决策由社区而非为社区做出的创新方法。在她的帮助下,我们开始将问题分解成更小的部分,并从志愿者、人工智能专家和其他利益相关者那里收集见解。随着时间的推移,我们开始拼凑最终将成为 开源人工智能定义 v.0.0.9 版本草案 的内容。
到 2024 年初,我们已经概述了开源人工智能的核心原则,从自由软件运动中汲取灵感。我们严重依赖 GNU 宣言 和 软件的四个自由 等基础文本。在此基础上,我们构建了一个反映自由、协作和开放价值观的结构,但专门针对人工智能的复杂性进行了定制。
应对人工智能的独特挑战
当然,定义自由只是战斗的一部分。人工智能和机器学习系统带来了我们在传统软件中没有遇到的新挑战。我们面临的关键问题之一是:在人工智能中,进行修改的首选形式是什么?在传统软件中,这可能是源代码。但在人工智能中,情况并非如此简单。我们意识到机器学习模型的“权重”——那些通过数据微调的参数——至关重要。然而,数据本身并不完全符合开源框架。
这是会议期间讨论的一个主要问题。代码和权重需要获得 OSI 批准的许可证的覆盖,因为它们代表了人工智能系统的可修改核心。然而,数据不符合相同的标准。相反,我们得出结论,虽然数据对于理解和研究系统至关重要,但它不是进行修改的“首选形式”。相反,数据信息和代码要求允许第三方人工智能构建者通过使用与原始开发者相同的信息,在下游分叉开源人工智能系统。这些分叉可能包括从训练数据集中删除非公开或非开放数据,以便在完全公开或开放的数据上重新训练新的开源人工智能系统。这一见解是由加入我们研究小组并对各种方法进行投票的社区和专家的意见形成的。
未来的道路:协作的未来
当我们结束这个阶段时,下一步是从社区收集更多反馈。该定义尚未最终确定,它将随着我们吸收来自本次峰会等活动的见解而继续发展。我非常感谢我们已经收到的来自世界各地人士的深思熟虑的评论,这些评论帮助我们指导了这段旅程。
这个项目的核心信念是,开源人工智能应该反映使开源成为软件开发中一股向善力量的相同价值观。我们尚未达到目标,但我们将共同构建一些将产生持久影响的东西——不仅是对人工智能,而且是对整个技术的未来。
我要感谢迄今为止为这个项目做出贡献的每一个人。你们的奉献和热情使开源如此特别。让我们继续共同塑造人工智能的未来。