开源人工智能定义 RC1 版本已发布,征求意见

继 v.0.0.9 版本发布一个月多后,我们推出了开源人工智能定义的候选发布版本 (Release Candidate)。这是在广泛收集社区反馈的基础上实现的:5 次市政厅会议,论坛和草案上的多条评论,以及在奥地利、中国、印度、塞内加尔和阿根廷等地活动中的面对面交流。

对于定义中关于“修改机器学习系统的首选形式”部分,有三项相关更改。

最受关注的特性将是关于数据信息的新措辞。它明确指出,所有训练数据都需要共享和披露。更新后的文本来自于与多位人士的多次对话,他们积极参与了设计过程,在论坛上、在线下以及在 hackmd 上都提出了意见。这些对话帮助描述了四种类型的数据:开放数据、公共数据、可获取数据和不可共享数据,这些都在常见问题解答 (FAQ)中得到了很好的描述。 每种数据的法律要求各不相同。所有数据都必须以法律允许共享的形式进行共享。 

两个新特性同样重要。RC1 澄清了代码必须是完整的,足以让下游接收者理解训练是如何完成的。这样做是为了强调训练的重要性,无论是为了透明度、安全性还是其他实际原因。训练是目前创新的发生地,这也是为什么你没有看到企业发布他们的训练和数据处理代码。我们认为,鉴于目前的知识和实践状况,这是有意义地 fork(研究和修改)人工智能系统所必需的。

最后,有一段新的文本旨在明确承认,对于代码、数据信息和参数中的任何一项,或作为捆绑组合,可以要求采用类似 copyleft 的条款。一个示范性的场景是,一个联盟拥有训练代码和数据集的权利,并决定以法律条款分发代码+数据捆绑包,将两者捆绑在一起,并带有类似 copyleft 的规定。这种法律文件目前尚不存在,但这种情况发生的可能性足够高,值得考虑。这是 OSI 将密切关注的另一个领域,因为我们将开始与社区一起审查这些法律条款。

关于科学和可重复性的说明

开源的目标不是,也从来不是为了实现可重复的软件。开源人工智能也是如此:人工智能科学的可重复性不是目标。开源的作用仅仅是不成为可重复性的障碍。换句话说,人们总是可以在开源之上添加更多要求,就像可重复构建 (Reproducible Builds) 工作所做的那样。

开源意味着赋予任何人有意义地“fork”(研究和修改)系统的能力,而无需额外的许可,使其对他们自己和所有人更有用。这就是为什么OSD #2 要求“源代码”必须以进行修改的首选形式提供。这样,每个人都拥有与原始开发者相同的权利和能力来改进系统,从而启动创新的良性循环。机器学习环境中的 fork 与软件中的含义相同:拥有构建一个行为与原始状态不同的系统的能力和权利。 fork 可能实现的目标包括:修复安全问题、改进行为、消除偏见。所有这些都得益于开源人工智能定义的要求。

接下来是什么

随着候选发布周期从今天开始,起草过程将转移重点:没有新功能,只有错误修复。我们将关注提出的问题,关注可能需要对文本进行重大重写的重大缺陷。主要重点将放在随附的文档、清单和常见问题解答上。我们还意识到,在我们热衷于解决需要提供但模型所有者因正当理由无法提供的数据问题时,我们未能明确“如果可以共享数据,则必须共享”的基本要求。我们已经在 RC1 中进行了调整,并将征求意见,了解如何在 RC2 中更好地表达这一点。 

在未来几周直到 10 月 28 日发布 1.0 版本之前,我们将重点关注

  • 争取更多定义的支持者
  • 继续在hackmd论坛上收集反馈,重点关注新的、前所未有的问题
  • 准备在 All Things Open 大会上发布所需的材料
  • 迭代清单和常见问题解答,为部署做准备。

开源人工智能定义候选发布版本 1 的链接