“定义开放 AI”社区研讨会的要点

开放源代码促进会正在深入参与一个多方利益相关者的流程,以定义可以被描述为“开源”的机器学习系统。 

大约 40 人聚集在一起,参加了我在 FOSSY 2023 上主持的为时一小时的首次社区讨论。 

如果您错过了,仍有很多方式可以参与。在 2023 年 8 月 4 日之前,发送一份在线研讨会系列演讲提案,并查看时间表,了解即将举行的线下研讨会。还可以查看首次会议回顾,了解最新进展。

为什么数据是机器学习的症结所在

会议开始时,进行了一个简短的演示,重点介绍了为什么我们需要在人工智能背景下定义“开放”,以及为什么我们现在需要这样做。 

Image from the audience of the community meeting in Portland

开源让用户和开发者能够自行决定如何以及在何处使用该技术,而无需与第三方接触。我们希望为机器学习系统实现同样的目标。我们需要找到实现这一目标的方法。

首先,我们需要澄清机器学习系统与经典软件略有不同。首先,机器学习依赖于数据,大量的数据。开发者不能仅仅依靠自己的笔记本电脑和知识来构建新的人工智能系统。法律环境也比纯软件复杂得多:数据受许多不同法律的约束,国家/地区之间的法律通常差异很大。

在旧金山举行的首次会议之后,很明显,最关键的问题是围绕数据(并尝试回答)。 

在波特兰会议上,我问了一个简单的问题: 

原始数据和机器学习模型应该有多紧密的耦合?

我从构成典型机器学习系统的三个部分开始

  1. 用于训练和测试、推理和分析的软件
    对于与会者来说,很容易达成共识,即对于一个被认为是开放的机器学习系统,所有由人类编写且受版权保护的软件都必须是开源的。
  2. 模型架构及其权重和训练参数
    这些应该在条款和条件下提供,这些条款和条件不限制谁可以使用它们以及如何使用它们; 也不应限制重新训练工件和重新分发它们。 小组在这个问题上并没有完全达成一致,但确实一致认为解决这个问题是可以实现的。
  3. 原始数据和准备好的数据集,用于训练和测试
    我首先假设原始数据集不是修改 模型/权重 的首选形式,并询问小组:这是否意味着“开放机器学习”可以忽略原始数据?为了行使修改模型的权利,我们需要多少原始数据集?

最后一个问题需要人们达成共识。房间里的一些人工智能开发者分享了他们的观点,即原始数据集对于修改模型来说不是必要的。 他们还表示,尽管如此,他们需要对原始数据和其他元素进行足够精确的描述。 这对于技术原因和透明度(评估偏差等)来说是必要的。

一些人采取了不同的观点,更倾向于数据在某种程度上等同于模型的源代码,而模型是二进制文件,仿佛训练等同于编译。他们的一些评论给人的印象是,他们不太熟悉开发机器学习系统。

其他参与者解释了为什么软件的源-二进制类比不成立:仅二进制的软件无法修改,实际上 GNU GPLv3 详细解释了修改软件的首选方法。 相反,人工智能模型可以修改为微调和重新训练,即使没有原始数据集,只要它们附带其他元素即可。

在会议期间,鼓励大家在 Etherpad 上贡献他们的想法。 那里的评论涉及公共数据的文化影响、记录数据透明度的重要性,以及在涉及个人或健康数据时,“带有限制的开放”豁免是否是必要的。

下一步是什么

请记住:我们希望您提交一份演讲提案来发表您的意见,并邀请您参加即将到来的社区研讨会。 

现在,我们用波特兰会议上的这句话来结束

 “我认为我正在形成一个观点,即如果没有开放数据或对所使用数据的非常好的描述(基于“龙头”示例),人工智能可能不是开放的,但是会有大量的用例不是开放的,出于各种文化原因,例如,他们可能会使用在这些社区内定义的其他许可证,但也不是那种令人作呕的剥削性商业行为。开放并不是‘好’的唯一同义词。”

与会者还辩论了在受版权保护和商标保护的数据上训练模型的合法性,并对生成式人工智能系统的输出表示担忧。 

我们还有很长的路要走,而且必须快速行动——加入我们,踏上这段重要的旅程。