“开放人工智能”的定义:首次会议回顾

开源促进会最近启动了一个多方利益相关者的流程,旨在定义可以被描述为“开源”的机器学习系统。 众多非营利组织、企业和研究机构响应了我们的号召,以寻求对应用于人工智能(AI)的“开放”原则的共同理解。

一群来自 Mozilla 基金会、知识共享组织、维基媒体基金会、互联网档案馆、Linux 基金会欧洲、OSS Capital 和 OSI 董事会成员的人士最近在旧金山会面,开始构建对话框架。

与会者(不代表其雇主)包括:Lila BaileyAdam BouhenguelGabriele ColumbroHeather MeekerDaniel NazerJacob RogersDerek SlaterLuis Villa。 OSI 执行董事斯特凡诺·马富利和董事会成员 Pam ChestekAeva BlackJustin Colannino 也在 Mozilla 旧金山总部举行的为时四小时的下午会议上发表了意见。

正如立法者们 加速末日预言者 的叫嚣一样,有一件事是明确的:现在是时候定义“开放”在这个语境下的含义了,赶在别人为我们定义之前。 人工智能是一个有争议的术语,目前,关于如何称呼这个“开放”定义的讨论仍在进行中。

我们希望您参与进来:在 2023 年 8 月 4 日之前,发送一份 演讲提案,参加在线网络研讨会系列,并查看 时间表,了解即将举行的线下研讨会。 下一步是在 FOSSY 的波特兰举行的 首次社区评审

我们为何同舟共济

首次小型聚会的目的是设定基本规则,并创建反映开源价值观的“人工智能系统定义”的初稿。

该小组集思广益,提出了 20 多个理由来投入时间进行这个里程碑式的项目。 这些理由包括减少决策者们的困惑、帮助开发者理解数据共享和透明度、减少再使用者和修改者的困惑、创建许可结构以及打击“开放清洗”。
详细阐述一些

利于商业,造福世界

与会者一致认为,根据初创企业和技术的“开放实践”以及对社区的贡献来了解哪些值得投资,是很有价值的。

一位与会者评论道:“关键不是我们需要一个 [开放人工智能] 的商业定义。 关键是我们需要一个定义来识别那些以与世界分享的方式从事技术工作的人,这才是重要的。 即使公司倒闭了,他们仍然为世界贡献了东西。”

破解黑箱

对于机器学习训练数据透明度方面的紧张关系和权衡,小组意见分歧很大。 当涉及到当今人工智能系统的“香肠制作”过程时,存在一个巨大的问题——什么输入,什么输出? 谁能看到配料? 哪些数据应该是透明的——例如邮政编码——哪些信息不应该透明——例如单个病人的肿瘤扫描?

一位人士评论道:“当一家私营公司创建私有机器学习模型时,我们不知道是什么在形成或塑造这些模型,这对整个社会不利。” 另一位人士补充说:“我非常担心人们阻止访问 [他们自己的个人财务或医疗保健] 数据 [这些数据可能被] 用于训练模型,因为我们将获得固有的偏见……我希望那些设计模型的人认真思考哪些数据是重要和有价值的,特别是如果有人说‘你不应该使用我的医疗数据来训练你的模型’。 那是一条非常有害的道路。”

开放的价值

开源旨在为用户提供对其软件的自主权。 据推测,“开放人工智能”的目标是在人工智能系统的使用和输入方面提供自主权。 自主权是开源中禁止使用领域限制的原因:这些限制意味着需要获得守门人的许可才能继续进行。

这项工作的一部分涉及反思过去 20 到 30 年来,在开放社区及其取得的进展方面,哪些方面做得好,哪些方面做得不好,” 一位与会者说,他补充说,“重要的是要理解,开放并不自动意味着合乎道德、正确或公正。” 在开发开放系统时,隐私问题和安全等其他因素也起作用——开放和安全,或潜在的危害之间存在持续的紧张关系。

“至关重要的是要建立一份文件,不仅提供开放的定义,而且还提供必要的背景来支持它。”

主要辩论

与会者普遍认为,25 年前起草并由 OSI 维护的 开源定义 并不能涵盖这个新时代。 一位与会者指出:“这不是一个仅限于软件的问题。 这不是一个可以通过使用与以前完全相同的术语来解决的问题。”

“紧张关系”可能是下午讨论过程中最常出现的词。 最佳实践与正式要求之间的拉锯战,定义中什么是可取的与法律上什么是可能的,私人数据(例如医疗保健)的价值与可重复性和透明度,这些只是其中几个方面。

使用领域限制

大多数与会者认为,新的定义不应限制用户为特定目的采用该技术的权利范围。 许多人工智能创作者因道德 考量 而退出项目,并且有人推动制定 “负责任的”许可证 来限制使用。

一位与会者说:“人们在所有重要方面都很短视”,并引用了 Stable Diffusion 禁止将深度学习的文本到图像模型用于医疗应用的例子。 “有些研究人员已经弄清楚如何解读 闭锁综合征 患者的想法,有些人已经弄清楚如何看到心理意象。 然而,他们无法帮助这些人并改善他们的生活,因为从技术上讲,这将违反许可证。” 需要说明的是,这些研究人员没有数百万美元从头开始创建一个类似 Stable Diffusion 的模型,因此创新停滞了。

另一位与会者指出:“使用领域限制剥夺了这些工具的创造者影响社会积极成果的方式。”

虽然几位与会者表示支持道德约束背后的意图,但共识是许可证是错误的执行工具。

署名要求

关于署名要求,也有很多关于“权衡格局”的讨论。 在讨论用于训练模型的数据时,与会者表示,要求署名可能没有意义,因为没有单一的作者。 即使像维基百科这样的社区关心承认谁写了什么,但这在这种情况下并不成立,并且自动化人工智能工具的创造者已经有被认可的方式。 这些支持性文件的长度和广度也是跳过这些要求的一个因素。 一位小组成员指出,数据集的“署名”可能会产生一个 3 亿页的 PDF。 “完全没用。 它会很好地压缩,因为其中大部分是冗余的。”

这场对话与透明度和可观察性之间的紧张关系相吻合,这种紧张关系与隐私和安全等其他法规施加的要求有关。

参与进来

这次为期半天的讨论仅仅是开始。 与会者们都清楚地意识到,社区需要更多的对话和更多的集体思考,才能找到共同点。 在 2023 年 8 月 4 日之前,发送一份 演讲提案,参加在线网络研讨会系列,并查看 时间表,了解即将举行的线下研讨会。 OSI 成员还可以预约时间在 办公时间 与执行董事斯特凡诺·马富利聊天。