社区输入驱动开源 AI 定义新草案
新版本的开源 AI 定义 已发布,基于公开讨论和建议中收到的评论,增加了一项新功能并使文本更简洁。我们将继续朝着在 2024 年 10 月底的 All Things Open 大会上发布稳定版本的目标迈进。参与进来,加入论坛上的讨论,在每周的全体会议上与世界各地和线上的 OSI 工作人员交流。
新功能:阐明开源模型和开源权重
- 在“什么是开源 AI”下,有一个新的段落,其中 (1) 将模型和权重/参数都标识为“系统”一词所包含的内容,并且 (2) 明确指出,一个更大系统的所有组件都必须符合标准。“共享”要点之后的段落中增加了一个新的句子,阐明了这一点。
- 在“开源模型和开源权重”标题下,描述了机器学习系统的模型和权重的组成部分。我们还编辑了这些添加内容之下的段落,以消除一些冗余。
首选形式的训练数据以进行修改
训练数据的作用是定义中最受争议的部分之一。经过长时间的审议和协同设计会议,我们得出结论,将训练数据定义为一种益处,而不是一项要求,是最佳方案。
训练数据对于研究 AI 系统很有价值:可以了解已学习到的偏差,这些偏差可能会影响系统行为。但是,训练数据不是修改现有 AI 系统的首选形式的一部分。该数据中的见解和关联已被学习。
数据可能难以共享。允许使用数据进行训练的法律通常限制重新共享相同的数据,以保护版权或其他利益。隐私规则还赋予个人控制其最敏感信息的合法能力,例如关于其健康状况的决定。同样,世界上许多土著知识都受到与后来开发的权利排他性和共享框架不兼容的机制的保护。
- 开放训练数据(可以重新共享的数据)提供了使用户能够研究系统以及修改的首选形式的最佳方式。
- 公共训练数据(其他人可以检查的数据,只要它保持可用)也使用户能够研究工作,以及首选形式。
- 不可共享的非公共训练数据(由于可解释的原因而无法共享的数据)使用户能够研究系统的某些偏差,并要求对数据进行详细描述——它是什么、如何收集的、其特征等等——以便用户可以理解系统底层的偏差和分类。
OSI 认为,除了修改 AI 系统的首选形式之外,对数据的这些额外要求既促进了修改 AI 系统首选形式的所有组件的开放性,又推动了在医疗保健等注重隐私的领域实现更多开源 AI。
其他更改
- 清单已分离成单独的文档。这是为了将关于如何识别开源 AI 的讨论与定义中一般原则的建立分开。清单的内容也已与模型开放框架 (MOF) 完全对齐,从而可以轻松叠加。
- 在“进行修改的首选形式”下,“模型”一词已更改为“权重”。“模型”一词仅指参数,并且与文档其余部分中“模型”一词的使用方式不一致。
- 明确提到了四项自由的预期接受者:AI 系统的开发者、部署者和最终用户。
- 纳入了对自由软件定义的致谢。
- 添加了对组件可用性条件的引用,参考了开源定义。
下一步
- 在全球路演中与不同的利益相关者会面后,继续迭代草案,收集反馈,并仔细寻找异议中的新论点。
- 决定如何最好地处理数据集、文档和管理模型参数的协议的新许可证的审查。
- 不断改进 FAQ。
- 为稳定版本发布后做准备:建立一个流程来审查未来版本的开源 AI 定义。
收集意见和认可
感谢 Sloan 基金会的资助,我们将带着 v.0.0.9 草案 上路,收集意见和认可。关于数据在构建和修改 AI 系统中的作用的活跃对话将继续在全球各地的多个会议、每周的全体会议和整个开源社区的在线进行。
前两站是在亚洲:8 月 21-23 日在香港参加 AI_dev,然后在 8 月 25-27 日在北京参加 开源大会。计划在非洲、南美洲、欧洲和北美洲举办其他活动。这些都是 协同设计过程 结束的步骤,该过程将导致 10 月份在 All Things Open 大会上发布稳定版本的定义。
创建开源 AI 定义是过去两年中一项艰巨的任务,但我们知道创建此标准的重要性,以便可以保证使用、研究、共享和修改 AI 系统的自由。这些是开源的核心原则,它值得为此付出的专注工作。您可以在我们的 博客 上的开源 AI 定义之声中了解在使定义成为现实方面发挥关键作用的人们。
如何参与
OSAID 协同设计流程对所有对 协作 感兴趣的人开放。有很多种参与方式
- 加入论坛:分享您对草案的评论。
- 在最新草案上留下评论:对最新草案的文本提供精确的反馈。
- 关注每周回顾:订阅我们的每月新闻通讯和博客,以保持最新状态。
- 加入全体会议:我们将频率提高到每周会议,您可以在会上了解更多信息、提出问题并分享您的想法。
- 加入研讨会和预定的会议:在世界各地的面对面活动中与 OSI 和其他参与者会面。
