开源人工智能定义 – 每周更新 6月10日

为了可行性,开源人工智能需要对数据提出要求

  • 在同时进行许多不同讨论的情况下,以下是主要观点
    • 关于训练数据的问题
      • @mark 担心,如果不对训练数据加以关注,人工智能的开放性就毫无意义。“模型权重是当前生成式人工智能中最神秘莫测的组成部分,仅发布[权重]的提供商不应获得免费的‘开放性’通行证。”
      • @stefano 同意所有观点,但质疑 Mark的论文 中用于分配绿色标记的标准,并指出其中存在不一致之处。他们以 Pythia-Chat-Base-7 为例,该模型依赖于来自 OpenDataHub 的数据集,该数据集存在诸如数据未版本化和链接失效等潜在问题,未能满足 @juliaferraioli 要求的严格要求。对于其他模型(如 OLMo 7B Instruct),也提出了类似的担忧,这些模型缺乏具体的数据版本控制细节。Maffulli 还强调了 Pythia-7B 的案例,该模型曾经可能符合标准,但由于其基础数据集 Pile 的不可用性,现在变得有问题,这说明了如果采纳 @juliaferraioli 和 AWS 团队提出的严格建议,则长期维持 “开源” 状态的复杂性。
      • @shujisado 补充说,虽然他理解 @juliaferraioli 对数据集的要求,但 @stefano 支持 “数据信息” 概念的论点符合 OSI 原则,并且是合理的。
      • @spotaws 强调,如果数据本身过于模糊,“数据信息” 本身是不够的。
      • @juliaferraioli 补充说,虽然由于成本和统计性质,复制像 OLMo 或 Pythia 这样的人工智能系统可能看起来不切实际,但这种能力对于更广泛的采用和一致性至关重要。她认为目前的定义不明确且主观。
      • @zack 建议审查 StarCoder2,并认识到它将与 BLOOM 属于同一类别:一个具有高度透明度且数据集可用的系统,但以限制性许可证发布。
      • @Ezequiel_Lanza 加入对话,支持数据信息概念,并 声称,通过技术论证,“共享数据集不一定是必需的,并且可能不足以证明强制要求共享数据集所带来的潜在风险是合理的。”
      • 部分开放/限制性许可证
        • 继续 @marks 关于限制性许可证(如伦理许可证)的观点,@stefano 添加了一个链接,指向一篇文章,其中重点介绍了 OSI 避开这些许可证的一些原因。
        • @pchestek 进一步补充说,部分开放许可证将为 “开放清洗” 创造更多机会,因为 “开源人工智能” 可能有多种含义。
        • @mark 澄清说,他们并非要提出多种含义,而是在论文中试图强调开放性的维度,探索更广阔的领域。
        • @stefano 补充说,在 OSI 的 26 年历史中,它曾与许多声称具有不同程度开放性的组织争论 “开源” 的定义。这个问题现在也反映在人工智能领域,因为公司寻求被标记为开源的市场价值。开源是二元的:要么用户拥有完全的权利,要么没有,任何不符合标准的系统都不是开源人工智能,无论它多么 “接近” 开放。
      • 使用领域/限制
        • @juliaferraioli 认为 OSAID 应包括禁止使用领域限制的条款。
        • @shujisado 补充说,OSAID 规定了四项自由作为被视为开源的要求,这应被理解为相同的,因为 “自由” 与 “非限制” 相同。OSD 的 10 个条款已被 v0.0.8 草案中的清单所取代。
        • @juliaferraioli 补充说,单个组件可能受其各自许可证的约束,但整个系统可能受附加条款的约束,这就是为什么我们需要明确这一点。

关于定义验证的初步报告

  • @Mer 已添加 关于我们的系统分析与当前草案定义相比的进展程度。一些尚未完成的要点已被突出显示。
  • Mistral (Mixtral 8x7B) 被认为不符合 OSAID,因为其数据预处理代码未在 OSI 批准的许可证下发布。

非开源人工智能的衍生品可以被视为开源人工智能吗?

  • @tarek_ziade 分享了 他为 Firefox 功能微调 “小型” 模型(2 亿参数)以描述图像的经验,使用基础模型进行图像编码和文本解码。尽管无法 100% 追溯上游数据,但 Tarek 认为,有意的微调和透明度使新的微调模型成为开源的。下游数据引起的任何问题都可以由项目维护者解决,从而保持模型的开源状态。

市政厅会议录音已发布

  • 我们在一个半星期前举行了第十次市政厅会议。如果您错过了,可以在此处访问录音。
  • 新的市政厅会议安排在本周星期五,6 月 14 日