开源 AI 定义 – 每周更新 5 月 20 日

充满重要问题的一周。

关于 v.0.0.8 草案的总体担忧和建议的修改

一篇由 AWS 开源团队署名的帖子提出了重要问题,阐明了关于“数据信息”概念的分歧。

  • 一篇由 AWS 开源团队署名的详细帖子 提出了关于 v0.0.8 草案中数据信息概念 和其他重要主题的担忧。我建议阅读他们的帖子。本周讨论的主要要点是
    • 关于训练数据的讨论尚未定论。AWS 开源团队认为,为了使开源 AI 定义有效,用于训练 AI 系统的数据必须包含在内,类似于开源软件中对源代码的要求。他们表示,目前的定义将数据集的包含标记为可选,这损害了透明度和可重复性。
    • 他们的建议:在包含实际数据集会带来法律或隐私风险的情况下,使用合成数据。
      • 瓦伦蒂诺·朱迪切对 “或 AI 系统,数据相当于源代码” 这一说法提出异议,并指出 “相当于” 在这里使用过于宽泛。对于训练好的模型,数据集对于理解模型的运行不是必要的,模型的运行是由架构和框架决定的。
        • 费拉约利不同意,他表示 “如果没有数据、处理代码和训练代码,就不能将训练好的模型视为开源。将训练好的模型比作软件二进制文件,如果没有可用的源代码并以开源许可授权,我们不会称二进制文件为开源。”
      • 扎基罗利补充说,他们支持在原始数据无法发布时使用 “高质量等效合成数据集” 的建议。尽管 “等效” 仍然未定义,可能会产生漏洞,但这个问题不会使 OSAID 变得更糟。
    • 其他一些提议的修改包括
    • 要求发布依赖数据集
      • 强制要求在开放数据许可证下发布训练、测试、验证和基准数据集,或者在法律限制适用时发布高质量的合成数据。
      • 更新 “数据信息” 部分,使数据集发布成为一项要求。
  • 防止对输出的限制
    • 禁止限制对开源 AI 系统生成的输出的使用、修改或分发。
  • 消除可选组件
    • 从 OSAID 中移除可选组件,以保持高标准的开放性和透明度。
  • 解决组合歧义
    • 确保应用于开源 AI 系统中多个组件分发的任何许可证都经过 OSD 批准。

为什么以及如何认证开源 AI

  • 来自 AWS 团队的帖子包含一条关于开源 AI 认证过程的评论,该评论 值得单独讨论。有一些待解答的问题
    • 究竟是谁需要证明 AI 系统是开源 AI 的认证?
    • 谁将使用这种认证?今天部署开放基础模型的任何团队是否认为他们可以使用这种认证?目的是什么?
    • 谁将消费认证所携带的信息,为什么以及如何消费?
  • 扎基罗利补充说,对 AI 系统进行 OSAID 合规性认证的需求源于定义中固有的歧义,例如 “充分” 和 “高质量等效合成数据集” 等术语。关于合规性的争议将需要一个评判机构,类似于 OSD 的 OSI。虽然管理 OSAID 的判断可能由于潜在的数量而更加复杂,但社区很可能会向 OSI 寻求此类决策。

非开源 AI 的衍生品可以被视为开源 AI 吗?

  • 这个问题已在草案文件中提出,并 移至 论坛以获得更高的可见性。在不了解模型初始训练细节的情况下,对模型进行微调在技术上是否可行?是否有成功微调的 AI/ML 系统的例子,其中初始训练数据和技术未知,但微调数据和方法已完全公开?
    • Shuji Sado 补充说,微调通常涉及更新新添加层的权重和预训练模型的某些层,但不是所有层,以保持预训练的好处。
    • 瓦伦蒂诺·朱迪切 对此点表示担忧,因为存在多种微调策略,允许灵活地更新任何数量现有层中的权重,而无需添加新层。即使更新整个网络也可能是有益的,因为它利用了预训练模型的信息,并且可能比从头开始训练新模型更有效。微调可以稍微调整模型的性能或行为,有效地整合新数据。

请注意,特别是如果您在该领域有知识,我们很乐意听到更多想法!