开源人工智能定义 – 每周更新 9 月 16 日

第 37 周总结 

认可开源人工智能定义

推荐资源:美国版权局关于 TDM 的指南

  • @mjbommar 鼓励 审阅美国版权局关于文本和数据挖掘 (TDM) 例外的指南,该指南提供了清晰的解释和限制,尤其侧重于非商业、学术和教学用途。 他强调,TDM 指南在狭窄的参数范围内运作,这些参数经常被误解或忽视。

关于在开源人工智能定义中处理数据开放性的提案 [RFC]

  • @quaid 提议 通过引入两个指定来为开源人工智能 (OSAI) 定义增加细微差别:OSAI D+(具有开放数据)和 OSAI D-(由于超出创建者控制范围的合理原因而没有开放数据)。 他建议使用数据集原产地证书 (dataset DCO) 进行自我验证,以确保合规性。
  • @kjetilk 同意 验证是关键,但质疑仅数据信息是否足以进行验证。 他强调,验证数据的权利可能并不总是可行。
  • @stefano 赞赏 四象限系统的清晰度,并确认 @quaid 关于 OSAI D- 应为那些有不分享数据的合理理由的人保留的提议。
  • @thesteve0 扩大 “开源” 标签表示怀疑。 他认为,如果无法访问数据和代码,人工智能模型就不能真正成为开源,并建议将此类模型标记为 “开放权重” 以代替 “开源”。
  • @shujisado 指出 数据访问在人工智能中的重要性,并指出 OSAID 要求提供有关数据来源的详细信息,包括出处和选择标准。 他还讨论了不共享数据集的潜在法律和伦理原因。
  • @Shamar 提出了对 人工智能领域 “开放清洗” 的担忧,即开发者可能会分发带有不同数据集的模型,从而破坏信任。 他认为,区分 OSAI D+ 和 D- 会给衍生作品带来法律上的复杂性,并建议没有开放数据的模型不应被视为真正开放。
  • @zack 支持 分层系统(D+ 和 D-)的想法,认为这是对当前情况的改进,因为它激励了从 D- 到 D+ 的进步。 他对可验证性持怀疑态度,但看到了该提案在品牌方面的潜力。

欢迎在统一的开源人工智能定义中采用多样化的训练数据方法

  • @stefano 询问 @arandal 关于建议的编辑,其中包括将数据重命名为 “源数据”,允许开源人工智能开发者要求使用开放数据进行下游修改,并允许下游开发者使用开放数据来微调在非公开数据上训练的模型。 他进一步询问 arandal 是否将训练数据与 模型权重 进行比较,就像源代码之于二进制代码一样。
  • @shujisado 同意 @stefano 的观点,并指出虽然许多人认为符合 OSD 的许可证包括 CC4 和 CC0,但 OSI 尚未正式评估知识共享许可协议的合规性。 他强调了对 CC0 专利防御的担忧,这可能对数据集至关重要。
  • @mjbommar 呼应了 对专利防御的担忧,并指出这是软件和数据许可中的一个关键问题。
  • @Shamar 支持 前两条建议,但认为在非公开数据上训练的模型无法满足 “开源人工智能” 的定义,因为它们限制了学习和修改的自由,而学习和修改是开源的核心原则。

关于当前开源人工智能的定义和数据共享资源的现状

  • @nick 分享了一篇 Nathan Lambert 的文章,该文章由开源人工智能领域的关键人物审阅,讨论了训练数据的挑战和当前开源人工智能的定义。 @Percy Liang (在 X 上) 的观点被强调,他认为发布整个数据集对于开源人工智能来说既不充分也不必要。 他强调需要详细的数据处理流程代码以提高透明度,而不仅仅是发布数据集。
  • @shujisado 讨论了 在人工智能训练中使用美国政府文件的法律细微之处,并强调虽然它们可以在美国使用,但在其他司法管辖区会产生法律上的复杂性。
  • @Shamar 强调 开源人工智能应提供重建系统所需的所有数据和处理信息,否则,称其为开源就是 “开放清洗”。

[RFC] 区分源数据和处理信息之间的关注点

  • @Shamar 提议 在开源人工智能定义中更清晰地区分 “源数据” 和 “处理信息”,以确保透明度和可再现性。 他建议源数据应根据允许其原始使用的相同条款公开可用,而用于训练系统的过程应根据开源许可证共享。 他的表述旨在防止可能导致开放清洗的漏洞,并强调授予所有四项自由(学习、修改、分发和使用)以符合开源人工智能资格的重要性。
  • @nick 不同意,认为 @Shamar 的提议误解了使用数据进行训练的权利和分发数据的权利之间的区别。 他还质疑即使可以访问相同的数据,人工智能系统的精确复制是否可以得到保证。

开源人工智能定义市政厅 – 2024 年 9 月 13 日