开源人工智能定义 – 每周更新，8 月 26 日

第 34 周总结

随着我们朝着今年 10 月在 All Things Open 大会上发布首个开源人工智能定义迈进，0.0.9 草案的发布使我们离实现这一目标更近了一步。

更新日志包括
- 新功能：澄清开源模型和权重
  - 在“什么是开源人工智能”下添加了一个新段落，将“系统”定义为包括模型和权重。
  - 澄清了更大的系统的所有组件都必须符合标准。
  - 在“分享”要点之后更新了段落，以强调这一点。
- 新章节：开源模型和开源权重
  - 添加了机器学习系统中模型和权重的组件描述。
  - 编辑了后续段落以消除冗余。
- 训练数据：定义为一项优势，而非一项要求
  - 定义了开放、公共和不可分享的非公共训练数据。
  - 解释了训练数据在研究人工智能系统和理解偏差方面的作用。
  - 强调了数据为了推进开放性，尤其是在医疗保健等以隐私为先的领域，需要满足额外的要求。
- 清单的分离
  - 清单现在是独立于主要定义的单独文档。
  - 清单内容与模型开放框架 (MOF) 完全对齐。
- 术语变更
  - 在“进行修改的首选形式”下，将“模型”替换为“权重”，以保持一致性。
- 明确提及四大自由的接受者
  - 添加了对人工智能系统的开发者、部署者和最终用户的具体提及。
- 致谢和参考文献
  - 纳入了对自由软件定义的致谢。
  - 添加了对组件可用性条件的参考文献，参考了开源定义。

论坛上的初步反应：
- @shujisado 赞扬了 0.0.9 版本中的更新，特别是将清单与主要文档分离的决定，这澄清了 OSAID 背后的意图。他还支持“代码”和“权重”的分离，并指出在日本，“代码”显然属于版权范围，这使得这种区分合乎逻辑。他承认清单中的修订考虑了完整数据集的重要性，尽管他不同意将数据集作为强制性要求。

关于 HackMD 上草案的评论
- @Joshua Gay 补充说，重点不应缩小到机器学习系统，而应放在“参数”整体上，因为权重只是参数的一种类型。他建议重写，强调在 OSI 批准的条款下提供模型参数（例如权重和其他设置），并提供各种人工智能模型的示例。
  - 他进一步建议使用更广泛的语言来涵盖更多人工智能系统，而不是更狭隘的术语。具体而言，他建议将“开源模型和开源权重”替换为“开源模型和开源参数”，并将“机器学习系统”替换为“人工智能系统”。此外，他建议重新定义人工智能模型，使其包括架构、参数（如权重和决策边界）以及推理代码，同时将人工智能参数称为从输入产生输出的配置设置。
- 在“开源模型和开源权重”下，@shujisado 补充说，标题为“开源模型和开源权重”的最后一段实际上解释了“人工智能模型”和“人工智能权重”，导致标题与内容不符，并指出这些术语在定义的其他地方没有使用。
- 在“对机器学习系统进行修改的首选形式”下，@shujisado 提出了一些语法更正建议。

下一步
- OSI 最近在以下活动中进行了演讲：
  - 香港 AI_dev，8 月 21-23 日
  - 北京开源大会，8 月 25-27 日。
- 迭代草案：继续根据全球巡回宣传的反馈完善草案，考虑新的不同意见。
- 审查许可协议：确定审查数据集、文档和模型参数新许可协议的最佳方法。
- 增强常见问题解答：继续改进常见问题解答，以解决新出现的问题。
- 稳定版本发布后计划：建立一个流程，用于审查和更新未来版本的开源人工智能定义。

参与进来：
- 加入论坛并分享您的意见。
- 在 v.0.0.9 草案上留下评论，提供精确的反馈。
- 关注每周回顾并订阅我们的每月新闻通讯。
- 参加市政厅会议：我们正在将会议频率提高到每周一次，您可以在会上了解更多信息、提出问题并分享您的想法。下一次会议将于 9 月 6 日举行。
- 参加研讨会和预定的会议

@Kjetilk 指出，在人工智能训练中使用受版权保护的作品（复制）与将它们纳入可发布的数据集之间存在法律区别，并质疑允许剥削性模型而不给予补偿，同时可能禁止那些有益于社会的模型的公平性。
@Shujisado澄清说，对于开源和封闭模型，在人工智能训练中使用受版权保护的作品都有可能获得补偿，这与“版税”不同，并指出日本的版权法豁免了机器学习的此类使用。
- @Kjetilk 重申，“版税”对于封闭的、未发布的模型中的补偿具有相关性，并认为如果需要，这在版权法下是合理的，但如果不需要，则可能有利于科学和艺术。