开源人工智能定义 – 每周更新,8 月 26 日
第 34 周总结
分享您对 v0.0.9 草案的看法
随着我们朝着今年 10 月在 All Things Open 大会上发布首个开源人工智能定义迈进,0.0.9 草案的发布使我们离实现这一目标更近了一步。
- OSAID 0.0.9 草案定义 已上线!
- 更新日志包括
- 新功能:澄清开源模型和权重
- 在“什么是开源人工智能”下添加了一个新段落,将“系统”定义为包括模型和权重。
- 澄清了更大的系统的所有组件都必须符合标准。
- 在“分享”要点之后更新了段落,以强调这一点。
- 新章节:开源模型和开源权重
- 添加了机器学习系统中模型和权重的组件描述。
- 编辑了后续段落以消除冗余。
- 训练数据:定义为一项优势,而非一项要求
- 定义了开放、公共和不可分享的非公共训练数据。
- 解释了训练数据在研究人工智能系统和理解偏差方面的作用。
- 强调了数据为了推进开放性,尤其是在医疗保健等以隐私为先的领域,需要满足额外的要求。
- 清单的分离
- 清单现在是独立于主要定义的单独文档。
- 清单内容与模型开放框架 (MOF) 完全对齐。
- 术语变更
- 在“进行修改的首选形式”下,将“模型”替换为“权重”,以保持一致性。
- 明确提及四大自由的接受者
- 添加了对人工智能系统的开发者、部署者和最终用户的具体提及。
- 致谢和参考文献
- 纳入了对自由软件定义的致谢。
- 添加了对组件可用性条件的参考文献,参考了开源定义。
- 新功能:澄清开源模型和权重
- 论坛上的初步反应:
- @shujisado 赞扬了 0.0.9 版本中的更新,特别是将清单与主要文档分离的决定,这澄清了 OSAID 背后的意图。他还支持“代码”和“权重”的分离,并指出在日本,“代码”显然属于版权范围,这使得这种区分合乎逻辑。他承认清单中的修订考虑了完整数据集的重要性,尽管他不同意将数据集作为强制性要求。
- 关于 HackMD 上草案的评论
- @Joshua Gay 补充说,重点不应缩小到机器学习系统,而应放在“参数”整体上,因为权重只是参数的一种类型。他建议重写,强调在 OSI 批准的条款下提供模型参数(例如权重和其他设置),并提供各种人工智能模型的示例。
- 他进一步建议使用更广泛的语言来涵盖更多人工智能系统,而不是更狭隘的术语。具体而言,他建议将“开源模型和开源权重”替换为“开源模型和开源参数”,并将“机器学习系统”替换为“人工智能系统”。此外,他建议重新定义人工智能模型,使其包括架构、参数(如权重和决策边界)以及推理代码,同时将人工智能参数称为从输入产生输出的配置设置。
- 在“开源模型和开源权重”下,@shujisado 补充说,标题为“开源模型和开源权重”的最后一段实际上解释了“人工智能模型”和“人工智能权重”,导致标题与内容不符,并指出这些术语在定义的其他地方没有使用。
- 在“对机器学习系统进行修改的首选形式”下,@shujisado 提出了一些语法更正建议。
- @Joshua Gay 补充说,重点不应缩小到机器学习系统,而应放在“参数”整体上,因为权重只是参数的一种类型。他建议重写,强调在 OSI 批准的条款下提供模型参数(例如权重和其他设置),并提供各种人工智能模型的示例。
- 下一步
- OSI 最近在以下活动中进行了演讲:
- 迭代草案:继续根据全球巡回宣传的反馈完善草案,考虑新的不同意见。
- 审查许可协议:确定审查数据集、文档和模型参数新许可协议的最佳方法。
- 增强常见问题解答:继续改进常见问题解答,以解决新出现的问题。
- 稳定版本发布后计划:建立一个流程,用于审查和更新未来版本的开源人工智能定义。
- 参与进来:
- 加入论坛并分享您的意见。
- 在 v.0.0.9 草案上留下评论,提供精确的反馈。
- 关注每周回顾并订阅我们的每月新闻通讯。
- 参加市政厅会议:我们正在将会议频率提高到每周一次,您可以在会上了解更多信息、提出问题并分享您的想法。下一次会议将于 9 月 6 日举行。
- 参加研讨会和预定的会议
解释数据信息的概念
- @Kjetilk 指出,在人工智能训练中使用受版权保护的作品(复制)与将它们纳入可发布的数据集之间存在法律区别,并质疑允许剥削性模型而不给予补偿,同时可能禁止那些有益于社会的模型的公平性。
- @Shujisado澄清说,对于开源和封闭模型,在人工智能训练中使用受版权保护的作品都有可能获得补偿,这与“版税”不同,并指出日本的版权法豁免了机器学习的此类使用。