开源人工智能定义 – 每周更新,8 月 26 日

第 34 周总结 

分享您对 v0.0.9 草案的看法

随着我们朝着今年 10 月在 All Things Open 大会上发布首个开源人工智能定义迈进,0.0.9 草案的发布使我们离实现这一目标更近了一步。

  •   更新日志包括
    • 新功能:澄清开源模型和权重
      • 在“什么是开源人工智能”下添加了一个新段落,将“系统”定义为包括模型和权重。
      • 澄清了更大的系统的所有组件都必须符合标准。
      • 在“分享”要点之后更新了段落,以强调这一点。  
    • 新章节:开源模型和开源权重
      • 添加了机器学习系统中模型和权重的组件描述。
      • 编辑了后续段落以消除冗余。
    • 训练数据:定义为一项优势,而非一项要求
      • 定义了开放、公共和不可分享的非公共训练数据。
      • 解释了训练数据在研究人工智能系统和理解偏差方面的作用。
      • 强调了数据为了推进开放性,尤其是在医疗保健等以隐私为先的领域,需要满足额外的要求。
    • 清单的分离
      • 清单现在是独立于主要定义的单独文档。
      • 清单内容与模型开放框架 (MOF) 完全对齐。
    • 术语变更
      • 在“进行修改的首选形式”下,将“模型”替换为“权重”,以保持一致性。
    • 明确提及四大自由的接受者
      • 添加了对人工智能系统的开发者、部署者和最终用户的具体提及。
    • 致谢和参考文献
      • 纳入了对自由软件定义的致谢。
      • 添加了对组件可用性条件的参考文献,参考了开源定义。
  • 论坛上的初步反应: 
    • @shujisado 赞扬了 0.0.9 版本中的更新,特别是将清单与主要文档分离的决定,这澄清了 OSAID 背后的意图。他还支持“代码”和“权重”的分离,并指出在日本,“代码”显然属于版权范围,这使得这种区分合乎逻辑。他承认清单中的修订考虑了完整数据集的重要性,尽管他不同意将数据集作为强制性要求。 
  • 关于 HackMD 上草案的评论
    • @Joshua Gay 补充说,重点不应缩小到机器学习系统,而应放在“参数”整体上,因为权重只是参数的一种类型。他建议重写,强调在 OSI 批准的条款下提供模型参数(例如权重和其他设置),并提供各种人工智能模型的示例。
      • 他进一步建议使用更广泛的语言来涵盖更多人工智能系统,而不是更狭隘的术语。具体而言,他建议将“开源模型和开源权重”替换为“开源模型和开源参数”,并将“机器学习系统”替换为“人工智能系统”。此外,他建议重新定义人工智能模型,使其包括架构、参数(如权重和决策边界)以及推理代码,同时将人工智能参数称为从输入产生输出的配置设置。
    • 在“开源模型和开源权重”下,@shujisado 补充说,标题为“开源模型和开源权重”的最后一段实际上解释了“人工智能模型”和“人工智能权重”,导致标题与内容不符,并指出这些术语在定义的其他地方没有使用。
    • 在“对机器学习系统进行修改的首选形式”下,@shujisado 提出了一些语法更正建议。
  • 下一步
    • OSI 最近在以下活动中进行了演讲 
    • 迭代草案:继续根据全球巡回宣传的反馈完善草案,考虑新的不同意见。
    • 审查许可协议:确定审查数据集、文档和模型参数新许可协议的最佳方法。
    • 增强常见问题解答继续改进常见问题解答,以解决新出现的问题。
    • 稳定版本发布后计划:建立一个流程,用于审查和更新未来版本的开源人工智能定义。

 解释数据信息的概念

  •  @Kjetilk 指出,在人工智能训练中使用受版权保护的作品(复制)与将它们纳入可发布的数据集之间存在法律区别,并质疑允许剥削性模型而不给予补偿,同时可能禁止那些有益于社会的模型的公平性。
  • @Shujisado澄清说,对于开源和封闭模型,在人工智能训练中使用受版权保护的作品都有可能获得补偿,这与“版税”不同,并指出日本的版权法豁免了机器学习的此类使用。
    • @Kjetilk 重申,“版税”对于封闭的、未发布的模型中的补偿具有相关性,并认为如果需要,这在版权法下是合理的,但如果不需要,则可能有利于科学和艺术。

开源人工智能定义市政厅

  • 2024 年 8 月 23 日举行的市政厅会议的幻灯片和录音可在此处获取。
  • 下一次市政厅会议将于 9 月 6 日举行。在此处注册活动 注册