开源人工智能定义 – 每周更新 9月9日

第36周摘要 

开源人工智能定义 v.0.0.9 草案现已开放征求意见

  • -@Shamar 同意 @thesteve0 的观点,并强调人工智能系统由两部分组成:虚拟机(架构)和 权重 (可执行软件)。他认为,虽然权重很重要,但它们不足以研究或完全理解人工智能模型。为了使一个系统真正开源,它必须提供用于重新创建模型精确副本的所有数据,包括过程中使用的随机值。 如果没有这些,即使权重在开源许可证下可用,该系统也不应被标记为开源。Shamar 建议将此类系统称为“免费软件”,并确保开源人工智能定义与开源定义保持一致。
  • @jberkus 质疑 即使可以访问所有训练数据,创建人工智能系统的精确副本是否真的可能,或者是否总是会存在细微差异。
  • @shujisado 解释说 ,根据日本的版权法,在公开可用的受版权保护的作品上进行人工智能训练是允许的,但共享训练期间创建的数据集需要获得版权持有人的明确许可。他指出,虽然在许多司法管辖区内,法律允许范围内的 AI 训练可能是允许的,但要使所有训练数据都可自由获取是不太可能的。他补充说,考虑到全球知识产权,当前的开源人工智能定义达到了合理的平衡,但建议更具体的语言可能有助于进一步澄清这一点。

分享您对 v0.0.9 草案的想法

开源人工智能定义市政厅会议 – 2004年9月6日

欢迎在统一的开源人工智能定义中采用多样化的训练数据方法

解释数据信息的概念

  • @Senficon 强调了 开放科学界的一个担忧,即虽然欧盟版权法允许复制受保护的内容用于研究,但它限制了向第三方提供研究语料库。这限制了研究的可重复性和开放获取,因为它旨在保护权利持有人的收入。
  • @kjetilk 同意这一观察 ,但质疑将内容公开可用会显着损害权利持有人收入的假设。他认为,此类政策应基于广泛研究的可靠证据。