开源人工智能定义 – 每周更新 9月9日
第36周摘要
开源人工智能定义 v.0.0.9 草案现已开放征求意见
- -@Shamar 同意 @thesteve0 的观点,并强调人工智能系统由两部分组成:虚拟机(架构)和 权重 (可执行软件)。他认为,虽然权重很重要,但它们不足以研究或完全理解人工智能模型。为了使一个系统真正开源,它必须提供用于重新创建模型精确副本的所有数据,包括过程中使用的随机值。 如果没有这些,即使权重在开源许可证下可用,该系统也不应被标记为开源。Shamar 建议将此类系统称为“免费软件”,并确保开源人工智能定义与开源定义保持一致。
- @jberkus 质疑 即使可以访问所有训练数据,创建人工智能系统的精确副本是否真的可能,或者是否总是会存在细微差异。
- @shujisado 解释说 ,根据日本的版权法,在公开可用的受版权保护的作品上进行人工智能训练是允许的,但共享训练期间创建的数据集需要获得版权持有人的明确许可。他指出,虽然在许多司法管辖区内,法律允许范围内的 AI 训练可能是允许的,但要使所有训练数据都可自由获取是不太可能的。他补充说,考虑到全球知识产权,当前的开源人工智能定义达到了合理的平衡,但建议更具体的语言可能有助于进一步澄清这一点。
分享您对 v0.0.9 草案的想法
- @marianataglio 建议在开源人工智能定义中包含硬件规格 、训练时间和碳足迹,以提高透明度。她认为这将增强可重复性、可访问性和协作性,同时帮助从业人员估算计算成本并优化模型以实现更高效的训练。
开源人工智能定义市政厅会议 – 2004年9月6日
- 我们的第十五次市政厅会议于 9 月 6 日举行。如果您错过了,可以在 这里找到录音和幻灯片。
欢迎在统一的开源人工智能定义中采用多样化的训练数据方法
- @Alek_Tarkowski 同意 @arandal 的观点,即在更广泛的开放运动(如开放数据)中定位开源人工智能的重要性。他建议与知识共享等组织的合作应超越许可标准,包括数据治理,这仍然是一个未开发的领域。
- @Alek_Tarkowski 发现要求源数据遵循开源许可证的想法在概念上很有趣 ,将其比作“上游 copyleft”,但指出传统的 copyleft 框架可能不适合人工智能开发。
- @arandal 澄清说,该提案 是软件自由原则的演变,而不是传统 copyleft 的直接扩展,类似于 AGPL 如何解决早期许可证留下的差距。 他们进一步提到 ,关于这些方法的讨论正在各个组织中进行,但正式出版物有限。