开源人工智能定义 – 每周更新 9 月 2 日

分享您对 v0.0.9 草案的看法

  • @mkai 补充了关于 OSI 将如何处理来自开源和闭源模型的人工智能生成内容的担忧,因为当前的法律裁决认为此类内容不能享有版权。他还建议在《开源人工智能定义》中澄清人工智能模型参数和模型本身许可证之间的区别。
  • @shujisado 补充说,虽然媒体对 OSAID v0.0.9 发布的报道令人鼓舞,但他不支持建立一种强制机制来标记虚假的开源人工智能。他认为这种方法不同于 OSI 的传统立场,并暗示这可能是一种误解。
  • @jplorre 补充说,虽然 LINAGORA 支持拟议的定义,但他们建议澄清术语“等效系统”的含义,即产生相同输出(给定相同输入)的系统。他们还建议从定义中删除对“分词器”的具体引用,因为它可能不适用于所有人工智能系统。
    • @shujisado 同意需要澄清“等效系统”的含义,但指出在通用大型语言模型中,无法始终保证相同的输出。他建议这种澄清可能更适合放在清单中,而不是 OSAID 本身。

开源人工智能定义 v.0.0.9 草案可供评论

  • @adafruit 与 @webmink 重新联系,并提议更新《开源人工智能定义》,包括在人工智能训练期间增加对提示透明度和数据访问的要求。这些更新旨在通过提供详细的日志、文档以及公开访问训练阶段使用的提示,来增强审核、复制和修改人工智能模型的能力。
    • @webmink 赞赏该提议,但指出它似乎特定于单一方法,并建议它可能需要更广泛的适用性。
  • @thesteve0 批评了当前的定义,认为它没有赋予修改人工智能模型的真正自由,因为权重(对于使用模型至关重要)在没有访问原始数据和代码的情况下无法重现。他建议,仅共享其权重(尤其是在专有数据上构建)的模型应标记为“开放权重”而不是“开源”。他还对某些人工智能模型滥用“开源”标签表示担忧,并列举了该术语被滥用的具体例子。

“开源粉饰”和开源软件的未言明假设

  • @pranesh 补充说,明确声明开源人工智能的治理不在 OSAID 的范围之内可能是有帮助的,但也指出 OSD 和自由软件定义都没有明确提及治理,因此可能没有必要。
  • @kjetilk 补充说,虽然治理问题传统上是未言明的,但这种未言明的性质是需要解决的关键问题。他建议 OSI 应明确声明治理不在范围之内,以便其他人承担起这一责任。
  • @mjbommar 补充支持官方声明 OSI 不打算控制治理,并指出有人担心 OSI 可能会转向封闭式治理方法。他引用了过去对未能控制“开源”商标以对抗“开源粉饰”的遗憾。
  • @nick 补充保证 OSI 无意创建封闭式治理花园,重申了该组织长期以来反对这种控制的立场。
  • @shujisado 补充说,OSAID 流程中似乎已达成共识,即治理不在范围之内,并指出相关的声明已在最近的版本中移至 FAQ 部分

解释数据信息的概念

  • @pranesh 提到,从法律角度来看,侵权百分比很重要,并引用了“微量原则”和“合理使用”等抗辩理由,这些理由考虑了侵权的数量和目的。他强调,不同司法管辖区的版权法各不相同,并非所有司法管辖区都像美国那样认可相同的抗辩理由。
  • @mjbommar 认为,人工智能输出的规模和性质使得“微量原则”抗辩变得无关紧要,尤其是在人工智能模型生成大量受版权保护的内容时。他强调,人工智能生成内容的经济影响是决定其是否符合变革性使用或侵犯版权的关键因素。
  • @shujisado 强调,在日本,使用受版权保护的作品进行人工智能训练通常被视为版权法下的例外情况,邻近的东亚国家也在采纳这种立场。他认为,像欧盟指令这样的方法不太可能在亚洲成为主流。
  • @mjbommar承认全球关注美国/欧盟法律,但指出许多常用模型是由西方组织开发的。他质疑日本更新后的版权法如何与 WCT/DMCA 等国际条约保持一致,并表示担心它们可能允许与这些协议冲突的做法。
    • @shujisado 回应说,日本的版权法(包括第 30-4 条)经过精心制定,符合包括伯尔尼公约和世界知识产权组织版权条约在内的国际标准,确保它们满足要求的法律框架。

欢迎在统一的开源人工智能定义中采用多样化的训练数据方法

  • @arandal强调,《开源定义》(OSD) 作为统一框架的重要性,该框架可以容纳开源社区内的各种方法。她认为,人工智能模型是源代码和训练数据的组合,其在处理数据方面的多样性应在《开源人工智能定义》中明确承认。她提出了对草案的具体文本修改,以澄清虽然一些开发者可能对专有数据感到满意,但另一些开发者可能不满意,并且应支持这两种方法,以确保开源人工智能的长期成功。
  • @mjbommar 赞赏 Arandal 提案的精神,但补充说 OSI 目前缺乏针对数据的特定许可证,这就是为什么 OSI 与知识共享组织合作至关重要的原因。知识共享组织维护了在拟议的《开源人工智能定义》修订下所必需的“数据许可证”生态系统。
  • @arandal 同意需要与知识共享组织等机构合作,并指出这种协调已反映在清单 v. 0.0.9 中。她认为,即使没有拟议的修订,这种合作也是必要的,以确保该定义准确地解决人工智能领域的数据许可问题。
  • @nick 承认与知识共享组织等机构合作的重要性,并提到 OSI 正在与包括 MLCommons、Open Future Foundation 以及 Data and Trust Alliance 在内的多个相关组织进行持续沟通。他强调,Data and Trust Alliance 最近发布的《数据来源标准》是正在进行的合作工作的一个例子。
  • @mjbommar 重申需要与知识共享组织进行明确协调,认为没有这种合作,OSI 实际上无法最终确定《开源人工智能定义》。他还建议 OSI 应探索人工智能偏好信号,并与知识共享组织和 SPDX/LF 合作建立共享标准,这应成为 OSAID 标准路线图的一部分。

参加本周的市政厅会议,听取最新进展,提出您的意见并提出问题。