开源人工智能定义 – 每周更新 5 月 27 日

开源人工智能需要数据才能可行

  • @juliaferraioli 和 AWS 团队重新开启了关于访问训练数据的辩论。 这次辩论在一个新的论坛中进行,与之前的论坛中提出的担忧相呼应。 他们认为,为了实现可修改性,人工智能系统必须附带用于训练它的原始训练数据集。 完全的透明度和可重复性要求发布所有用于训练、验证、测试和基准测试的数据集。 对于 Ferraioli 来说,数据被认为等同于人工智能系统的源代码,因此其包含不应是可选的。 在 AWS 开源团队签署的消息中,她提议,为了符合开源人工智能标准,应要求提供原始训练数据集或提供不发布的合成数据理由。
  • @stefano 在我们重新开启这场辩论时,添加了一些提醒。 这些是需要牢记的要点:
    • 放弃让你寻找人工智能(或机器学习)来源的思维定势,因为这种定势让我们陷入了循环。 相反,我们正在寻找“对系统进行修改的首选形式”
    • 世界上大多数立法中的法律都规定,由于版权、隐私和其他法律,分发数据是非法的。 此外,法律如何对待数据集也不明确,而且法律也在不断变化 
    • 0.0.8 草案的文本在“数据信息”方面故意含糊不清。 这是为了经受住时间和技术变革的考验。 
    • 在批评草案时,请在您的问题中提供具体示例,并避免抽象地争论。 
  • @danish_contractor 认为,当前的草案可能会降低开放性,因为社区对模型(BLOOM 或 StarCoder)的看法可能不太有利,尽管这些模型包括防止危害的使用限制,但它们比 Mistral 等模型更透明、可重复,因此也更“开放”。
  • @Pam Chestek 澄清说,开源有两个角度:使用、研究、修改和共享的权利,以及这些权利不受限制。 两者同等重要。
  • 这场辩论与早期关于识别人工智能系统的开源组件的辩论相呼应。

FAQ 页面已更新

  • FAQ 页面开始成形,我们希望收到更多反馈。 到目前为止,我们对以下问题有初步答案:
    • 为什么不要求提供原始训练数据集?
    • 为什么自由的授予对象是其用户?
    • 什么是模型参数?
    • 模型参数是否受版权保护?
    • “在符合 OSD 的许可下可用”是什么意思?
    • “在符合 OSD 的条款下可用”是什么意思?
    • 为什么开源人工智能定义包含组件列表,而开源软件定义没有提及文档、路线图和其他有用的东西?
    • 为什么开源人工智能定义中没有提及安全和风险限制?

LLM360 对 v0.0.8 草案的审查

  • @vamiller 代表 LLM360 团队提交了对其模型的审查。 他认为 v0.0.8 反映了应用于人工智能的开源原则。 他询问了 ODC-By 许可证,认为它与 OSI 的原则兼容,但它只是一个数据许可证。

参加下一次市政厅会议

  • 下一次市政厅会议将于 5 月 31 日下午 3:00 – 4:00(UTC)举行。 我们鼓励所有可以参加的人员参加。 本周,我们将更深入地探讨关于访问(或不访问)训练数据的问题。