开源人工智能定义 – 每周更新 6 月 3 日

关于定义验证的初步报告

  • 验证阶段报告的初稿已发布。验证阶段旨在审查现有系统与当前定义草案的兼容性。这些是正在讨论的系统:Arctic、BLOOM、Falcon、Grok、Llama 2、Mistral、OLMo、OpenCV、Phy-2、Pythia 和 T5。
  • 问题和初步发现
    • 难以找到的文件: 由于没有系统创建者的参与,审查人员不得不独立搜索法律文件,导致文件列表和后续分析中出现许多空白。
    • 一个组件,多个工件和文档: 有些组件与多个工件和文档相关联,这使得审查过程复杂化,因为源代码和文档可能分散在多个存储库和报告中。
    • 复合组件: 清单中的组件经常组合多个工件,例如训练和验证代码,使得追踪特定的法律文件变得困难。
    • 合规?符合? 十一个必需组件中的六个需要一个“合规”或“符合”开源定义的法律框架,这促使需要更清晰的关于审查非软件组件的指导。
    • 回归许可证: 审查人员建议简化流程,通过依赖法律文件是否经 OSI 批准、符合或合规来保证使用、研究、修改和共享组件的权利,从而消除独立评估的需要。
  • 下一步
    • 当我们着眼于填补上述空白时,我们呼吁系统创建者和独立志愿者共同完成各种系统审查。
    • 如果您的熟悉系统不在列表中,请在论坛上联系 Mer
  • 初步问题和疑问
    • @jasonbrooks 询问验证过程是否应该检查“是否有关于用于训练系统的数据的足够详细的信息,以便熟练的人员可以重新创建一个基本等效的系统。”目前尚不清楚这是否已得到确认,如果能提供熟练人员实现这一目标的例子将会有所帮助。
      • @stefano 回复 说,首选形式 列出了持久的原则,而清单 详细说明了必需的组件。验证确保了训练方法和数据来源等组件的可用性,从而实现系统的重建。Mer 的报告强调了查找这些组件的困难,表明需要一种更好的方法。一个想法是为人工智能开发者进行详细的调查,尽管像 Meta 这样的公司可能会滥用“开源”标签。公众压力最终可能会阻止这种滥用行为。
    • @amcasari 补充了关于审查许可证过程的见解。

开源人工智能需要数据才能可行

  • 本周,对话主要转向了创建开源许可梯度方法的可能性。
  • @Mark分享说,他正在发表一篇关于开源洗白、人工智能法案以及支持开放性梯度概念的论文。
    • @danish_contactor 之前提出的大部分观点一致,Mark 强调了 RAIL 许可证,并认为它也应被视为开放性的一部分,他表示“我认为大型语言模型的提供商和用户不应该可以随意在我们的信息环境中制造石油泄漏,而且我认为 RAIL 为此提供了有用的护栏。”
    • 他们还展示了他们对不同系统开放程度的可视化呈现
  • @stefano 重申,开源人工智能定义将保持二元性,就像开源定义是二元性一样。并且回应 @Mark @danish_contactor,他链接到了 Kate Downing 对 RAIL 许可框架的法律分析。

非开源人工智能的衍生品可以被认为是开源人工智能吗?

  • 在回答 @stefano 早些时候的问题 时,@mark 补充说,在不了解初始训练数据和技术的情况下,微调模型是具有挑战性的。像 Meta 和 Mistral 微调这样的例子表明,尽管原始训练数据缺乏透明度,但仍然取得了成功。英特尔的 Neural 7B 和 AllenAI 的 Tulu 70B 展示了有效的微调,并详细披露了微调步骤和数据。然而,由于基础模型的封闭性和潜在的法律责任,这些努力不能被认为是真正的开源人工智能系统。
  • @stefano 结束了这个话题,并表示,根据反馈,“非开源人工智能的衍生品不能被认为是开源人工智能”

为什么要以及如何认证开源人工智能

  • @amscott 补充说,人工智能开发者可能会自行认证符合 OSAID,在细微的案例中,需要客观的认证来进行仲裁。与 OSD 一样,OSAID 将通过社区实践走向成熟。一个简单的自我认证工具可以促进透明度并记录良好实践。
  • @mark 补充说,欧盟人工智能法案强调“开源”系统,为像 Meta 和 Mistral 这样的公司提供了有吸引力的豁免。人工智能法案要求由人工智能办公室监督披露模板,这可能会导致激烈的游说活动。如果开源组织影响监管和认证,透明度可能会加强开源生态系统。

关于 0.0.8 定义的问题

  • 来自 @Jennifer Ding 的问题,关于为什么“信息”是数据类别的重点,而不是代码和模型类别。
  • @Matt White 补充说,OSD-Conformant(在清单中)应该在某处定义。
    • 他进一步补充说(在清单下的数据信息中),许多“开放”模型保留了各种形式的数据,如果数据不是定义的必需组成部分,那么期望模型生产者发布完全复制数据管道所需的所有信息是不合理的
  • @Micheal Dolan 补充说,“在没有任何术语定义的情况下使用 OSD-compliant 和 OSD-conformant 很难解析其含义。”并提出了一些解决方案。

PyCon US 上的 OSAID

  • 错过了关于我们现在如何走到这一步的总结? OSI 出席了在匹兹堡举行的 PyCon,我们在那里举办了一个关于我们当前定义的研讨会,并与许多知识渊博的利益相关者进行了交谈。您可以在此处阅读相关内容。