开源 AI 定义 – 每周更新 6 月 24 日

解释数据信息的概念

继 @stefano 关于 OSI 为何在 开源 AI 定义 的清单中将训练数据视为“可选”的出版物之后,辩论仍在继续。以下是主要观点

  • 首选修改形式
  • @hartmans 表示,就“首选修改形式”的含义达成一致取决于用户的目标。分歧可能源于对与开源 AI 相关的自由的优先排序不同,尽管他们强调优先考虑 模型权重 以进行实际修改。他建议,数据信息可能比原始数据更有利于理解模型,并敦促在 AI 定义中保持灵活性。
  • @shujisado 强调,机器学习模型的训练数据是一种首选的修改形式,但质疑它是否是最首选的形式。他进一步强调,在 AI 中需要对首选修改形式进行灵活的定义。
  • @quaid 支持 进行受控实验的想法,以确定仅数据信息是否足以准确地重新创建 AI 模型。建议了测试数据信息有效性的实际步骤,并鼓励社区参与此类实验。
    • @stefano 补充说,卡内基梅隆大学的一些学生将进行此类实验(如果需要完整的训练数据集,或者数据信息是否足以重新创建一个可以测试其与原始模型保真度的模型)以测试该定义。 
  • @jberkus 提出了担忧,关于数据信息的实际评估及其促进 AI 系统重建的能力。他质疑如何在不重新创建 AI 系统的情况下评估数据信息。
  • 实际应用和社区见解
    • @hartmans 提出了 数据信息可能足以修改 AI 模型的实际场景,并建议社区在定义首选修改形式方面的灵活性对于 Debian 来说一直很有价值。
    • @quaid 分享了 他在 OpenVLA 项目研究中的见解,指出其符合 OSAID 要求。他进一步提议进行受控实验,以验证数据信息是否足以高保真地重新创建模型。
  • 一般观察 
  • @shujisado 强调了 AI 中需要灵活的定义,借鉴了开源社区的经验。同意训练数据问题的复杂性,并支持 OSI 在定义首选修改形式方面的灵活方法。
  • @quaid 建议了 评估数据信息及其对于重新创建 AI 模型是否足够的实际方法,并提出了进一步的实验和社区参与,以改进对开源 AI 中数据信息的理解和应用。

我们是在评估许可证还是系统?

  • @jberkus 询问 OSAID 将适用于许可证还是系统,并指出目前的草案侧重于系统。他质疑是否审查系统作为开源或专有的认证计划是预期的方向。
  • @shujisado 确认 讨论正在转向认证 AI 系统,并指向了现有的主题。他强调需要评估 AI 系统的各个组件,并对 OSI 建立认证机制的能力表示担忧,强调这将显著扩大 OSI 的作用。