开源 AI 定义 – 每周更新 6 月 24 日
解释数据信息的概念
继 @stefano 关于 OSI 为何在 开源 AI 定义 的清单中将训练数据视为“可选”的出版物之后,辩论仍在继续。以下是主要观点
- 首选修改形式
- @hartmans 表示,就“首选修改形式”的含义达成一致取决于用户的目标。分歧可能源于对与开源 AI 相关的自由的优先排序不同,尽管他们强调优先考虑 模型权重 以进行实际修改。他建议,数据信息可能比原始数据更有利于理解模型,并敦促在 AI 定义中保持灵活性。
- @shujisado 强调,机器学习模型的训练数据是一种首选的修改形式,但质疑它是否是最首选的形式。他进一步强调,在 AI 中需要对首选修改形式进行灵活的定义。
- @quaid 支持 进行受控实验的想法,以确定仅数据信息是否足以准确地重新创建 AI 模型。建议了测试数据信息有效性的实际步骤,并鼓励社区参与此类实验。
- @jberkus 提出了担忧,关于数据信息的实际评估及其促进 AI 系统重建的能力。他质疑如何在不重新创建 AI 系统的情况下评估数据信息。
- 实际应用和社区见解
- 一般观察
- @shujisado 强调了 AI 中需要灵活的定义,借鉴了开源社区的经验。同意训练数据问题的复杂性,并支持 OSI 在定义首选修改形式方面的灵活方法。
- @quaid 建议了 评估数据信息及其对于重新创建 AI 模型是否足够的实际方法,并提出了进一步的实验和社区参与,以改进对开源 AI 中数据信息的理解和应用。