开源人工智能定义 – 每周更新 2 月 23 日
论坛上有趣话题的每周摘要。
经合组织对“人工智能系统”的定义是否过于宽泛?
核心问题:我们是否需要定义什么是人工智能系统?
- 不,定义人工智能系统对于开源人工智能的定义并不重要,它甚至可能在应用中被证明是有问题的
训练数据访问
核心问题:对于一个模型来说,要成为开源的,我们是否需要“开放”访问其训练数据?
- 是的,为了能够拥有“修改的自由”,我们必须知道模型是用什么数据训练的。
- 不,训练数据和训练后的模型是两种不同的资产,我们不一定需要访问原始数据来修改和专门化
- 但是,我们是否问错了问题? 也许根本问题不是严格地能够复制 LLM 的 PB 级原始训练数据,而是缺乏可用于训练和微调模型的高质量数据集。 这是否是 OSI 应该在定义中解决的问题?
识别人工智能系统的开源“组件”
核心问题:开源人工智能的定义是否应该采取梯度方法(例如 RAIL 许可证的情况),判断模型组件的开放性,而不是整体的开放性? 我们如何在定义过于严格之间取得平衡?
- 是的,我们必须考虑组件的开放性,以确保该定义将保持相关性和适用性。
- 不,定义应该作为一种标准, 得到不同利益相关者的支持。 它应该在工业界、学术界和政策制定中都具有实用性。 因此,它必须是二选一的方法。
值得强调的是,OSI 的意图是制定一个定义,该定义是
- 二元的,一个“系统”要么是开源人工智能,要么不是;并且
- 适用且有用的。 这就是为什么我们正在为候选版本和 1.0 版本寻求广泛认可的原因。 这在市政厅会议中经常被提及。