开源 AI 定义 – 每周更新 5 月 20 日
充满重要问题的一周。
关于 v.0.0.8 草案的总体担忧和建议的修改
一篇由 AWS 开源团队署名的帖子提出了重要问题,阐明了关于“数据信息”概念的分歧。
- 一篇由 AWS 开源团队署名的详细帖子 提出了关于 v0.0.8 草案中数据信息概念 和其他重要主题的担忧。我建议阅读他们的帖子。本周讨论的主要要点是
- 关于训练数据的讨论尚未定论。AWS 开源团队认为,为了使开源 AI 定义有效,用于训练 AI 系统的数据必须包含在内,类似于开源软件中对源代码的要求。他们表示,目前的定义将数据集的包含标记为可选,这损害了透明度和可重复性。
- 他们的建议:在包含实际数据集会带来法律或隐私风险的情况下,使用合成数据。
- 其他一些提议的修改包括
- 要求发布依赖数据集
- 强制要求在开放数据许可证下发布训练、测试、验证和基准数据集,或者在法律限制适用时发布高质量的合成数据。
- 更新 “数据信息” 部分,使数据集发布成为一项要求。
- 防止对输出的限制
- 禁止限制对开源 AI 系统生成的输出的使用、修改或分发。
- 消除可选组件
- 从 OSAID 中移除可选组件,以保持高标准的开放性和透明度。
- 解决组合歧义
- 确保应用于开源 AI 系统中多个组件分发的任何许可证都经过 OSD 批准。
为什么以及如何认证开源 AI
- 来自 AWS 团队的帖子包含一条关于开源 AI 认证过程的评论,该评论 值得单独讨论。有一些待解答的问题
- 究竟是谁需要证明 AI 系统是开源 AI 的认证?
- 谁将使用这种认证?今天部署开放基础模型的任何团队是否认为他们可以使用这种认证?目的是什么?
- 谁将消费认证所携带的信息,为什么以及如何消费?
- 扎基罗利补充说,对 AI 系统进行 OSAID 合规性认证的需求源于定义中固有的歧义,例如 “充分” 和 “高质量等效合成数据集” 等术语。关于合规性的争议将需要一个评判机构,类似于 OSD 的 OSI。虽然管理 OSAID 的判断可能由于潜在的数量而更加复杂,但社区很可能会向 OSI 寻求此类决策。
非开源 AI 的衍生品可以被视为开源 AI 吗?
- 这个问题已在草案文件中提出,并 移至 论坛以获得更高的可见性。在不了解模型初始训练细节的情况下,对模型进行微调在技术上是否可行?是否有成功微调的 AI/ML 系统的例子,其中初始训练数据和技术未知,但微调数据和方法已完全公开?
- Shuji Sado 补充说,微调通常涉及更新新添加层的权重和预训练模型的某些层,但不是所有层,以保持预训练的好处。
- 瓦伦蒂诺·朱迪切 对此点表示担忧,因为存在多种微调策略,允许灵活地更新任何数量现有层中的权重,而无需添加新层。即使更新整个网络也可能是有益的,因为它利用了预训练模型的信息,并且可能比从头开始训练新模型更有效。微调可以稍微调整模型的性能或行为,有效地整合新数据。
请注意,特别是如果您在该领域有知识,我们很乐意听到更多想法!