开源人工智能定义 – 每周更新 5 月 6 日
定义验证:招募志愿者
该过程已进入新阶段:我们现在正在招募志愿者来验证开源人工智能定义,使用它来审查现有的人工智能系统。此阶段的目标是确认该定义按预期工作,并了解其失败之处。
- 提供了一个电子表格,您可以在其中找到并链接到许可证、研究论文或其他文档,这些文档授予权利或为每个必需组件提供信息。
- 系统包括但不限于
- Arctic
- BLOOM
- Falcon
- Grok
- Llama 2
- Mistral
- OLMo
- OpenCV
- Phi-2
- Pythia
- T5
- 如需在 5 月 20 日前自愿参与,请在论坛上联系 Mer
收到的关于定义草案的评论摘要
- 语法和措辞更正
- 提出了一些小的语法建议。这些建议稍微改变和调整了布局,但总体信息保持不变。
- 一位用户建议在“序言”和“为什么我们需要开源人工智能”下解释什么是开源。该部分不应谈论为什么开源很重要,而应介绍它是什么以及为什么它对人工智能很重要。
- 在“修改机器学习系统的首选形式”和“数据信息”下,需要澄清关于“使用的训练数据集”。目前尚不清楚这是否意味着所有训练数据都必须是开源的,整个模型才是开源的。
- Stefano Maffulli 在此补充说,目的是了解使用了什么数据集,而不是必须使其可用,并且这确实似乎需要澄清
- 技术要点
- 在“修改机器学习系统的首选形式”下,检查点的发布被提及为必需组件的一个示例,在“模型参数”下。有人提出反对意见,认为这造成了不必要的负担:这就像要求软件成为开源软件,就必须包含该程序的过往版本。
- Maffulli 重申这只是一个例子,但这可能需要提交到常见问题解答页面
- “修改机器学习系统的首选形式”和“数据信息”,在需要关于用于创建模型的训练数据的充分信息的背景下,提到了“技术人员”。有人质疑为什么技能与获取数据有关
- Maffulli 给出了澄清,指出这是在获取关于数据的信息的背景下,以便“技术人员”可以使用、研究、共享和修改人工智能系统。
- 一位用户建议,可以通过更改措辞“技术人员可以重建”的语境来解决这种混淆。从“使用相同或相似的数据”改为“如果能够访问相同或相似的数据”。
- 一位用户指出,“技术人员”作为专利法中使用的法律术语可能不合适,因为它在不同的国家/地区具有不同的法律含义和先例。
- 在“修改机器学习系统的首选形式”下,检查点的发布被提及为必需组件的一个示例,在“模型参数”下。有人提出反对意见,认为这造成了不必要的负担:这就像要求软件成为开源软件,就必须包含该程序的过往版本。
- 关于为什么我们特别关注机器学习 (ML) 作为人工智能系统的讨论
市政厅会议公告
- 第 9 次市政厅会议于 5 月 3 日举行。如果您错过了会议,请点击此处访问录音!