开源人工智能定义 – 每周更新,6月17日
解释数据信息的概念
- 在就训练数据进行大量辩论之后,@stefano 发布了对已表达立场的总结以及对 v.0.0.8 草案中包含的术语的一些澄清。 您可以阅读关于它的理由,并在论坛上分享您的想法。
- 初步想法
- @Senficon (Felix Reda) 补充说,虽然讨论突出了数据信息的重要性,但至关重要的是要理解版权法对人工智能的影响,特别是关于访问训练数据方面。 开源软件依赖于法律要素(版权许可证)和访问要素(源代码的可用性)。 然而,这种框架不能无缝地应用于人工智能,因为不同的版权制度允许为人工智能训练进行文本和数据挖掘 (TDM),但不允许数据集的再分发。 这种差异意味着,尽管 TDM 例外促进了人工智能的发展,但要求发布训练数据集将使开源人工智能模型变为非法。 此外,公共领域状态在国际上并不一致,这使得创建合法可发布的数据集变得复杂。 因此,对开源人工智能的定义如果强制要求发布数据集,将阻碍协作改进并限制实际意义。 强调数据创新可以帮助在没有法律陷阱的情况下维护开源原则。
关于锚定模型开放框架的担忧和反馈
- @amcasari 表达了对“模型开放框架” (MOF) 在识别人工智能系统方面的可用性和中立性的担忧,认为它与当前的行业实践不太吻合,并且在没有进一步的反馈和迭代之前,尚未准备好进行实际应用。
- @shujisado 指出,MOF 对组件的分类不依赖于应用的特定知识产权法,而是依赖于一般的法律框架,并强调日本的知识产权法律体系与美国和欧盟不同,但发现基于 OSD 的讨论是一致的。
- @stefano 强调在开源人工智能定义文档中拥有经过深思熟虑、永恒的原则的重要性,同时将清单视为更频繁更新的工作文档。 他还支持查看框架实际应用示例的呼吁,并建议将清单与主要文档分开以减少混淆。
关于定义验证的初步报告
- 已发布对十一个不同人工智能系统的审查。 我们进行这些审查是为了检查现有系统与我们当前定义的兼容性。 这些是正在审查的系统:Arctic、BLOOM、Falcon、Grok、Llama 2、Mistral、OLMo、OpenCV、Phy-2、Pythia 和 T5。
- @mer 应 @merlijn-sebrechts 的请求,为 Viking 模型设置了审查表。
- @anatta8538 询问 MLOps 是否被考虑在模型开放框架的主题之内,以及 CLIP(一个 LMM)是否与 OSAID 一致。
- @nick 澄清说,评估侧重于模型开放框架中描述的组件,其中包括开发和部署方面,但不包括整个 MLOps。
为什么以及如何认证开源人工智能
- @Alek_Tarkowski 认为,根据《人工智能法案》,开源人工智能的认证将至关重要,并强调了定义什么是开源许可证的重要性。 他指出,围绕“自由和开源许可证”等术语存在混淆,并建议需要解决负责任的人工智能许可作为开源许可的一种形式的问题。 他指出,一些限制性许可证正在受到关注,可能需要考虑免于监管,因此敦促达成共识。
开源人工智能定义市政厅会议 – 2024年6月14日
我们上次市政厅会议的幻灯片和录音可以在这里找到。