开源大型语言模型登上欧洲数字主权路线图

TechCrunch

在传统软件中,开源和专有软件之间的长期斗争围绕着“开源”的“真正”含义展开。 这可以通过参考开源促进会的正式“定义”来解决,开源促进会是合法开源许可证的行业管理者。 最近,OSI 形成了“开源人工智能”的定义

为什么开源的“精神”比许可证意义更大

TechCrunch

马富利在一份发给 TechCrunch 的声明中表示:“拥有定义的目的是拥有可以评分的标准,而关注许可正是实现这一目标的方式。” “全球社区和行业已经开始依赖开源定义和现在的开源人工智能定义,将其作为他们可以依赖的客观衡量标准。”

为什么马克·扎克伯格如此迫切地想要重新定义开源

ZDNET

OSI 执行董事斯特凡诺·马富利告诉我。“如果 Meta 的许可证能够取消限制,我们就会更加同步。 就目前而言,Llama 对任何开发者来说都是一种负担; 太过不透明,无法安全使用,而且许可证最终让 Meta 掌控着他们的创新。”

红帽对开源人工智能的看法:务实而非乌托邦式的梦想

ZDNET

丰塔纳还警告说,在定义开放性方面不要过度,主张最低标准而不是乌托邦式的理想。 “开源定义 (OSD) 之所以有效,是因为它设定的是底线,而不是上限。 人工智能定义应首先关注许可的明确性,而不是用不切实际的透明度要求来 burden 开发者。”

DeepSeek 对开源人工智能意味着什么

IEEE Spectrum

虽然 DeepSeek 是“开放的”,但一些细节仍然隐藏在幕后。 DeepSeek 没有披露用于训练其模型的数据集或训练代码。 这是开源社区争论的焦点。 大多数“开放”模型仅提供运行或微调模型所需的模型权重。 完整的训练数据集以及训练中使用的代码仍然是隐藏的。 开源促进会主任斯特凡诺·马富利多次在社交媒体上批评 Meta,称其将 Llama 模型标记为开源的决定是“无耻的谎言”。

如果 DeepSeek 想成为真正的颠覆者,它应该在数据透明度方面走得更远

开放数据倡议

虽然有多种说法称 DeepSeek 的人工智能模型是“开源”的,但实际上它并非开源。 虽然模型权重和模型架构都在技术论文中共享,但代码以及训练或评估数据均未公开共享。 开源促进会的一位分析师也证实,Deepseek 不是开源人工智能,不符合开源人工智能定义的 requirements。 它与其他声称是开源的模型一样,但在数据透明度方面的得分很差。

兑现开源人工智能的承诺

The New Stack

开源促进会在多年的规划之后,于 2024 年 10 月推出了其开源人工智能的初步定义,该定义address 四种不同的数据类型,并要求构建和赞助人工智能技术的人员共享他们可以共享的数据,以及模型的参数和用于训练和运行系统的源代码。

DeepSeek 颠覆故事中最大的赢家是开源人工智能

福布斯

根据开源促进会的说法,开源人工智能是“一种人工智能系统,根据条款以某种方式提供,这种方式授予人们自由地将该系统用于任何目的,而无需请求许可,研究系统的工作原理并检查其组件,修改系统以用于任何目的,包括更改其输出,为他人共享系统以供使用,无论是否进行修改,用于任何目的。”