DeepSeek 计划发布源代码,超越“开放权重”人工智能
Ars Technica目前尚不清楚 DeepSeek 计划的开源版本是否也会包含团队在训练模型时使用的代码。 这种训练代码对于满足开源促进会 (OSI) 对“开源人工智能”的正式定义至关重要,该定义是经过多年的研究于去年最终确定的。 根据 OSI 的说法,一个真正的开放人工智能还必须包括“关于用于训练系统的数据的足够详细的信息,以便技术人员能够构建基本等效的系统”。
目前尚不清楚 DeepSeek 计划的开源版本是否也会包含团队在训练模型时使用的代码。 这种训练代码对于满足开源促进会 (OSI) 对“开源人工智能”的正式定义至关重要,该定义是经过多年的研究于去年最终确定的。 根据 OSI 的说法,一个真正的开放人工智能还必须包括“关于用于训练系统的数据的足够详细的信息,以便技术人员能够构建基本等效的系统”。
在传统软件中,开源和专有软件之间的长期斗争围绕着“开源”的“真正”含义展开。 这可以通过参考开源促进会的正式“定义”来解决,开源促进会是合法开源许可证的行业管理者。 最近,OSI 形成了“开源人工智能”的定义
马富利在一份发给 TechCrunch 的声明中表示:“拥有定义的目的是拥有可以评分的标准,而关注许可正是实现这一目标的方式。” “全球社区和行业已经开始依赖开源定义和现在的开源人工智能定义,将其作为他们可以依赖的客观衡量标准。”
OSI 执行董事斯特凡诺·马富利告诉我。“如果 Meta 的许可证能够取消限制,我们就会更加同步。 就目前而言,Llama 对任何开发者来说都是一种负担; 太过不透明,无法安全使用,而且许可证最终让 Meta 掌控着他们的创新。”
丰塔纳还警告说,在定义开放性方面不要过度,主张最低标准而不是乌托邦式的理想。 “开源定义 (OSD) 之所以有效,是因为它设定的是底线,而不是上限。 人工智能定义应首先关注许可的明确性,而不是用不切实际的透明度要求来 burden 开发者。”
OSI 表示,要使人工智能模型被认为是真正开放的,其开发者必须提供关于其训练数据的详细信息,并赋予人们研究、使用和修改该系统用于任何目的的能力。
虽然 DeepSeek 是“开放的”,但一些细节仍然隐藏在幕后。 DeepSeek 没有披露用于训练其模型的数据集或训练代码。 这是开源社区争论的焦点。 大多数“开放”模型仅提供运行或微调模型所需的模型权重。 完整的训练数据集以及训练中使用的代码仍然是隐藏的。 开源促进会主任斯特凡诺·马富利多次在社交媒体上批评 Meta,称其将 Llama 模型标记为开源的决定是“无耻的谎言”。
虽然有多种说法称 DeepSeek 的人工智能模型是“开源”的,但实际上它并非开源。 虽然模型权重和模型架构都在技术论文中共享,但代码以及训练或评估数据均未公开共享。 开源促进会的一位分析师也证实,Deepseek 不是开源人工智能,不符合开源人工智能定义的 requirements。 它与其他声称是开源的模型一样,但在数据透明度方面的得分很差。
Ai2 完全开放的方法(包括数据、训练代码和模型)确保用户可以轻松地为从数据选择到评估的任何事物定制他们的 pipeline。
开源促进会在多年的规划之后,于 2024 年 10 月推出了其开源人工智能的初步定义,该定义address 四种不同的数据类型,并要求构建和赞助人工智能技术的人员共享他们可以共享的数据,以及模型的参数和用于训练和运行系统的源代码。
开源人工智能模型已得到广泛应用,使世界各地的开发者能够构建定制的人工智能解决方案,并将其托管在他们选择的位置。
根据开源促进会的说法,开源人工智能是“一种人工智能系统,根据条款以某种方式提供,这种方式授予人们自由地将该系统用于任何目的,而无需请求许可,研究系统的工作原理并检查其组件,修改系统以用于任何目的,包括更改其输出,为他人共享系统以供使用,无论是否进行修改,用于任何目的。”