认可开源人工智能定义:让您的组织名称添加到宣布 1.0 版本的 press release 中
版本 1.0-RC1
查看常见问题解答
查看认可列表
认可 OSAID
对此文本发表评论
序言
为什么我们需要开源人工智能 (AI)
开源已经证明,在消除学习、使用、共享和改进软件系统的障碍之后,每个人都获得了巨大的好处。这些好处是使用符合开源定义的许可证的结果。对于人工智能,社会至少需要与开源相同的基本自由,使人工智能开发者、部署者和最终用户能够享受同样的益处:自主性、透明度、无摩擦的重用和协作改进。
什么是开源人工智能
当我们提到“系统”时,我们既指完全功能化的结构,也指其离散的结构要素。要被认为是开源的,无论是应用于系统、模型、权重和参数,还是其他结构要素,要求都是相同的。
一个开源人工智能 是指根据条款并以某种方式提供的 AI 系统,这些条款和方式授予以下自由1 给
- 使用 该系统用于任何目的,无需请求许可。
- 研究 该系统如何工作并检查其组件。
- 修改 该系统用于任何目的,包括更改其输出。
- 共享 该系统供他人使用,无论是否经过修改,用于任何目的。
这些自由既适用于完全功能化的系统,也适用于系统的离散要素。行使这些自由的前提条件是能够访问对系统进行修改的首选形式。
修改机器学习系统的首选形式
修改机器学习系统的首选形式必须包括以下所有要素
- 数据信息:关于用于训练系统的数据的足够详细的信息,以便熟练人员能够构建基本等效的系统。数据信息应根据 OSI 批准的条款提供。
- 特别是,这必须包括:(1)所有用于训练的数据的详细描述,包括(如果使用)不可共享的数据,披露数据的来源、范围和特征、数据的获取和选择方式、标记程序和数据清理方法;(2)所有公开可用的训练数据的列表以及获取地点;以及(3)所有可从第三方获得的训练数据的列表以及获取地点,包括付费获取。
- 代码:用于训练和运行系统的完整源代码。代码应代表数据信息如何处理以及训练如何完成的完整规范。代码应根据 OSI 批准的许可证提供。
- 例如,如果使用,这必须包括用于预处理数据的代码、用于训练的代码,包括使用的参数和设置、验证和测试、支持库(如分词器和超参数搜索代码)、推理代码和模型架构。
- 参数:模型参数,例如权重或其他配置设置。参数应根据 OSI 批准的条款提供2。
- 例如,这可能包括来自关键中间训练阶段以及最终优化器状态的检查点。
应用于这些要素及其任何组合的许可或其他条款可能包含要求任何修改版本都以与原始版本相同的条款发布的条件。
开源模型和开源权重
对于机器学习系统,
- 一个人工智能模型 由模型架构、模型参数(包括权重)和用于运行模型的推理代码组成。
- 人工智能权重 是覆盖模型架构以从给定输入产生输出的一组学习参数。
修改机器学习系统的首选形式也适用于这些单独的组件。“开源模型”和“开源权重”必须包括用于推导这些参数的数据信息和代码。
定义
- 人工智能系统3:人工智能系统是一种基于机器的系统,为了明确或隐含的目标,从其接收的输入中推断出如何生成输出,例如可以影响物理或虚拟环境的预测、内容、建议或决策。不同的人工智能系统在部署后的自主性和适应性水平上有所不同。
- 机器学习4:是一组技术,允许机器提高其性能,通常通过暴露于训练数据以自动化方式生成模型,这可以帮助识别模式和规律,而不是通过来自人类的明确指令。使用机器学习技术改进系统性能的过程称为“训练”。
- 这些自由源自 自由软件定义。 ↩︎
- 开源人工智能定义不对模型参数是否需要许可证或任何其他法律文书,以及一旦披露和共享,它们是否可以受到任何此类文书的法律控制采取任何立场。 ↩︎
- 经济合作与发展组织(OECD)关于人工智能 OECD/LEGAL/0449 的理事会建议,2024 年 ↩︎
- 关于经合组织人工智能系统更新定义的解释性备忘录,经合组织人工智能论文,第 8 号,经合组织出版社,巴黎 ↩︎