支持开源人工智能定义: 让您的组织名称添加到版本 1.0 的新闻稿中
版本 1.0-RC2
查看常见问题解答
查看支持者列表
支持 OSAID
对此文本发表评论
序言
为什么我们需要开源人工智能(AI)
开源已经证明,在消除学习、使用、共享和改进软件系统的障碍后,每个人都能获得巨大的好处。这些好处是使用符合开源定义的许可的结果。对于人工智能,社会至少需要开源的相同基本自由,以使人工智能开发者、部署者和最终用户能够享受相同的益处:自主性、透明度、无摩擦的重用和协作改进。
什么是开源人工智能
当我们提到“系统”时,我们既广泛地指代一个功能完整的结构,也指代其离散的结构元素。要被认为是开源的,无论应用于系统、模型、权重和参数或其他结构元素,要求都是相同的。
一个 开源人工智能 是指在条款和方式下提供的 AI 系统,这些条款和方式赋予以下自由1 :
- 使用 该系统用于任何目的,无需请求许可。
- 研究 系统的工作原理并检查其组件。
- 修改 系统以用于任何目的,包括更改其输出。
- 共享 系统供他人使用,无论是否进行修改,出于任何目的。
这些自由既适用于功能完整的系统,也适用于系统的离散元素。行使这些自由的前提条件是能够访问进行系统修改的首选形式。
修改机器学习系统的首选形式
修改机器学习系统的首选形式必须包括以下所有要素
- 数据信息: 关于用于训练系统的数据的足够详细的信息,以便熟练的人员可以构建基本等效的系统。数据信息应根据 OSI 批准的条款提供。
- 特别是,这必须包括:(1)用于训练的所有数据的完整描述,包括(如果使用)不可共享的数据,披露数据的来源、范围和特征,数据是如何获取和选择的,标记程序,以及数据处理和过滤方法;(2)所有公开可用的训练数据的列表以及获取地点;以及(3)所有可从第三方获得的训练数据的列表以及获取地点,包括付费的。
- 代码: 用于训练和运行系统的完整源代码。代码应代表数据如何处理和过滤以及如何进行训练的完整规范。代码应根据 OSI 批准的许可提供。
- 例如,如果使用,这必须包括用于处理和过滤数据的代码,用于训练的代码,包括使用的参数和设置,验证和测试,支持库(如分词器和超参数搜索代码),推理代码和模型架构。
- 参数: 模型参数,例如权重或其他配置设置。参数应根据 OSI 批准的条款提供。
- 例如,这可能包括训练关键中间阶段的检查点以及最终的优化器状态。
应用于这些要素及其任何组合的许可或其他条款可能包含要求任何修改版本以与原始版本相同的条款发布的条件。
开源模型和开源权重
对于机器学习系统,
- 一个 AI 模型 由模型架构、模型参数(包括权重)和用于运行模型的推理代码组成。
- AI 权重 是覆盖模型架构以从给定输入产生输出的一组学习参数。
修改机器学习系统的首选形式也适用于这些单独的组件。“开源模型”和“开源权重”必须包括用于导出这些参数的数据信息和代码。
开源人工智能定义不要求特定的法律机制来确保模型参数对所有人免费可用。它们可能本质上是免费的,或者可能需要许可或其他法律文书来确保它们的自由。我们预计随着时间的推移,一旦法律系统有更多机会处理开源人工智能系统,这一点将变得更加清晰。
定义
- 人工智能系统2:人工智能系统是一种基于机器的系统,出于明确或隐含的目标,从接收到的输入中推断出如何生成输出,例如预测、内容、建议或决策,这些输出可以影响物理或虚拟环境。不同的人工智能系统在部署后的自主性和适应性水平上有所不同。
- 机器学习3:是一组技术,允许机器提高其性能,并且通常通过暴露于训练数据以自动化方式生成模型,这有助于识别模式和规律,而不是通过来自人类的明确指令。使用机器学习技术提高系统性能的过程被称为“训练”。
- 这些自由源自自由软件定义。 ↩︎
- 经合组织理事会关于人工智能的建议 OECD/LEGAL/0449,经济合作与发展组织 (OECD),2024 年 ↩︎
- 关于更新后的经合组织人工智能系统定义的解释性备忘录,经合组织人工智能论文,第 8 号,经合组织出版社,巴黎 ↩︎