开源人工智能定义 – 1.0 – 开源促进会

序言

开源已经证明，在消除学习、使用、分享和改进软件系统障碍之后，每个人都能获得巨大的好处。这些好处是使用遵守开源定义的许可协议的结果。对于人工智能，社会至少需要与开源相同的基本自由，以使人工智能开发者、部署者和最终用户能够享受同样的益处：自主性、透明度、无摩擦的重用和协作改进。

当我们提到“系统”时，我们指的是一个完全功能化的结构及其离散的结构元素。要被认为是开源的，无论应用于系统、模型、权重和参数或其他结构元素，要求都是相同的。

一个 开源人工智能 是一个人工智能系统，根据条款以某种方式提供，从而授予以下自由¹ 以

这些自由既适用于完全功能化的系统，也适用于系统的离散元素。行使这些自由的前提是能够访问对系统进行修改的首选形式。

对机器学习系统进行修改的首选形式必须包括以下所有要素

数据信息： 关于用于训练系统的数据的足够详细的信息，以便技术人员可以构建基本等效的系统。数据信息应根据 OSI 批准的条款提供。
- 特别是，这必须包括：（1）用于训练的所有数据的完整描述，包括（如果使用）不可共享的数据，披露数据的来源、范围和特征、数据的获取和选择方式、标记程序以及数据处理和过滤方法；（2）所有公开可用的训练数据的列表以及在哪里获取；以及（3）所有可从第三方获得的训练数据的列表以及在哪里获取，包括付费获取。
代码： 用于训练和运行系统的完整源代码。代码应代表如何处理和过滤数据以及如何完成训练的完整规范。代码应根据 OSI 批准的许可协议提供。
- 例如，如果使用，这必须包括用于处理和过滤数据的代码、用于训练的代码，包括使用的参数和设置、验证和测试、支持库（如分词器和超参数搜索代码）、推理代码和模型架构。
参数： 模型参数，例如权重或其他配置设置。参数应根据 OSI 批准的条款提供。
- 例如，这可能包括来自训练关键中间阶段的检查点以及最终优化器状态。

应用于这些要素以及它们的任何组合的许可或其他条款可能包含条件，要求任何修改后的版本都以与原始版本相同的条款发布。

对于机器学习系统，

对机器学习系统进行修改的首选形式也适用于这些单独的组件。“开源模型”和“开源权重”必须包括用于导出这些参数的数据信息和代码。

开源人工智能定义不要求特定的法律机制来保证模型参数对所有人免费可用。它们可能是本质上免费的，或者可能需要许可证或其他法律文书来确保它们的自由。我们预计随着时间的推移，一旦法律系统有更多机会处理开源人工智能系统，这一点将变得更加清晰。

人工智能系统²：人工智能系统是一种基于机器的系统，为了明确或隐含的目标，它从接收到的输入中推断出如何生成输出，例如可以影响物理或虚拟环境的预测、内容、建议或决策。不同的人工智能系统在部署后的自主性和适应性水平上有所不同。
机器学习³：是一组技术，允许机器提高其性能，通常通过暴露于训练数据以自动化方式生成模型，这可以帮助识别模式和规律性，而不是通过来自人类的明确指令。使用机器学习技术提高系统性能的过程称为“训练”。