开源人工智能定义 – 草案 v. 0.0.8

版本 0.0.8

为此文本留下评论

Note: This document is made of three parts: A preamble, stating the intentions of this document; the Definition of Open Source AI itself; and a checklist to evaluate legal documents.

This document follows the definition of AI system adopted by the Organization for Economic and Co-operation Development (OECD)

An AI system is a machine-based system that, for explicit or implicit objectives, infers, from the input it receives, how to generate outputs such as predictions, content, recommendations, or decisions that can influence physical or virtual environments. Different AI systems vary in their levels of autonomy and adaptiveness after deployment.

More information about definitions of AI systems on OSI's blog.

序言

为什么我们需要开源人工智能 (AI)

开源已经证明,当您消除学习、使用、共享和改进软件系统的障碍时,每个人都会获得巨大的好处。 这些好处是使用遵守开源定义的许可证的结果。 这些好处可以概括为自主性、透明度、无摩擦的重用和协作改进。

每个人都需要人工智能方面的这些好处。 我们需要基本的自由来使用户能够构建和部署可靠且透明的人工智能系统。

什么是开源人工智能

开源人工智能是指根据以下条款提供的 AI 系统,这些条款授予以下自由:

  • 使用 该系统用于任何目的,无需请求许可。
  • 研究 该系统的工作原理并检查其组件。
  • 修改 该系统用于任何目的,包括更改其输出。
  • 分享 该系统供他人使用,无论是否进行修改,用于任何目的。

行使这些自由的前提条件是能够访问对系统进行修改的首选形式。

机器学习开源人工智能进行修改的首选形式必须包括

  • 数据信息:关于用于训练系统的数据的足够详细的信息,以便熟练人员可以使用相同或相似的数据重新创建基本等效的系统。
    • 例如,如果使用,这将包括训练方法和技术、使用的训练数据集、关于这些数据集的来源、范围和特征的信息、数据的获取和选择方式、标记程序和数据清理方法。
  • 代码:用于训练和运行系统的源代码。
    • 例如,如果使用,这将包括用于预处理数据的代码、用于训练、验证和测试的代码、支持库(如分词器和超参数搜索代码)、推理代码和模型架构。
  • 模型:模型参数。
    • 例如,这可能包括来自关键中间训练阶段的检查点以及最终的优化器状态。
This checklist is based on the paper The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency and Usability in AI published Mar 21, 2024.

默认必需组件表

必需组件法律框架
数据信息
– 训练方法和技术根据符合 OSD 的许可证提供
– 训练数据范围和特征根据符合 OSD 的许可证提供
– 训练数据来源(包括数据的获取和选择方式)根据符合 OSD 的许可证提供
– 训练数据标记程序(如果使用)根据符合 OSD 的许可证提供
– 训练数据清理方法根据符合 OSD 的许可证提供
代码
– 数据预处理根据 OSI 批准的许可证提供
– 训练、验证和测试根据 OSI 批准的许可证提供
– 推理根据 OSI 批准的许可证提供
– 支持库和工具根据 OSI 批准的许可证提供
模型
– 模型架构根据 OSI 批准的许可证提供
– 模型参数根据符合 OSD 的条款提供

以下组件不是作为进行修改的首选形式所必需的,但欢迎在发布版本中包含它们。

可选组件法律框架
数据信息 所有数据集,包括根据符合 OSD 的许可证提供
– 训练数据集根据符合 OSD 的许可证提供
– 测试数据集根据符合 OSD 的许可证提供
– 验证数据集根据符合 OSD 的许可证提供
– 基准测试数据集根据符合 OSD 的许可证提供
– 数据卡根据符合 OSD 的许可证提供
– 评估数据根据符合 OSD 的许可证提供
– 评估结果根据符合 OSD 的许可证提供
– 其他数据文档根据符合 OSD 的许可证提供
代码
– 用于执行基准测试推理的代码根据 OSI 批准的许可证提供
– 评估代码根据 OSI 批准的许可证提供
模型 所有模型元素,包括
– 模型卡根据符合 OSD 的许可证提供
– 示例模型输出根据符合 OSD 的许可证提供
– 模型元数据根据符合 OSD 的许可证提供
其他 任何其他已生成或使用的文档或工具,包括
– 研究论文根据符合 OSD 的许可证提供
– 技术报告根据符合 OSD 的许可证提供

为此文本留下评论