版本 0.0.7.1
Note: This document is made of three parts: A preamble, stating the intentions of this document; the Definition of Open Source AI itself; and a checklist to evaluate legal documents.
This document follows the definition of AI system adopted by the Organization for Economic and Co-operation Development (OECD):
An AI system is a machine-based system that, for explicit or implicit objectives, infers, from the input it receives, how to generate outputs such as predictions, content, recommendations, or decisions that can influence physical or virtual environments. Different AI systems vary in their levels of autonomy and adaptiveness after deployment.
More information about definitions of AI systems on OSI’s blog.
序言
为什么我们需要开源人工智能 (AI)
开源已经证明,当你消除学习、使用、分享和改进软件系统的障碍时,每个人都会获得巨大的好处。这些好处是使用符合开源定义的许可的结果。这些好处可以概括为自主性、透明性和协作改进。
每个人在人工智能领域都需要这些好处。我们需要必要的自由,以使用户能够构建和部署可靠且透明的人工智能系统。
超出范围的问题
开源人工智能定义没有说明如何开发和部署符合道德、可信或负责任的人工智能系统,尽管它并不阻止这样做。讨论负责任地开发、部署和使用人工智能系统(包括通过适当的政府监管)的努力是另一个话题。
什么是开源人工智能
开源人工智能是指根据授予以下自由的条款提供的 AI 系统:
- 使用 该系统用于任何目的,而无需请求许可。
- 研究 系统如何工作并检查其组件。
- 修改 系统用于任何目的,包括更改其输出。
- 分享 系统供他人使用,无论是否经过修改,用于任何目的。
行使这些自由的前提条件是能够访问对系统进行修改的首选形式。
评估机器学习系统的清单
This checklist is based on the paper The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency and Usability in AI published Mar 21, 2024.
对机器学习系统进行修改的首选形式
机器学习开源人工智能所需的默认组件集是
- 数据透明度:关于系统如何训练的足够详细的信息。这可能包括训练方法和技术、使用的训练数据集、关于这些数据集的来源、范围和特征的信息;数据如何获得和选择、标记程序和数据清理方法。
- 代码:用于预处理数据的代码、用于训练、验证和测试的代码、支持库(如分词器和超参数搜索代码,如果使用)、推理代码和模型架构。
- 模型:模型参数,包括权重。在适用的情况下,这些应包括来自训练关键中间阶段的检查点以及最终优化器状态。
默认必需组件表
必需组件 | 法律框架 |
---|---|
代码 | |
– 数据预处理 | 在符合 OSI 标准的许可下可用 |
– 训练、验证和测试 | 在符合 OSI 标准的许可下可用 |
– 推理代码 | 在符合 OSI 标准的许可下可用 |
– 支持库和工具 | 在符合 OSI 标准的许可下可用 |
模型 | |
– 模型架构 | 在符合 OSI 标准的许可下可用 |
– 模型参数(包括权重) | 在符合开源原则的条款下可用 |
数据透明度 | |
– 训练方法和技术 | 在符合 OSI 标准的许可下可用 |
– 训练数据范围和特征 | 在符合 OSI 标准的许可下可用 |
– 训练数据来源(包括数据如何获取和选择) | 在符合 OSI 标准的许可下可用 |
– 训练数据标记程序(如果使用) | 在符合 OSI 标准的许可下可用 |
– 训练数据清理方法 | 在符合 OSI 标准的许可下可用 |
以下组件不是必需的,但我们感谢在公开发布中包含它们。
可选组件 |
---|
代码 |
– 用于执行基准测试推理的代码 |
– 评估代码 |
数据 所有数据集,包括 |
– 训练数据集 |
– 测试数据集 |
– 验证数据集 |
– 基准测试数据集 |
– 数据卡 |
– 评估指标和结果 |
– 所有其他数据文档 |
模型 所有模型元素,包括 |
– 模型卡 |
– 示例模型输出 |
其他 任何其他已生产或使用的文档或工具,包括 |
– 详尽的研究论文 |
– 使用文档 |
– 技术报告 |
– 支持工具 |