版本 0.0.6
Note: This document is made of three parts: A preamble, stating the intentions of this document; the Definition of Open Source AI itself; and a checklist to evaluate licenses.
This document follows the definition of AI system adopted by the Organization for Economic and Co-operation Development (OECD)
An AI system is a machine-based system that, for explicit or implicit objectives, infers, from the input it receives, how to generate outputs such as predictions, content, recommendations, or decisions that can influence physical or virtual environments. Different AI systems vary in their levels of autonomy and adaptiveness after deployment.
More information about definitions of AI systems on OSI’s blog.
序言
为什么我们需要开源人工智能 (AI)
开源已经证明,当您消除学习、使用、共享和改进软件系统的障碍时,每个人都会获得巨大的好处。这些好处是使用遵守开源定义的许可证的结果。这些好处可以概括为自主性、透明性和协作改进。
每个人都需要人工智能领域的这些好处。我们需要基本的自由,以使用户能够构建和部署可靠且透明的人工智能系统。
超出范围的问题
开源人工智能定义没有说明如何开发和部署符合道德、可信赖或负责任的人工智能系统,尽管它并没有阻止这样做。关于负责任地开发、部署和使用人工智能系统(包括通过适当的政府监管)的讨论是另一个独立的话题。
什么是开源人工智能
开源人工智能是指根据授予以下自由的条款向公众开放的人工智能系统
- 使用 该系统用于任何目的,无需请求许可。
- 研究 系统如何工作并检查其组件。
- 修改 系统用于任何目的,包括更改其输出。
- 共享 该系统供他人使用,无论是否进行修改,用于任何目的。
行使这些自由的前提条件是能够访问修改系统的首选形式。对于机器学习系统,这意味着可以公开访问
- 数据:关于系统如何训练的足够详细的信息,包括训练方法和技术、使用的训练数据集、关于这些数据集来源、范围和特征的信息;数据是如何获取和选择的,标签程序和数据清理方法。
- 代码:用于预处理数据的代码、用于训练、验证和测试的代码、支持库(如分词器和超参数搜索代码(如果使用))、推理代码和模型架构。
- 模型:模型参数,包括权重。在适用的情况下,这些应包括来自训练关键中间阶段的检查点以及最终优化器状态。
评估法律文件的清单
此表格正在制作中。有关更多详细信息,请参阅 1 月 26 日市政厅会议的幻灯片 7。
必需组件 | 法律框架 |
---|---|
代码 | |
– 数据预处理 | 在符合 OSI 标准的许可证下可用 |
– 训练、验证和测试 | 在符合 OSI 标准的许可证下可用 |
– 推理代码 | 在符合 OSI 标准的许可证下可用 |
– 支持库和工具 | 在符合 OSI 标准的许可证下可用 |
模型 | |
– 模型架构 | 在符合 OSI 标准的许可证下可用 |
– 模型参数(包括权重) | 将在下一阶段定义 |
以下组件不是必需的,但我们赞赏在公开发布中包含这些组件。
可选组件 |
---|
– 用于执行基准测试推理的代码 |
– 评估代码 |
数据 所有数据集,包括 |
– 训练数据集 |
– 测试数据集 |
– 验证数据集 |
– 基准测试数据集 |
– 数据卡 |
– 评估指标和结果 |
– 所有其他数据文档 |
模型 所有模型元素,包括 |
– 模型卡 |
– 示例模型输出 |
其他 任何其他已生成或使用的文档或工具,包括 |
– 深入的研究论文 |
– 使用文档 |
– 技术报告 |
– 支持工具 |