认可开源人工智能定义:让您的组织名称添加到发布候选版本 1 的新闻稿中。
版本 0.0.9
参见检查清单 v. 0.0.9
参见常见问题解答
认可 OSAID
对此文本发表评论
Note: This document follows the definition of AI system adopted by the Organization for Economic and Co-operation Development (OECD)
An AI system is a machine-based system that, for explicit or implicit objectives, infers, from the input it receives, how to generate outputs such as predictions, content, recommendations, or decisions that can influence physical or virtual environments. Different AI systems vary in their levels of autonomy and adaptiveness after deployment.
More information about definitions of AI systems on OSI's blog.
序言
为什么我们需要开源人工智能 (AI)
开源已经证明,在消除学习、使用、共享和改进软件系统的障碍之后,每个人都会获得巨大的好处。这些好处是使用符合开源定义的许可证的结果。对于人工智能,社会需要同样的开源基本自由,使人工智能开发者、部署者和最终用户能够享受同样的好处:自主性、透明度、无摩擦的重用和协作改进。
什么是开源人工智能
当我们提到“系统”时,我们既广义地谈论一个功能齐全的结构,也谈论其离散的结构元素。要被认为是开源的,无论是应用于系统、模型、权重和参数,还是其他结构元素,要求都是相同的。
开源人工智能是以符合以下自由的方式和条款提供的 AI 系统[1]:
- 使用该系统用于任何目的,且无需请求许可。
- 研究该系统的工作原理并检查其组件。
- 修改该系统用于任何目的,包括更改其输出。
- 共享该系统供他人使用,无论是否进行修改,用于任何目的。
这些自由既适用于功能齐全的系统,也适用于系统的离散元素。行使这些自由的先决条件是能够访问对系统进行修改的首选形式。
对机器学习系统进行修改的首选形式
对机器学习系统进行修改的首选形式是:
- 数据信息:关于用于训练系统的数据的足够详细的信息,以便技术人员可以使用相同或相似的数据重新创建基本等效的系统。数据信息应根据符合开源定义的许可证提供。
- 例如,如果使用,这将包括训练方法和技术、使用的训练数据集、关于这些数据集来源、范围和特征的信息、数据是如何获取和选择的、标注程序和数据清理方法。
- 代码: 用于训练和运行系统的源代码,根据 OSI 批准的许可证提供。
- 例如,如果使用,这将包括用于预处理数据的代码、用于训练、验证和测试的代码、支持库(如分词器和超参数搜索代码)、推理代码和模型架构。
- 权重: 模型权重和参数,根据 OSI 批准的条款[2]提供。
- 例如,这可能包括来自关键中间训练阶段的检查点以及最终的优化器状态。
开源模型和开源权重
对于机器学习系统,
- 一个 AI 模型 由模型架构、模型参数(包括权重)和用于运行模型的推理代码组成。
- AI 权重 是覆盖模型架构以从给定输入产生输出的学习参数集。
对机器学习系统进行修改的首选形式也适用于这些单独的组件。“开源模型”和“开源权重”必须包括用于导出这些参数的数据信息和代码。