OSI 参加 PyCon US 大会:在我们即将发布 OSAID 首个候选版本之际,与 AI 从业者和开发者互动交流
作为开放源代码人工智能定义 巡回宣传 的一部分,并且在我们接近 草案 的首个候选版本之际,开放源代码促进会 (OSI) 参加了 PyCon US 2024,这是 Python 社区的年度聚会。这次机会非常重要,因为 PyCon US 汇集了人工智能从业者和开发者,听取他们关于构成开源人工智能的意见具有最重要的价值。OSI 在那里组织了一个研讨会并设立了社区展位。
OSAID 研讨会:汇编常见问题解答,使定义清晰易懂
OSI 与多个利益相关者共同启动了一个协同设计流程,以制定开放源代码人工智能定义 (OSAID)。此过程由 梅尔·乔伊斯(协同设计专家和协调员)以及 OSI 执行董事 斯特凡诺·马富利 领导。
在 PyCon US 大会上组织的研讨会上,梅尔概述了迄今为止的协同设计流程,总结如下。
协同设计流程的第一步是确定开源人工智能所需的自由。经过各种 线上和线下活动 以及 讨论,包括在世界各地举办的五个研讨会,社区确定了四项自由
- 使用 该系统用于任何目的,无需请求许可。
- 研究 该系统的工作原理并检查其组件。
- 修改 该系统用于任何目的,包括更改其输出。
- 分享 该系统供他人使用,无论是否经过修改,用于任何目的。
下一步是成立四个工作组,初步分析四个人工智能系统。为了实现更好的代表性,特别关注了多样性、公平性和包容性。超过 50% 的工作组成员是有色人种,30% 是黑人,75% 出生于美国境外,25% 是女性、跨性别者和非二元性别者。
这些工作组讨论并投票决定了哪些人工智能系统组件应满足人工智能的四项自由。我们采纳的组件在 Linux 基金会开发的 模型开放框架 中进行了描述。
投票结果的汇编基于每个组件的平均总票数 (μ)。获得超过 2μ 票数的组件被标记为必需组件,获得 1.5μ 至 2μ 票数的组件被标记为可能必需组件。获得 0.5μ 至 μ 票数的组件被标记为可能非必需组件,获得少于 0.5μ 票数的组件被标记为非必需组件。
工作组评估了每个组件的法律框架和法律文件。最后,每个工作组发布了一份建议报告。最终结果是 OSAID,其中包含一个全面的定义清单,共包含 17 个组件。正在组建更多的工作组,以评估其他人工智能系统与该定义的契合程度。

在概述了协同设计流程之后,梅尔继续组织了一项参与者练习,以汇编常见问题解答。
研讨会上提出的问题围绕以下主题展开
- 最终用户理解:人工智能系统与开源软件有何不同?作为最终用户,为什么他们应该关心人工智能系统是否开源?
- 数据集:为什么数据本身不是必需的?开源人工智能数据集是否应该被要求证明符合版权?如何在没有数据的情况下审计这些系统的偏差?数据出处和数据标记意味着什么?
- 模型:如何强制执行模型参数的正确归属?由一位作者训练然后由另一位作者“微调”的模型参数的所有权/归属是什么?
- 代码:仅包含源代码(没有数据信息或 模型权重)的项目是否仍然可以使用常规开源许可证(MIT、Apache 等)?
- 治理:对于特定的人工智能,谁来决定关于训练、数据集、过程等提供的信息是否“充分”,以及如何决定?
- OSAID 的采用:人们/公司采用此标准的激励措施是什么?
- 法律效力:OSAID 是否应该具有法律效力?
研讨会上提出的这些问题和答案对于增强现有的 常见问题解答 非常重要,该常见问题解答将与 OSAID 一起提供。

社区展位:收集关于“解锁 OSAID”可视化的反馈
在社区展位,OSI 举办了两项活动,以吸引对开源人工智能感兴趣的参与者。第一项活动是由 OSI 项目协调员 艾瑞尔·乔洛 开发的测验,以评估参与者对 Python 和 AI/ML 的知识。在了解了他们的技能后,我们继续进行第二项也是主要活动,即收集关于 OSAID 的反馈,使用一种新颖的方式来可视化不同的人工智能系统如何与当前的草案定义相匹配,如下所述。
让不同的利益相关者轻松可视化人工智能系统是否符合 OSAID 是一项挑战,尤其是在涉及到如此多的组件的情况下。这就是我们命名的可视化概念“解锁 OSAID”的由来。
OSI 锁孔是一个广为人知的标志,代表着解锁使用、研究、修改和共享软件自由的源代码。通过 解锁 OSAID,我们沿用了相同的理念,但现在是针对人工智能系统。我们展示了三个锁孔,分别代表这 17 个组件所属的三个领域:代码、模型和数据信息。
以下是代表“代码锁孔”的图像,其中包含解锁 OSAID 所需的组件

在内环上,我们有解锁 OSAID 所需的组件,而在外环上,我们有可选组件。所需的代码组件是:库和工具;推理;训练、验证和测试;数据预处理。可选组件是:用于基准测试和评估代码的推理。
为了完全解锁 OSAID,人工智能系统必须拥有代码、模型和数据信息的所有必需组件。为了更好地理解“解锁 OSAID”可视化的工作原理,让我们看看两个假设的人工智能系统:示例 1 和示例 2。
让我们从查看示例 1(红色)开始,看看该系统是否解锁了 OSAID 的代码部分

示例 1 仅提供推理代码,因此钥匙(红色)“不适合”代码锁孔(绿色)。
现在让我们看看示例 2(蓝色)

示例 2 提供了所有必需的组件(以及更多组件),因此钥匙(蓝色)适合代码锁孔(绿色)。因此,示例 2 解锁了 OSAID 的代码部分。为了将示例 2 视为开源人工智能,它还必须解锁 OSAID 的模型和数据信息部分:


我们收到了参与者关于“解锁 OSAID”可视化的良好反馈。一旦参与者掌握了锁孔的概念以及哪些组件是必需的或可选的,就很容易识别人工智能系统是否解锁了 OSAID。他们可以直观地看到钥匙是否适合锁孔。如果所有钥匙都适合,那么该人工智能系统就符合 OSAID。
最终想法:与社区互动并推广开源原则
对我而言,PyCon US 大会的亮点是终于有机会与 OSI 和 Python 社区的新老朋友们面对面交流。我与黛布·尼科尔森(Python 软件基金会)、汉娜·奥布里(Fastly)、安娜·赫维西(Uploop)、汤姆·“斯波特”·卡拉威(AWS)、朱莉娅·费拉奥利(AWS)、托尼·基普肯博伊(Streamlit)、迈克尔·温瑟(Alpha-Omega)、杰森·C·麦克唐纳(OWASP)、何卓婷(CMD Limes)、卡米尔·德米尔(Adobe)、玛丽亚塔·维贾亚(PSF)、洛伦·克拉里(PSF)和周妙莱(AWS)进行了良好的对话。我还与来自以下社区的许多人进行了互动:巴西 Python 社区、西班牙语 Python 社区、PyLadies 和 Black Python Devs。很高兴遇到像塞斯·拉尔森(PSF)、彼得·王(Anaconda)和吉多·范罗苏姆这样的传奇人物。
我喜欢所有的主题演讲,特别是苏玛娜·哈里哈雷斯瓦拉关于她如何改进 Python 软件基金会的基础设施的演讲,以及西蒙·威利森关于我们如何都能从开源人工智能中受益的演讲。
我们还举办了斯特凡诺主持的特别晚宴,以庆祝 OSAID 的这一特殊里程碑,斯特凡诺、梅尔和我俯瞰着匹兹堡。
总的来说,我们参加 PyCon US 大会是成功的。我们以一种有趣且引人入胜的方式分享了 OSI 为发布开源人工智能定义的第一个候选版本所做的工作,并在整个过程中进行了充分的交流。





