目录

执行摘要 

开源促进会 (OSI) 成功领导了一个全球性的、多方利益相关者的流程,通过协作、包容和迭代的协同设计方法来定义和验证开源人工智能。由此产生的开源人工智能定义 (OSAID) v1.0 概述了人工智能系统必须提供的基本自由——使用、学习、修改和分享——以符合开源原则。

主要成果

  1. 开源人工智能定义 v1.0
    • 该定义通过严格的、多阶段的全球咨询制定,将开源软件的自由移植到人工智能系统。
    • 该定义得到了包括人工智能开发者、部署者、最终用户以及受人工智能系统影响的人员在内的多元化利益相关者的支持。
  2. 开源人工智能系统的初始列表
    • 以下系统成功通过了验证过程
      Pythia (Eleuther AI), OLMo (AI2), Amber & CrystalCoder (LLM360), T5 (Google).
    • 其他系统,如 BLOOMStarcoder2,如果修改许可协议,也将通过验证。
    • Llama2、Grok、Phi-2 和 Mixtral 等系统未达到要求的标准。
  3. 透明且包容的协同设计过程
    • 该过程吸引了来自 30 多个国家的 50 多名志愿者参与,贡献者来自代表性不足的群体,包括妇女、跨性别者和非二元性别者以及有色人种。
    • 协同设计阶段包括研讨会、网络研讨会和验证过程,平衡了面对面和虚拟形式,以最大限度地提高全球可访问性。
  4. 经验教训和未来治理
    • 平衡开放性与结构化流程成为一项关键挑战。未来的迭代将强调混合咨询方法、更清晰的时间表和治理框架。
    • 通过可重复使用的资源(如网络研讨会、报告和研讨会)扩展知识共享,确保社区的持续参与。
  5. 后续步骤:推广与合作
    • OSI 将在 2025 年通过会议、网络研讨会和媒体宣传,重点在全球范围内推广该定义。
    • 目前正在与 Hugging Face、Mozilla 和卡内基梅隆大学等组织合作,以完善该定义的实际应用。

开源人工智能定义 为全球人工智能开发的透明度、创新和公平性奠定了关键基础。展望未来,OSI 将继续促进对话,完善流程,并支持利益相关者根据该定义实施和评估人工智能系统。

I. 开源人工智能定义 v.1.0

在我们的网站上查看 开源人工智能定义 v1.0 的文本,并在我们的博客上查看 公告

开源人工智能系统的初始列表

这些模型通过了验证阶段

  • Pythia (Eleuther AI)
  • OLMo (AI2)
  • Amber 和 CrystalCoder (LLM360)
  • T5 (Google)

还有一些其他的模型经过分析,如果更改许可证也会通过

  • BLOOM (BigScience)
  • Starcoder2 (BigCode)
  • Falcon (TII)

那些已经过分析但因缺少必需组件而未通过的模型

  • Llama2 (Meta)
  • Grok (X/Twitter whatever)
  • Phi-2 (Microsoft)
  • Mixtral (Mistral)

这些是所有已分析的模型。如何扩展验证系统是否符合开源人工智能定义的过程将是下一步的工作

II. 理据文件 

由于软件和人工智能系统之间存在技术、语义和经济差异,2022 年很快就显而易见,简单地翻译开源定义 (OSD) 不足以将开源自由应用于人工智能。

我们一致认为,对于人工智能,社会至少需要与开源相同的基本自由,以使人工智能开发者、部署者和最终用户能够享受相同的益处:自主性、透明度、无摩擦的重用和协作改进。

OSI 董事会设定了一个战略目标,即为人工智能(一个完全不同的领域)制定一个开源定义,希望复制其成功。我们知道,这个新定义不可能像自由软件定义和随后的开源定义那样由个人单独完成。我们从 2022 年开始与人工智能、数据和软件社区进行全球性的、多方利益相关者的讨论,以找到应用于人工智能的开源原则。我们的首要目标是理解 OSD#2 “源代码:源代码必须是程序员修改程序的首选形式” 对于人工智能的意义。

2023 年初,我们开始向社区合作伙伴推介一个类似于用于定义 GPLv3 的流程的想法,该流程将在 2024 年执行,并在 2025 年得出结论。得到的回复一致担心时间线过长,每过一周,开源人工智能就会变成一个没有明确定义的通用术语的风险就会增加,欧盟监管机构会在没有社区投入的情况下提出他们自己的定义。OSI 被迫迅速行动:开源人工智能这个术语已经被使用和滥用,整个开源生态系统都需要指导。因此,董事会设定了在 2024 年 10 月之前完成该流程的最后期限,并增加了两个额外的约束条件:开源人工智能定义必须得到包括人工智能开发者、部署者和最终用户以及主体(受人工智能决策影响的人)在内的利益相关者的支持;此外,它必须提供人工智能系统的正面例子,扎根于当前的实践,为感兴趣的各方提供参考。

系统创建者许可证创建者监管者被许可人最终用户主体
制作将通过开源许可证进行研究、使用、修改或共享的人工智能系统和/或组件(例如,学术界或工业界的机器学习研究人员)编写或编辑将应用于人工智能系统或组件的开源许可证;包括合规性(例如,知识产权律师)编写或编辑管理许可证和系统的规则(例如,政府政策制定者)寻求研究、使用、修改或共享开源人工智能系统(例如,人工智能工程师、健康研究人员、教育研究人员)消费系统输出,但不寻求研究、使用、修改或共享系统(例如,使用聊天机器人撰写报告的学生、创作图像的艺术家)在未有意与之交互的情况下,受到系统输出的上游或下游影响;包括该群体的倡导者(例如,被拒绝贷款的人或内容创作者)

OSI 董事会确定的利益相关者类别

OSI 工作人员在 2023 年初以多种方式进行了咨询,以适应各种利益相关者的期望和需求。最终将所有人的观点汇集在一起,从 2023 年 10 月在 All Things Open 大会上启动公开协同设计流程开始,并持续到 2024 年。

III. 研究与协同设计过程 

之所以选择协同设计方法,是因为全球定义需要全球咨询。协同设计是一种与多元化利益相关者共同决策的方法。我们的目标是与将创建、部署、使用和受开源人工智能系统约束的人员共同设计开源人工智能定义 (OSAID),并在工作中尽可能做到全球化、公平和包容,给每个人一个位置,但不偏袒任何人。本段开头的定义实际上是从协同设计过程中产生的,由阿根廷开源战略家玛丽亚·克鲁兹在布宜诺斯艾利斯的一次研讨会上提出。甚至我们的协同设计定义都是由利益相关者创建的这一事实,象征着用于创建 OSAID 的国际协作过程。

这种方法并非没有争议。通过全球咨询做出全球技术决策,代表着对过去方法的背离,在过去的方法中,来自全球北方(Global North)的技术专家和活动家与全球大多数人(又名全球南方(Global South))相比,在决定什么是真实、正确和最适合开源方面,掌握着不成比例的权力。这仍然是一个挑战点,说明改变这方面的文化将是一项持续的工作。

协同设计是一套分享知识和权力的参与式方法。每个自愿在协同设计过程中担任角色的人都获得了一个角色。我们还仔细确保所有已识别的利益相关者群体都得到代表,进一步挑战了传统的“专业知识”概念。

OSAID 协同设计过程精神的另一个象征是 Rahmat Akintola(左)的故事,他曾在 OSI 博客上被报道。Rahmat 是加纳阿克拉机器学习和数据科学女性组织 (WiMLDS) 的项目负责人。作为努力确保将全球南方的有色人种女性纳入 OSAID 协同设计过程的一部分,OSI 在 2023 年秋季聘请的协同设计公司 Do Big Good 对撒哈拉以南非洲的该组织和类似组织进行了重点外联。

Rahmat 作为 OpenCV 工作组的成员加入了 OSAID 协同设计过程,然后自愿在 9 月份于达喀尔举行的非洲顶级人工智能/机器学习会议 Deep Learning Indaba 上介绍 OSAID。从包容性外联到工作组参与再到公共倡导,这一路径由 Alfred P. Sloan 基金会的资助,这就是公平和全球协同设计的全部意义所在,也是实现具有全球范围的定义的关键。

在过程中 50 多名协同设计志愿者中,代表了近 30 个原籍国和居住国,包括来自非洲、亚洲、欧洲和美洲的参与者。我们估计 31% 是 OSAI 开发者,46% 是部署者,90% 是最终用户,几乎所有人都是通过上游或下游数据使用成为 OSAI 的主体。超过 30% 是女性、跨性别者和非二元性别者,超过 40% 是黑人、土著和其他有色人种。

本节描述了 OSAID 开发中的协同设计阶段。第一阶段描述了 OSI 在 2022 年至 2023 年的活动。第二阶段至第五阶段描述了 2023 年末至 2024 年的活动,当时引入了 Do Big Good 来管理和实施协同设计过程。

阶段 1:初步研究(2022 年 7 月 – 2023 年 12 月)

2022 年,开源促进会开始协调一个全球流程,以深化集体知识并确定最终导致 OSAID 的原则。在 “深度探索:人工智能” 的名义下,OSI 梳理了开源和人工智能的问题。该项目包括一个由六集播客(专家 Pamela Chestek、Alek Tarkowski、Connor Leahy、David Gray Widder、Mo Zhou 和 Bruce Draper)和四个在线小组讨论(专家 Astor Nummelin Carlberg、David Kanter、Sal Kimmich、Stella Biderman、Alek Tarkowski、Kat Walsh、Luis Villa、Carlos Muñoz Ferrandis、Kit Walsh、Pamela Chestek、Jennifer Lee、Danish Contractor、Adrin Jalali、Chris Albon、Ibrahim Haddad、Mark Surman 和 Amy Heineike)组成的全球对话。

2023 年初,发布了一份 综合报告,以进一步推广成果并为下一阶段的工作提供信息。此初始阶段的关键学习是,传统的开源软件许可观点不足以涵盖人工智能系统的复杂性。下一阶段出现了关键问题:人工智能系统开源意味着什么?需要哪些政策来既促进创新,又保护个人和社会整体免受伤害?

2023 年 9 月,OSI 主办了一个 网络研讨会系列,以更好地了解人工智能领域。来自法律、学术界、非政府组织、企业和开源社区的演讲者分享了他们对紧迫问题的看法,并为我们人工智能系统的开发和使用提供了潜在的解决方案。共分享了 18 场网络研讨会,汇集了 37 位专家。一份 第二份报告于 2023 年末发布

阶段 2:四项自由完善(2023 年 10 月 – 11 月)

2023年,在Do Big Good的参与下,OSI在美国和非洲举办了三次面对面的共同设计研讨会,以确定自由软件基金会的关于学习、使用、修改和分享开源系统的四项自由应如何应用于人工智能。

  • 问题:使用、学习、修改、分享:这些开源原则对于人工智能应该意味着什么?
  • 方法:在蒙特雷、罗利和亚的斯亚贝巴举行的面对面共同设计研讨会,参与者在会上起草和编辑了OSAI四项自由的文本。该过程的结果仍然出现在当前版本的定义中。
    • 使用:为了任何目的使用该系统,且无需请求许可。
    • 学习:了解系统如何工作并检查其组件。
    • 修改:为了任何目的修改该系统,包括更改其输出。
    • 分享:为了任何目的,与他人分享该系统以供使用,无论是否经过修改。
  • 研讨会参与者:在共同设计过程的这个阶段,参与者未被要求公开分享他们的姓名和所属机构。这种透明度的缺失在随后的共同设计阶段得到了弥补。
  • 目标:将自由软件定义的“四项自由”应用于人工智能。

阶段 3:系统分析(2024 年 2 月 – 3 月)

在第二阶段结束时,我们收到了利益相关者的反馈,认为共同设计过程具有排他性,因为它仅以面对面的形式进行,并且许多利益相关者无法参加研讨会(这也是我们联系阿尔弗雷德·P·斯隆基金会以支持全球推广工作的原因之一)。

我们考虑了这一反馈,并在圣何塞的AI_dev举行了一次面对面会议后,我们将第三阶段转变为完全虚拟的过程。共同设计的志愿者对四个自称为开放的系统进行了小组分析,以制定关于哪些组件应包含在首选形式中的提案。 这篇文章 阐明了本阶段的意图是探索途径,以打破我们陷入关于“数据”辩论的僵局:我们需要更好地了解人工智能从业者为了行使四项自由所需的东西。

  • 问题:为了使人工智能系统能够被使用、学习、修改和分享,哪些组件必须是开放的?
  • 方法:在圣何塞举行了一次面对面会议,随后设立了四个虚拟工作组,分别关注Bloom、OpenCV、Llama 2和Pythia,这四个系统对OSAI开放性采取了不同的方法。
    • 我们从模型开放框架(MOF)的预发布版本创建的人工智能系统组件列表开始,MOF是Linux基金会的项目。
    • 在二月份,工作组成员被邀请投票决定是否需要MOF的每个组件来学习、使用、修改和分享系统。
    • 工作组成员使用他们的姓名首字母进行投票,以使哪些成员看到了哪些组件变得透明。投票被记录并制成表格,记录在公开的电子表格中。
    • 当制表时,我们没有注意到Llama 2小组有一个后续小组没有的-1选项。这是一个疏忽,但没有影响结果(因为这种差异直到2024年9月才在论坛上被强调,我们删除了-1票并重新制表数据,最终得到了相同的结果。)
    • 投票的目的是给出基于利益相关者的信号,表明首选形式的组件优先级,然后这些优先级将在论坛上公开评论和批评。对于初始投票过程的结果,已经有充分的机会进行评论。
    • 我们在3月1日在论坛上分享了制表结果以征求意见。结果因“浪费时间”分析LLama而受到批评,LLama显然永远不会被认为是开源的。
    • 制表的推荐结果是
      • 必需:训练、验证和测试代码;推理代码;模型架构;模型参数;支持库和工具
      • 可能必需:数据预处理代码
      • 可能需要:训练数据集;测试数据集;使用文档;研究论文
      • 可能不需要:模型卡;评估代码;验证数据集;基准测试数据集;所有其他数据文档
    • 该主题的后续讨论中,我们澄清说,在“可能需要”和“可能必需”之间任意划了一条线,以测试下一个共同设计步骤的假设:如果组件“训练数据集”不是必需的,我们是否有任何明显的非开源副产品(例如Llama?)
    • 我们在3月10日将推荐的组件集成到0.0.6版本中,该版本也已公开征求意见。
  • 成员:
    • 这些和其他共同设计小组的成员来自两个来源:那些回应了论坛或邮件列表上的公开参与邀请的人,以及Do Big Good的Mer Joyce和Kayla Cody-Lushuzi进行的重点外联,以吸引被排斥的群体,例如妇女、跨性别者和非二元性别者;黑人、土著和其他有色人种;以及来自亚洲和全球南方的人们。
    • Llama 2 工作组
  1. Bastien Guerry  DINUM / 法国
  2. Ezequiel Lanza Intel / 阿根廷
  3. Roman Shaposhnik Apache软件基金会 / 俄罗斯
  4. Davide Testuggine Meta / 意大利
  5. Jonathan Torres  Meta / 美国
  6. Stefano Zacchiroli 巴黎理工学院 / 意大利
  7. Mo Zhou Debian, 约翰·霍普金斯大学 / 中国
  8. Victor Lu 独立顾问 / 美国
  • BLOOM 工作组
  1. George C. G. Barbosa  Fundação Oswaldo Cruz / 巴西
  2. Daniel Brumund GIZ FAIR Forward – AI for All / 德国
  3. Danish Contractor BLOOM 模型治理工作组 / 加拿大
  4. Abdoulaye Diack Google / 加纳
  5. Jaan Li 塔尔图大学, Phare Health / 爱沙尼亚
  6. Jean-Pierre Lorre LINAGORA, OpenLLM / 法国
  7. Ofentse Phuti WiMLDS 哈博罗内 / 博茨瓦纳
  8. Caleb Fianku 夸梅·恩克鲁玛科技大学, 库马西 / 加纳
  • Pythia 工作组
  1. Seo-Young Isabelle Hwang 三星 / 韩国
  2. Cailean Osborne 牛津大学 / 英国
  3. Stella Biderman EleutherAI 研究所 / 美国
  4. Justin Colannino 微软 / 美国
  5. Hailey Schoelkopf EleutherAI 研究所 / 美国
  6. Aviya Skowron EleutherAI 研究所 / 波兰
  • OpenCV 工作组
  1. Rahmat Akintola WiMLDS 阿克拉 / 加纳
  2. Dr. Ignatius Ezeani 兰卡斯特大学, 英国, 纳姆迪·阿齐基韦大学, 尼日利亚, Masakhane NLP / 尼日利亚 
  3. Kevin Harerimana CMU 非洲 / 卢旺达
  4. Satya Mallick OpenCV / 美国
  5. David Manset ITU / 法国
  6. Phil Nelson OpenCV / 美国
  7. Tlamelo Makati WiMLDS 哈博罗内, 都柏林理工大学 / 博茨瓦纳
  8. Minyechil Alehegn 特皮米赞大学 / 埃塞俄比亚
  9. Akosua Twumasi 加纳卫生服务局 / 加纳
  10. Rasim Sen Oasis Software Technology Ltd. / 英国

阶段 4:系统验证(2024 年 5 月 – 7 月)

在下一阶段,我们试图验证哪些人工智能系统符合OSAID的标准,这是董事会的要求,也是利益相关者普遍关心的问题。在前一阶段的结果基础上,我们测试了一个工作假设:如果训练数据集不是必需的,那么当我们将Grok、Phi或Llama排除在外时,我们是否会将Pythia(其数据集在美国受到法律挑战)保留在开源人工智能领域?

志愿者审查了13个自称为开放的人工智能系统,但这个过程很困难。大多数志愿者找不到所有必要的文档来验证所需的组件是否可用于学习、使用、修改和分享。

我们认为验证过程的困难是OSI继续认证许可证(就像对软件所做的那样)而不是尝试认证单个AI系统的理由。这意味着系统创建者的合作对于认证系统是必要的,因为他们最适合提供组件列表及其法律条款。

  • 问题:哪些人工智能系统符合OSAID的标准?
  • 方法:通过 公开征集参与,志愿者报名审查了总共13个自称为开放的系统(列表如下)。他们使用了OSAID的0.0.6至0.0.8版本作为参考。
    • 所有审查电子表格都已公开张贴,以最大限度地提高透明度。
    • 大部分审查工作发生在2024年5月。
    • 在可能的情况下,每个系统都由至少一位与该系统无关的人员进行审查。LLM360是自我认证的。
    • 由于难以在互联网上公开找到必要的文档,大多数志愿者无法完成他们的审查或就系统的开放性得出结论。
    • 我们收集到的结果在上一页的表格中。
  • 审查员:
    • 1. Arctic  
      • Jesús M. Gonzalez-Barahona  胡安·卡洛斯国王大学 / 西班牙
    • 2. BLOOM  
      • Danish Contractor BLOOM 模型治理工作组 / 加拿大
      • Jaan Li 塔尔图大学, Phare Health / 爱沙尼亚
    • 3. Falcon  
      • Casey Valk Nutanix / 美国
      • Jean-Pierre Lorre LINAGORA, OpenLLM / 法国
    • 4. Grok  
      • Victor Lu 独立顾问 / 美国
      • Karsten Wade Open Community Architects / 美国
    • 5. Llama 2  
      • Davide Testuggine Meta / 意大利
      • Jonathan Torres  Meta / 美国
      • Stefano Zacchiroli 巴黎理工学院 / 意大利
      • Victor Lu 独立顾问 / 美国
    • 6. LLM360  
      • Victor Miller LLM360 / 美国
    • 7. Phi-2  
      • Seo-Young Isabelle Hwang 三星 / 韩国
    • 8. Mistral  
      • Mark Collier OpenInfra 基金会 / 美国
      • Jean-Pierre Lorre LINAGORA, OpenLLM / 法国
      • Cailean Osborne 牛津大学 / 英国
    • 9. OLMo  
      • Amanda Casari Google / 美国
      • Abdoulaye Diack Google / 加纳
    • 10. OpenCV  
      • Rasim Sen Oasis Software Technology Ltd. / 英国
    • 11. Pythia
      • Seo-Young Isabelle Hwang 三星 / 韩国
      • Stella Biderman EleutherAI 研究所 / 美国
      • Hailey Schoelkopf EleutherAI 研究所 / 美国
      • Aviya Skowron EleutherAI 研究所 / 波兰
    • 12. T5
      • Jaan Li 塔尔图大学, Phare Health / 爱沙尼亚
    • 13. Viking
      • Merlijn Sebrechts 根特大学 / 比利时

阶段 5:关于训练数据的工作坊(2024 年 9 月 – 10 月)

注意:参与者已口头同意拍摄这些照片。我们正在等待他们的书面同意,然后才能公开传播这些照片。(MJ 2024年10月16日)

由于OSAID关于训练数据的立场是共同设计过程中最具争议的结果,我们决定专门举办一个研讨会,以就如何在开源人工智能系统中设计、许可和监管训练数据集提供建议。

  • 问题:如何在开源人工智能系统中设计、许可和监管训练数据集?
  • 方法:在10月10日和11日,我们汇集了来自15个国家的18位数据和OSAI专家,在巴黎举行了为期两天的研讨会,共同设计关于OSAI数据的建议。Mer Joyce主持了两天的研讨会。这是我们的流程
    • 准备工作 - 在九月份,Open Future的Alek Tarkowski撰写了白皮书草稿,供参与者在研讨会前评论。从这些评论中产生了三个主题领域(数据集设计、许可和监管),以及研讨会的结构,研讨会将从头脑风暴开始,到小组制定提案结束。
    • 第一天 - 我们在三个主题领域收集并优先考虑了针对开放、公共、可获取和不可共享数据的广泛解决方案,使用便利贴记录建议。这一天以投票优先考虑这些建议结束。
    • 第二天 - 在第二天,我们分成与三个主题领域(设计、许可、监管)相关的小组,每个小组根据前一天的头脑风暴和优先级排序,在这些领域制定了具体的提案。参与者自行记录了他们的提案和讨论 笔记
    • 后续步骤 - 参与者的建议已纳入白皮书,并于11月初再次分享以征求意见。白皮书正在最终定稿以供发布。
    • 在巴黎进行的讨论框架已在 一篇博客文章 中发布。白皮书是对OSAID发布的补充,但并非以其发布为条件。
  • 研讨会参与者
  1. Dr. Ignatius Ezeani – 兰卡斯特大学, 英国, 纳姆迪·阿齐基韦大学, 尼日利亚, Masakhane NLP / 尼日利亚 
  2. Masayuki Hatta  – 骏河台大学 / 日本
  3. Aviya Skowron – EleutherAI 研究所 / 波兰
  4. Stefano Zacchiroli – 巴黎理工学院 / 意大利
  5. Ricardo Mirón – 数字公共产品联盟 / 墨西哥
  6. Kristina Podnar – 数据与信任联盟 / 克罗地亚 + 美国
  7. Joana Varon – Coding Rights(编码权利组织)/ 巴西
  8. Renata Avila – 开放知识基金会 / 危地马拉
  9. Alek Tarkowski – Open Future(开放未来组织)/ 波兰
  10. Maximilian Gantz – Mozilla 基金会 / 德国
  11. Stefaan Verhulst –  GovLab / 美国 + 比利时
  12. Paul Keller – Open Future(开放未来组织)/ 德国
  13. Thom Vaughn – Common Crawl(通用网络爬虫)/ 英国  
  14. Julie Hunter – LINAGORA / 美国 
  15. Deshni Govender – GIZ FAIR Forward AI for All / 南非
  16. Ramya Chandrasekhar – CNRS(法国国家科学研究中心)– Center for Internet and Society(互联网与社会中心)/ 印度
  17. Anna Tumadóttir – Creative Commons(知识共享组织)/ 冰岛  
  18. Stefano Maffulli – 开放源代码促进会 / 意大利

利益相关者反馈

以下是参与者的引言,他们在协同设计过程中扮演了各种角色: 

协同设计过程让我亲身了解了世界各地人们对什么是开源人工智能的思考过程。  所有人可能永远无法就定义达成一致。 但这是一个美好的开始,我认为每个人都会同意,公开讨论、研讨会、市民大会、后续调查、电子邮件都是非常有效和“民主”的  🙂 

– Victor Lu,Llama 2 工作组成员和系统验证员

[我对研讨会的赞赏之处在于] 参与者观点的多样性,对话的组织方式(提前准备,以便我们能够快速启动),以及推进这份白皮书的建设性。 [我只是希望我们有] 更多的时间……也许星期四早点开始会更好。 除此之外,一切都很棒。感谢您充分利用时间,创造协作和开放的环境,并尽可能地展现多样性。

– 匿名参与者,OSAI 工作坊数据组

很高兴与开放人工智能团队合作,并为这项重要的倡议做出贡献。 我们期待看到发布版本,并见证它对人工智能社区的影响。 

– Rasim Sen,OpenCV 工作组成员和系统验证员

在 OSAID 过程中,我有机会与来自不同大陆和时区的成员合作。 这是一次有趣的经历,因为有时我发现自己凌晨 2 点穿着睡衣参加 Zoom 会议! 😉 通过工作组 (WG) 会议中的同步讨论和网络论坛上的异步对话,我对多样化的协作方法有了宝贵的见解。

– Seo-Young Isabelle Hwang,Pythia 工作组成员和系统验证员 

感谢您充分利用时间,创造协作和开放的环境,并尽可能地展现多样性。

– 匿名参与者,OSAI 工作坊数据组

以我的经验来看,协同设计过程非常顺畅且易于参与。 即使过程是虚拟的,但在每个阶段都透明且易于遵循。

– Rahmat Akintola,OpenCV 工作组成员

关于什么是或不是开源人工智能的争论,似乎总是在那些主张相对宽松要求(基本上是开放权重模型)的人,以及那些主张模型及其组成部分最大程度透明化的人之间进行着永无止境的拉锯战,当然也包括介于这两个极端之间的各种观点和担忧。 

虽然在开源人工智能社区中存在不同观点是健康的,但达成共识变得越来越紧迫,尤其是在我们现在有了像《人工智能法案》这样的法规,即使在没有开源人工智能系统定义的情况下,也对开源人工智能系统的提供商引入了要求和例外情况。 

为此,协同设计过程一直是引入来自世界各个角落的专家的不同观点,并通过公开辩论找出我们可以达成一致和不能达成一致的绝佳方式。 

鉴于开源人工智能定义的重大意义,我希望协同设计过程能够继续下去,并且我们能够朝着对社区有用的定义努力。

– Cailean Osborne,Pythia 工作组成员

我喜欢一切与人工智能算法透明度有关的东西。 就我而言,我专注于机器学习模型的透明度:尝试解读构成它们的数十亿次计算,并向该领域内和领域外的人们解释它们。 

同样,我重视在以下方面的透明度探索:训练这些模型的数据以及获取数据的方式,以及代码的设计。 这就是为什么我高度重视开源人工智能定义的工作,并认为它对于确保透明度至关重要。 

-OSAID 演示参与者,阿根廷(从西班牙语翻译)

IV. 时间线

所有咨询点的列表(会议日期/地点;讨论站点上的主题总数等)以及所有贡献者的列表(一个大列表,而不是每个咨询点)

深度探索:人工智能播客 2022

深度探索:人工智能小组讨论 2022

深度探索:人工智能网络研讨会 2023

OSAID 会议 2023/2024

2023 年 6 月

2023 年 7 月

2023 年 9 月

2023 年 10 月

2023 年 11 月

  • DPGA 成员会议 (2023 年 11 月 14 日 – 亚的斯亚贝巴)
    • 研讨会:定义“开放人工智能” (Stefano Maffulli, Nicole Martinelli)

2023 年 12 月

2024 年 2 月 

2024 年 4 月 

2024 年 5 月 

六月, 2024年 

七月, 2024年 

八月, 2024年 

九月, 2024年 

十月, 2024年

十一月, 2024年

2024 年共同设计市政厅会议

V. 初始支持者列表(背书)

版本 1.0 发布时宣布的背书者名单如下。完整和最新的列表可在 OSI 网站上找到。

机构

  • 开发者
    • EleutherAI 研究所
    • CommonCrawl
    • 乔治华盛顿大学 OSPO
    • LLM360 
    • LINAGORA
    • 女性机器学习和数据科学 – 阿克拉 
  • 部署者
    • Mozilla 基金会
    • Mercado Libre
    • SUSE
    • 开源社
    • Eclipse 基金会 
  • 最终用户
    • 彭博社
    • 开放基础设施基金会
    • 部门间数字事务管理局 (DINUM) 
    • Nextcloud
    • sysarmy
  • 主题
    • 数字公共产品联盟
    • OpenForum Europe
  • 学术界
    • 卡内基梅隆大学 OSPO
    • 佐治亚理工大学 OSPO
    • 华盛顿大学 OSPO

个人

  • Sayash Kapoor
  • Arvind Naranian 
  • Percy Liang
  • Victor Lu
  • Kevin Harerimana
  • George C. G. Barbosa
  • Dr. Ignatius Ezeani
  • Seo-Young Isabelle Hwang
  • Cailean Osborne
  • Tlamelo Makati
  • Stefano Zacchiroli 
  • Shuji Sado
  • Felix Reda

VI. 不同意见

随着越来越多的团体表示支持开源 AI 定义,我们希望跟踪其他人提出的担忧。以下是迄今为止提出的一些问题列表,没有添加任何评论、解释或判断

收到的评论列表

我们在最激烈的讨论中收到了评论

  1. 关于训练数据的可用性:用于训练 AI 系统的所有数据都应公开可用,因为它对于理解和改进模型至关重要。
    1. 合成数据:如果发布原始数据不可行,提供合成数据和清晰的解释可能会有所帮助。
    2. 预训练数据集分发:用于预训练的数据集也应可访问,以确保透明度并允许进一步开发。
    3. 数据集文档:训练数据集的文档应详尽而准确,以解决潜在问题。
    4. 版本控制:为了保持一致性和可重复性,版本控制数据对于训练 AI 系统至关重要。
  2. 可重复性:该定义应说明开源 AI 必须可以使用原始训练数据、脚本、日志以及原始开发者使用的所有其他内容进行重现。
  3. 关于共同设计过程:
    1. 所进行的共同设计过程不是民主的,最终是不公平的,投票是错误的方法,志愿者的选择是有偏见的,结果没有显示任何共识以及许多其他问题。
    2. 一些公司报告说,他们没有机会对文本提供官方立场,既不支持也不要求修改。尽管有些人以志愿者的身份为共同设计过程做出了贡献,但快速的开发节奏以及完全透明的过程并没有让公司代表有时间将评论升级到公司决策链中,使其成为官方声明。

VII. 新闻稿

该公告于 2024 年 10 月 28 日在 OSI 官方网站上发布。

VIII. 进一步修订

在短期内,OSI 将使用论坛来收集 AI 构建者与该定义互动的经验。该团队将联系有兴趣评估 AI 系统是否符合定义的团体,并为他们提供有关如何解释定义中措辞的指导。我们已经开始与 Hugging Face、卡内基梅隆大学、Mozilla 进行对话,其他公司也表示了兴趣。

AI 委员会将监控对话,并建议每季度审查一次定义的文本。

IX. 经验教训

开源 AI 定义 (OSAID) 过程是一项开创性的举措,虽然它取得了重要的里程碑,但也为未来的努力提供了宝贵的见解。从该过程中吸取的关键教训包括以下内容:

1. 平衡开放性与结构

共同设计方法通过欢迎不同的利益相关者来促进包容性,但其开放性也带来挑战。一些企业利益相关者发现该过程过于开放,导致失去参与,而另一些人则批评共同设计活动之间缺乏凝聚力。这里的教训是尽早建立清晰的蓝图,确保参与者对流程及其目标有共同的理解。引入机制以加强工作组之间的交叉互动和协调可以增强凝聚力和参与度。

2. 管理包容性和可访问性

将来自全球南方和代表性不足社区的声音纳入进来的努力是一项显著的成功,Rahmat Akintola 从参与者到倡导者的历程就是例证。然而,不同的形式——例如面对面的研讨会和在线论坛——因其可访问性而受到赞扬和批评。未来的流程应从一开始就采用混合方法,精心设计兼顾可访问性和参与公平性的包容性形式。提前提供准备性学习资源可以帮助所有参与者创造公平的竞争环境。

3. 公众反馈和共识建立

仅在公开讨论中整合利益相关者的反馈的决定提高了 OSAID 的透明度,但歧视了一些利益相关者。此外,该过程的快速节奏有时会阻碍共识的建立。在一个阶段使用投票被误解,少数人认为它是一种民主的代表工具。其他人则批评没有时间让他们的企业雇主正式提出意见。在未来的举措中,更长的时间线,其中包含用于反思的内置间隔,以及适应利益相关者需求的不同共识建立过程,可以建立信任,并使参与者能够更深入地参与。

4. 扩展知识共享

最重大的成就之一是创建了可重用的资源,包括播客、网络研讨会、白皮书和市政厅会议的录音。这些材料为知识共享做出了重大贡献,为未来的项目树立了基准。这证明了系统地记录和共享输出以扩大其在当前项目之外的影响的价值。

5. 关于治理和维护的反思

共同设计过程突显了对 OSAID 进行持续治理、教育和维护的需求。建立清晰的治理框架,其中明确利益相关者的角色、定期审查机制以及解决不同意见的策略,对于该定义的长期成功和可信度至关重要。

反馈中反复出现的主题是需要将这些经验教训用作下一步的跳板,从而确保 OSAID 仍然是一份鲜活的文件,反映并响应开源 AI 生态系统的需求。

X. 2025 年后续计划

明年,OSI 的活动将转向推广和教育。与此同时,OSI 将与其他组织合作,继续验证开源 AI 定义 v.1.0,以便记录其关键点。

OSI 将在世界各地的会议上展示共同设计过程和 1.0 版的结果。我们将与志愿者合作展示该定义,以最大限度地减少差旅成本和负担,并发展支持者社区。以下是 OSI 直接瞄准的顶级会议的初步列表。OSI 的社区经理已经联系共同设计志愿者,以确定当地的机会。 

除了面对面的会议外,OSI 还将在 2025 年下半年举办一系列网络研讨会/播客,采访 AI 构建者,以了解他们在实践中如何使用开源 AI 定义 v1.0。

此外,OSI 的领导层将发起媒体宣传活动,以提高对 OSAID 的认识,并评论对开源重要的问题。该组织将保持强大的社交媒体影响力,与对扩大开源在社会中的作用感兴趣的社区互动。 

根据预算的可用性和分配情况,该计划可能会进一步扩大或缩小。

活动列表