Cailean Osborne:开源 AI 定义之声

开源促进会 (OSI) 正在运行一个博客系列,以介绍一些积极参与开源 AI 定义 (OSAID) 协同设计过程的人员。协同设计方法允许将不同的观点整合到一个公正、有凝聚力且可行的标准中。来自重要且广泛的利益相关者的支持和贡献对于开源流程至关重要,并已被证明可以揭示各种问题,交付快速的产出并获得社区的支持。

本系列专题报道了帮助塑造和正在塑造该定义的志愿者的声音。

认识 Cailean Osborne

您的开源和 AI 背景是什么?

我对开源 AI 的兴趣始于 2020 年左右,当时我在英国政府从事 AI 政策工作。令我惊讶的是,鉴于开源在 AI 研发中的关键作用,开源从未在政策讨论中被提及。我之前学习时经常使用 scikit-learn 和 PyTorch 等库。我业余时间关注开源 AI 的趋势,最终我决定攻读该主题的博士学位。当我 2021 年开始攻读博士学位时,开源 AI 仍然感觉像是一个小众话题,因此很高兴看到它在过去几年中成为一个主要的讨论点。 

除了我的博士学位,我还以 scikit-learn 贡献者的身份以及与来自生成式 AI 公地社区的同行共同开发模型开放性框架 (MOF) 的身份参与了开源 AI 社区。我们 MOF 的目标是为 AI 研究人员和开发人员提供指导,以根据开放科学原则评估“开源”模型的完整性和开放性。我们很高兴 OSI 团队选择使用 MOF 中的 16 个组件作为协同设计过程中审查模型的标准。 

是什么促使您加入这个协同设计过程来定义开源 AI?

简短的答案是:为建立“开源 AI”的准确定义做出贡献,并向参与协同设计过程的所有其他专家学习。更长的答案是:关于什么是或不是“开源 AI”一直存在很多困惑,而“开放清洗”并没有帮助解决这个问题。“开源”有一个特定定义(即使用、研究、修改和再分发源代码的权利),而被宣传为“开源 AI”的内容与此定义大相径庭。获得正确的定义并非吹毛求疵,而是出于几个原因非常重要;例如,为了使欧盟 AI 法案中的“开源”豁免能够发挥作用(或不发挥作用),我们需要准确地知道“开源”模型实际上是什么。Andreas Liesenfeld 和 Mark Dingemanse 写了一篇关于开放清洗问题及其与 AI 法案关系的精彩文章,如果您还没有读过,我建议您阅读。因此,我参与进来是为了帮助制定一个定义,并向参与的所有其他专家学习。这并非易事(这是一个非常有争议的话题!),但我认为我们已经取得了良好的进展。

您能描述一下您参与这个过程的体验吗?您最喜欢它什么,以及您面临的一些挑战是什么?

首先,我必须赞扬 Stef 和 Mer 在整个过程中保持势头。协调一项与分散在全球各地的志愿者进行的协同设计工作绝非易事,每个志愿者都有不同程度的可用性和(强烈的)意见。所以,做得好!我也很喜欢看到其他人在审查模型时如何同意或不同意。意见不一致的时刻是最有趣的;例如,关于训练数据是否应该可用而不是被记录,如果是,应该在多大程度上详细记录……就我个人而言,主要的挑战是搜索关于显然是“开源”的模型的各个组件的信息,并观察到除了权重、模型卡以及如果您幸运的话,arXiv 预印本或技术报告之外,实际上提供的信息很少。

您为什么认为 AI 应该是开源的?

在谈到开源 AI 的好处时,我喜欢引导人们阅读 2007 年的一篇论文,其中 16 位研究人员强调了“机器学习中对开源软件的需求”,原因基本上是当时 ML/AI 领域完全缺乏 OSS。快进到今天,AI 研发实际上是没有 OSS 就无法想象的,从数据工具到用于构建 LLM 的深度学习框架。开源和一般的开放性对 AI 有很多好处,从能够访问 SOTA AI 技术和透明度(这对于可重复性、审查和问责制至关重要)到扩大对其设计、开发和治理的参与。 

您认为数据在开源 AI 中的作用是什么?

如果问题严格来说是关于数据在开发开放 AI 模型中的作用,那么答案很简单:数据起着至关重要的作用,因为它需要用于训练、测试、对齐和审计模型。但如果问题是“数据的发布是否应该成为开放模型有资格成为开源 AI 的条件”,那么答案显然要复杂得多。 

由于一些原因,公司不急于共享训练数据:无论是竞争优势、数据保护,还是坦率地说,因为因版权侵权而被起诉。版权问题不仅限于公司:EleutherAI 也被起诉,并且不得不从 The Pile 中撤下 Books3 数据集。还有许多限制数据共享的社会和文化问题;例如,Kōrero Kaitiakitanga 许可证的开发是为了保护新西兰土著社区的利益。因此,数据问题并不容易,也许我们不应该对此过于教条。  

就我个人而言,我认为v. 0.0.8 中的妥协方案是合理的折衷方案,该方案规定,如果模型开发者无法发布训练数据集本身,则应提供关于数据的足够详细的信息。我也希望看到更多像社区驱动的BigScience 项目开发的开放预训练数据集,该项目涉及对数据集设计的公开讨论,并提供关于数据出处和处理决策的广泛文档(例如,查看他们的数据目录)。Hugging Face 的 FineWeb 数据集是另一个开放预训练数据集的好例子,他们发布了预处理代码、评估结果和非常详细的文档。

您个人对开源 AI 的定义是否在此过程中有所改变?在参与协同设计过程中,您遇到了哪些新的视角或想法?

老实说,我个人的定义没有太大变化。当人们专门指“开放模型”或“开放权重模型”时,我不太喜欢使用“开源 AI”。我们需要做的是提高人们对适当术语的认识,并指出“开放清洗”,正如人们所做的那样,我必须说,主观上我看到了改进:更少“开源模型”和更多“开放模型”。但我会说,我确实发现“开源 AI”是各种实践社区的有用统称,这些社区交织在开放模型的开发中,包括 OSS、开放数据以及 AI 研究人员和开发人员,他们都为整个“开源 AI”社区带来了不同的视角和工作方式。

您认为一旦有了明确的开源 AI 定义,主要好处是什么?

我们将能够减少关于什么是或不是“开源 AI”的困惑,并更容易地打击开放清洗的努力。正如我之前提到的,这种清晰性将有利于遵守像 AI 法案这样的法规,该法案包括对“开源”AI 的豁免。  

您认为参与开源 AI 的社区的下一步是什么?

我们仍然有很多步骤要走,但我现在先分享三个。

首先,我们迫切需要提高开放模型的可审计性,从而提高其安全性。对于 OSS,我们知道 (1) 源代码的可用性和 (2) 开放开发能够实现对源代码的分布式审查。想想 Linus 定律:“只要有足够的眼球,所有 bug 都是肤浅的。”然而,开放模型比仅仅是源代码更复杂,而且许多关键组件(如训练数据)的缺乏开放性正在阻碍采用,因为潜在的采用者无法对模型进行充分的尽职调查测试。如果我们想实现“开源 AI”的好处,我们需要弄清楚如何提高模型的透明度和开放性——我们希望模型开放性框架可以对此有所帮助。 

其次,我对基层倡议感到非常兴奋,这些倡议正在引领社区驱动的方法来开发开放模型和开放数据集,例如BigScience 项目。它们为如何以促进开放协作、透明度、可重复性和从根本上保证安全的方式进行“开源 AI”树立了榜样。我仍然可以用手指数得过来这样的倡议,但我希望未来我们能看到更多社区驱动的努力。

第三,我希望看到公共部门和非营利基金会更多地参与支持公共利益和基层倡议。法国在这方面一直是榜样:为在 Jean Zay 超级计算机上训练 BigScience 项目的 BLOOM 模型提供公共资助在 Jean Zay 超级计算机上,并资助 scikit-learn 团队构建数据科学公共资源

如何参与

OSAID 协同设计过程对所有对协作感兴趣的人开放。有很多方法可以参与

  • 加入工作组:成为团队的一员,根据 OSAID 评估各种模型。
  • 加入论坛:支持和评论草案,记录您对新主题和现有主题的赞同或担忧。
  • 评论最新草案:直接提供对最新草案文件的反馈。
  • 关注每周回顾:订阅我们的新闻通讯和博客以保持最新状态。
  • 加入市政厅会议:参加在线公共市政厅会议以了解更多信息并提出问题。
  • 加入研讨会和预定会议:在世界各地的面对面活动中与 OSI 和其他参与者会面。