海莉·舍尔科夫:开源 AI 定义之声
开源促进会 (OSI) 正在开展一个博客系列,介绍一些积极参与开源 AI 定义 (OSAID) 协同设计过程的人员。协同设计方法允许将不同的观点整合到一个公正、具有凝聚力且可行的标准中。来自重要且广泛的利益相关者的支持和贡献对于开源过程至关重要,并被证明可以揭示各种问题,交付快速的成果并获得社区的认同。
本系列介绍了帮助塑造和正在塑造该定义的志愿者的声音。
认识海莉·舍尔科夫

您的开源和 AI 背景是什么?
我能够更深入地参与 AI 研究的主要原因之一是通过开放研究社区,例如 BigScience Workshop 和 EleutherAI,这些社区为外部人士提供了讨论和协作的机会。这些分享知识并向比我更有经验的人学习的机会对于了解该领域以及成长为从业者和研究人员至关重要。
我共同领导了 Pythia 语言模型的训练 (https://arxiv.org/abs/2304.01373),这些模型是最早完全记录和可复现的大规模语言模型之一,尽可能多地发布了相关的开源工件。我们很高兴也很幸运地看到这些模型满足了明确的需求,尤其是在研究社区中,Pythia 从那时起为大量旨在构建我们对 LLM 理解的研究做出了贡献,包括解释其内部结构、理解这些模型在训练过程中改进的过程,以及理清数据集内容对这些模型下游行为的一些影响。
是什么促使您加入这个协同设计过程来定义开源 AI?
由于并非所有发布的“开放权重”AI 模型都是在符合 OSI 标准的许可证下发布的——或者对其使用或改编施加限制——因此事实造成了大量的困惑,所以我很高兴 OSI 正在通过制定清晰的定义来减少这种困惑,开源社区可以使用这个定义。我更直接地参与了这个过程,帮助讨论如何将开源 AI 定义映射到 Pythia 语言模型以及我们发布的随附工件上。
您能描述一下您参与这个过程的体验吗?您最享受的是什么?您面临的一些挑战是什么?
决定什么程度的透明度和可修改性才算作开源是一个有趣的问题。尽管公开模型权重对开源社区非常有益,但在发布模型权重时,如果没有足够的细节来理解模型及其开发过程,从而进行修改或理解其设计和最终特征背后的原因,可能会阻碍理解或阻止完全开源模型的全部优势得以实现。
您为什么认为 AI 应该开源?
拥有开源模型显然有优势。访问此类完全记录的模型可以帮助更广泛的人群——训练有素的研究人员以及许多其他人——他们可以出于自己的目的使用、研究和检查这些模型。虽然并非所有模型都应在所有条件下开源,但对这些模型进行更广泛的审查和研究可以帮助提高我们对 AI 系统行为的理解,提高社会对 AI 能力的准备和认识,并通过让更多人理解和探索其缺陷来提高这些模型的安全性。
通过 Pythia 语言模型,我们已经看到许多研究人员探索了关于这些模型的安全性 和偏见的问题,包括我们自己无法研究或甚至无法预测的广泛问题。这些不同的观点是使 AI 系统更安全和更广泛地有益的关键组成部分。
您认为数据在开源 AI 中的作用是什么?
数据是 AI 系统的关键组成部分。围绕训练数据集的透明度(以及可能开放发布)可以为研究人员、从业人员和整个社会带来广泛的扩展利益。我认为,为了使模型真正开源,并从其开放性中获得最大的好处,必须透明地共享关于训练数据的信息。此信息也很重要,它可以让开源社区的各个成员避免彼此独立地重复工作。关于数据集创建选择的动机和发现的透明共享可以提高社区对未来系统和数据集设计的集体理解,并最大限度地减少重叠和浪费的努力。
您个人对开源 AI 的定义是否在此过程中发生了变化?在参与协同设计过程时,您遇到了哪些新的视角或想法?
我逐渐欣赏的一个有趣的观点是,开源 AI 定义包括公共和开源许可的训练和推理代码。实际上,使社区和从业人员能够有效地使用自己的开源 AI 模型是促进透明度的关键步骤,尽管这通常没有得到充分的讨论。
您认为一旦有了明确的开源 AI 定义,主要好处是什么?
拥有明确的开源 AI 定义可以更清楚地了解当前现有的“开放”系统属于哪个范畴,并可能鼓励未来“开放权重”模型以更高的透明度发布。许多当前的开放权重模型是在不符合开源原则的定制许可证下共享的——这会造成法律上的不确定性,并且也降低了新的“开放权重”模型发布将使广大从业人员受益或有助于更好地理解如何设计更好的系统的可能性。我希望更清晰的开源 AI 定义将使划清这些界限变得更容易,并鼓励目前发布“开放权重”模型的人员以更符合开源 AI 标准的方式这样做。
您认为参与开源 AI 的社区的下一步是什么?
开源 AI 研究社区令人兴奋的未来方向是探索更好地控制 AI 模型行为的方法;尝试探索对 AI 系统进行集体修改和协作开发的方法,这些系统可以随着时间的推移进行调整和“修补”。更深入地了解如何正确评估这些系统的能力、稳健性和安全性也将至关重要。我希望看到社区未来更加关注评估。
如何参与
OSAID 协同设计过程向所有对协作感兴趣的人开放。有很多种参与方式