解释数据信息的概念

开源人工智能定义的 v0.0.8 草案中包含的数据信息概念似乎引起了一些困惑。一些读者可能已经看到了可选组件列表中的原始数据集,并迅速跳到了错误的结论。这篇文章阐明了草案如何达到目前的状态,数据信息概念背后的设计原则,以及它在(法律和技术方面)运行的约束。

开源人工智能定义的objective

开源人工智能定义的目的是在人工智能(AI)的背景下,为AI系统的最终用户和开发者复制自主性、透明度、无摩擦重用和协作改进的原则。这些原则在前言中描述。

前言之后是开源人工智能的定义,它是自由软件(也称为“四项自由”)定义的改编,适用于人工智能术语。前言和四项自由是在多次会议和公开讨论(线上和线下)中共同设计的,最近没有收到重大评论。

自由软件定义规定,研究和修改程序的自由的先决条件是能够访问源代码。源代码被定义为“进行更改的程序的首选形式”。 v0.0.8 草案包含对享受研究和修改人工智能系统自由所必需内容的描述。这个名为修改机器学习系统的首选形式的新章节引发了激烈的辩论。

什么是进行修改的首选形式

“进行修改的首选形式”的概念侧重于机器学习系统,因为这些系统需要数据和训练才能生成可工作的系统。其他人工智能系统更容易归类为软件,不需要特殊的定义。

协同设计过程的系统分析阶段显示,研究和修改机器学习系统需要数据、训练和推理代码以及模型参数。对于参数,没有歧义:开源人工智能必须在尊重开源原则(无领域使用限制,不歧视人群等)的条款下提供它们。对于数据和代码要求,“进行修改的首选形式”部分中的文本更长且更难解析,从而产生了一些困惑。

代码和数据要求的目的是确保开源人工智能系统的最终用户、部署者和开发者拥有从头开始重新创建该人工智能系统的所有工具和说明,以满足研究和修改系统的自由。从高层次来看,建议强制发布带有许可许可证的训练数据集以成为开源人工智能是有道理的。

然而,经过仔细检查,很明显,共享原始数据集充满了陷阱。实际上,它使开源相对于不透明和专有的AI系统处于劣势。

数据的问题

数据不是软件:数据的法律环境比版权法更广泛。聚合大型数据集并在国际上分发它们是一场无休止的噩梦,其中包括隐私法、版权、特殊权利、专利、秘密等等。在不深入研究法律问题的情况下,让我们关注实际示例,以阐明为什么训练数据集的分发未在数据信息概念中明确规定为要求。

  • The Pile,用于训练非常开放的 Pythia 模型的开放数据集,在涉嫌侵犯版权后被撤下,目前正在美国进行诉讼。然而,Pile 在日本似乎可以合法共享。目前还不清楚它是否可以在欧盟合法共享。
  • DOLMA,用于训练非常开放的 OLMo 模型的开放数据集,最初以限制性许可证发布。后来切换到许可许可证。经过进一步检查,DOLMA 似乎遭受与 Pile 相同的法律不确定性,但是艾伦研究所尚未被起诉。
  • 像联邦学习这样保护隐私的训练技术不会创建数据集。

所有这些案例都表明,要求原始数据集会在应用开源人工智能定义时产生模糊性和不确定性

  • 如果数据集仅在日本合法,那么该人工智能是否仅在日本是开源的?
  • 如果数据集最初是合法可用的,但后来被撤回,那么人工智能是否会从开源变为非开源?
    • 如果是这样,那么使用这种人工智能的应用程序会发生什么?
  • 如果没有创建数据集,那么使用这种技术训练的任何人工智能是否会成为开源的?

此外,有理由相信 OpenAI、Anthropic 和其他专有系统已经在 The Pile 和 DOLMA 内部的相同有问题的数据上进行了训练:但是,证明这一点要困难得多且成本更高。这显然是不鼓励在数据源上保持开放和透明,从而增加了试图做正确事情的组织的负担。

为了解决这些问题,v0.0.8 草案包含了数据信息的概念,并结合了代码要求,以获得预期的结果:使人工智能系统的最终用户、开发者和部署者能够重现开源人工智能。

理解数据信息的概念

在开源人工智能定义的草案中,数据信息被定义为:

关于用于训练系统的数据的足够详细的信息,以便熟练人员可以使用相同或相似的数据重新创建基本等效的系统。

从结尾开始阅读:数据信息的目的是允许开发者使用相同或相似的数据重新创建基本等效的系统。这意味着开源人工智能必须披露所有成分、购买地点以及准备菜肴的所有说明。

这是协同设计过程得出的解决方案,审阅者没有将训练数据集排在与他们对训练代码和数据透明度要求的排名一样高的位置。

数据信息和代码要求也解决了围绕分发数据和数据集的合法性或其缺失的所有问题。

如果数据集仅在日本合法或后来变得非法,仍然应该能够重新创建一个适合训练等效系统的数据集,用类似的片段替换非法或不可用的片段。

使用联邦学习(不创建数据集)训练的人工智能系统如果发布了所有说明和代码,以便可以使用不同的数据进行新训练以生成等效系统,则仍然可以是开源人工智能。

数据信息概念还解决了(在论坛上提出的)一个示例,即在直接从 Reddit 获得许可的数据上训练的人工智能系统。在这种情况下,如果原始开发者发布了足够的信息,以允许另一位人工智能开发者使用从现有数据集(如 CommonCrawl)获取的 Reddit 数据重新创建基本等效的系统,则它将被视为开源人工智能。

提议的替代方案

虽然 v0.0.8 草案总体上受到好评,但论坛上的一些人批评它将训练数据集放在“可选要求”中。我们收到的一些建议和反对意见

  • 当训练数据集无法合法共享时,要求使用合成数据:如果该技术发展到足够可靠,这种技术可能在某些特殊情况下有效。它既昂贵又未经大规模测试。
  • 所有组件都是“开源”的人工智能系统归类为开源人工智能:这种方法并非植根于 GNU 项目长期以来的实践,即接受系统库例外和其他妥协,以换取更多的开源工具。
  • 通过抓取互联网构建的数据集相当于盗窃,它们根本不应该被允许,更不用说在开源人工智能中被允许了:这种反对意见忽略了大型数据聚合商已经合法获得积累相同数据(通过抓取和使用条款)的权利并对其进行交易的现实,从而独占了本应属于公共领域的经济价值。阅读《迈向人工智能训练的图书数据公共领域》以了解更多详情。对于文本和数据挖掘等同于盗窃,目前还没有普遍共识。

这些要求和建议很难接受。我们需要一个能够有效指导用户和开发者做出正确选择的开源人工智能定义。我们需要一个不会使开源人工智能开发者相对于专有开发者处于劣势的定义。我们需要一个从一开始就包含正面示例的定义,以便我们可以实际向政策制定者展示积极的品质。

关于数据、如何激励创建可以在国际上安全地分发、同时保护隐私的数据集的讨论极其复杂。它可以与开源人工智能定义分开解决。OSI 正在与开放未来基金会和其他机构合作,设计一系列会议来解决数据治理问题。我们将很快发布公告。

现在发表您的意见

数据信息和代码概念乍一看很难掌握。但是验证阶段的初步结果证实,v0.0.8 草案按预期工作:Pythia 和 OLMo 都将是开源人工智能,而 Falcon、Grok、Llama、Mistral 则不会(即使它们使用了 OSD 兼容许可证),因为它们不共享数据信息。 BLOOM 和 StarCoder 会因其模型中的领域使用限制而失败。

数据信息可以改进,但它比迄今为止提出的其他解决方案更好。随着我们越来越接近发布稳定版本的开源人工智能定义,我们需要听取您的意见:如果您支持这个概念,请今天在论坛上发表评论。如果您不支持它,请尝试提出至少涵盖上述 Pile、DOLMA 和联邦学习的实际示例的替代方案。帮助社区推动对话向前发展。