开放权重:并非如您所闻

在快速发展的人工智能领域,开放权重已成为一个流行语,表示人工智能透明度方面的渐进式进步。通过分享已训练模型的最终参数,开发者提供了一些关于神经网络如何运作的见解。然而,这些权重仅揭示了全面问责所需信息的一小部分。虽然开放权重代表着人工智能系统开放方面的一个里程碑,但它们仍然未能达到许多研究人员和监管机构认为至关重要的透明度水平。

什么是开放权重?

开放权重指的是已训练神经网络的最终权重和偏置。这些值一旦确定,就会决定模型如何解释输入数据并生成输出。当人工智能开发者根据OSI 批准的许可证分享这些参数时,他们授权其他人微调、调整或部署该模型用于自己的项目。

然而,开放权重开源人工智能存在显著差异,因为它们包括:

  1. 训练代码 – 用于创建和管理训练数据集的脚本或框架。
  2. 训练数据集 – 用于训练的完整数据集,在法律允许的情况下。作为替代方案,当训练数据集的发布在法律上不可行时,
    1. 全面的数据透明度 – 关于数据集组成的完整细节,例如来源领域、清理方法或平衡技术。

通过保留这些关键要素,开发者仅提供了模型最终状态的惊鸿一瞥,使得其他人难以复制、审计或深入理解训练过程。

开放权重是一个新概念吗?

远非如此。在过去的十年中,人工智能从业者尝试了不同的信息共享或保留方式,经常在商业秘密与日益增长的人工智能透明度呼声之间寻求平衡。重新燃起对开放权重的兴趣,是为了回应监管审查以及人们日益认识到完全不透明的系统可能会嵌入偏见和歧视性行为。

2023 年,希瑟·米克尔(Heather Meeker),一位公认的开源许可专家,发布了开放权重定义,使许多此类对话正式化。她的工作阐明了最终模型参数的许可使用和分发,同时强调了一个差距:模型创建背后的完整过程仍然未公开。随着关于开源人工智能的讨论愈发激烈,关于仅靠开放权重是否能够提供合乎道德和负责任的人工智能所需的透明度的争论也随之加剧。

开放权重的局限性

虽然开放权重比纯粹的专有人工智能更透明,但它们仍然缺乏开源人工智能的几个关键要素。

1. 缺乏可复现性

可复现性在科学和技术进步中至关重要。如果没有训练代码中间检查点,研究人员和审计人员就无法复制模型的开发过程。这种差距阻碍了识别偏见可能在何时何地被引入的努力,使得纠正错误或漏洞几乎不可能。

2. 数据不透明

“垃圾进,垃圾出”这句话非常适用于人工智能。如果训练数据不具代表性或来源不符合道德规范,模型的输出可能会表现出有害的偏见。然而,开放权重通常不明确数据集是如何构建或清理的。这种疏忽留下了一个重要的盲点,阻止了原始开发团队以外的任何人充分评估数据集的质量或多样性。

3. 监管障碍

世界各国政府正在制定政策,强制要求人工智能具有更高的透明度标准,特别是对于部署在金融、医疗保健和公共管理等敏感领域的系统。仅披露最终权重可能无法满足这些新兴法规,因为缺乏训练代码数据集详情可能会违反关于公平性、隐私或可解释性的要求。

4. 有限的社区协作

开源人工智能的核心优势之一在于其解锁的协作潜力。当整个流程——训练脚本、数据集组成和中间检查点——都公开可用时,全球社区可以共同努力改进模型、修复错误或解决伦理问题。相比之下,开放权重大大降低了这些可能性,将有意义的贡献限制在肤浅的微调而不是深入的改进上。

开放权重 vs. 开源人工智能

开源人工智能的四大自由

遵循开源软件背后的相同理念,开源人工智能在授予用户以下自由的条款下提供:

  1. 使用 – 无需寻求额外许可即可将系统用于任何目的的自由。
  2. 学习 – 自由学习系统如何工作,并理解其结果是如何生成的。
  3. 修改 – 自由修改系统以用于任何目的,包括更改其输出。
  4. 分享 – 自由与他人分享系统,无论是否进行修改,用于任何目的。

行使这些自由的基本前提是能够访问进行修改所需的首选形式,以及使用它的实际方法。 开放权重单独来看未能达到这一点,因为它们不提供全面的使用、学习、修改和共享所需的底层训练过程、代码或全面的数据细节。

为了更好地理解为什么开放权重开源人工智能差异如此之大,请考虑以下比较:

特征开放权重开源人工智能
权重与偏置已发布已发布
训练代码未共享完全共享
中间检查点已保留最好有
训练数据集未共享/未公开已发布*
训练数据组成部分/未公开完全公开

显然,通过提供最终模型参数,开放权重标志着相对于完全专有解决方案的显著进步。然而,开源人工智能更进一步,解锁了整个开发过程。这种全面的开放性实现了完全的可复现性、彻底的偏见审计和强大的社区驱动改进。

* 在法律允许的情况下。请参阅开源人工智能定义常见问题解答

为什么人工智能的透明度很重要

符合伦理道德的人工智能开发

模型的公平性在很大程度上取决于数据质量和均衡的训练程序。开源人工智能允许审查人员尽早发现和解决潜在的偏见,而开放权重本身无法提供足够的背景信息来保证符合伦理道德的性能。

监管合规

政策制定者需要确凿的证据来证明人工智能模型符合关于隐私、歧视和消费者保护的法律。对于开放权重,监管机构只能看到最终结果,而看不到达到结果所采取的步骤。完全的开放性减轻了在各个司法管辖区证明模型合规性的负担。

创新与协作

当世界各地的专家可以检查训练代码数据集详情以及理想情况下的中间检查点时,他们可以共同改进算法、修复错误并扩展模型的适用性。这种共同努力以开放权重本身无法比拟的方式推动了创新。

信任和公众认知

在一个数据泄露和算法争议不断的时代,公众对人工智能的信任仍然脆弱。提供完全透明度的模型——这是开源人工智能的标志——更有可能获得利益相关者的认可,他们担心诸如隐藏偏见或无法问责的决策等问题。

开放权重的作用:退而求其次的选择?

许多人将开放权重视为一种妥协——比完全专有人工智能稍好的选择。通过至少使最终参数可访问,开发者在一定程度上提供了对模型决策逻辑的洞察力。这对于某些低风险应用可能就足够了,在这些应用中,最低限度的问责制就足够了。

然而,对于医疗保健、自动驾驶汽车或金融承保等人工智能决策具有重大影响的行业而言,开放权重的部分透明度是不够的。全面的问责制要求不仅要理解最终模型,还要理解它是如何构建的、它所依赖的数据,以及它可能在哪些方面偏离了道德最佳实践。

底线

开放权重乍一看可能显得具有革命性,但它们仅仅是一个起点。虽然与严格封闭的专有模型相比,它们确实使透明度更进一步,但它们缺乏开源人工智能中发现的详细见解。为了使人工智能既可问责可扩展,从初始数据集到最终参数集,管道的每个部分都需要公开接受审查、验证和集体改进。

如果您关心值得信赖、公平且符合即将出台的法规的人工智能系统,请将目光超越开放权重。了解更多关于开源人工智能的信息,全面的可复现性和透明度在这里培育了一个更健康、更具创新性的生态系统。通过拥护这种演变,我们可以朝着惠及所有人,而不仅仅是少数人的解决方案迈进。

保持知情,积极参与

加入我们的讨论论坛,与正在塑造开源人工智能未来的研究人员、开发者和政策制定者建立联系。在这里,您可以分享见解、学习他人的经验,并及时了解人工智能领域的最新突破和监管变化。