关于新兴的开放人工智能领域

本文由开放未来基金会战略总监阿列克·塔科夫斯基撰稿,该基金会是开放运动的智库。

BLOOM 和 Stable Diffusion 等开放模型的发布是开放人工智能领域具有象征意义的诞生时刻。近几个月来,支撑开源编程和其他构建信息共享领域的原则正在应用于人工智能研究和开发。这是一个转折点,值得每一位关心开源软件未来的人认真思考。

几周前,我仔细研究了这个新兴领域,并撰写了一篇分析,重点关注许可模式的作用(随后是一篇Twitter 帖子)。我想了解这些发展如何与其他更早的开放领域(如开源软件、开放科学或开放数据)相关联。反过来,人工智能研究人员选择的开放方法可能会对这些其他领域产生什么影响。

“开放人工智能”这个术语并不理想。毕竟,OpenAI 是一家公司的名称。因此,我们需要在企业品牌阴影下构建这个新兴领域。正如我的朋友 保罗·凯勒 和我一起集思广益,讨论是否可能有更好的术语时,他说问题在于“机器吞噬内容”时代下的开放共享。

近几个月来,大型语言模型和文本到图像模型等人工智能工具的发布方式,将开放共享规范与负责任的人工智能愿景联系起来。BigScience 研究工作室 最近发布了 在 RAIL(一种新的“负责任人工智能许可证”)下发布的 BLOOM 模型。紧随其后的是 8 月份发布的 Stable Diffusion,这是一个在 CreativeML Open RAIL-M 下发布的文本到图像模型。这是一个衍生许可证(RAIL 是一个开放式许可证系列)。此外,Meta AI 发布了一个 OPT 语言模型,该模型采用类似的定制许可证,允许研究用途。有趣的是,它没有将其描述为“开放”发布。

这些新许可证旨在确保不仅资源的开放性,还要确保对人工智能模型影响的责任。它们正在解决我们所说的 开放悖论:开放性在今天既是权力集中的挑战者,也是推动者。

“开放与负责任”现在是人工智能领域的一个热门话题。但它也为更广泛的开放共享空间以及建立在开放框架之上的公司和组织提出了问题。它也预示着迫切需要重新审视开放许可框架。安娜·马兹加尔称之为“开放许可的奇点”,并主张从基本权利的角度审查开放许可证。

请考虑这一点:开放人工智能工具与开放服务器(Apache 软件基金会)、浏览器(Mozilla)或百科全书(维基百科)具有相同的生成潜力。但这是首次,辩论不仅仅关于共享。风险管理和负责任的使用从一开始就被提出,不是作为与开放性相关的问题,而是作为同等重要的规范。在 RAIL 许可证的案例中,其创建者更注重弄清楚如何强制执行负责任的行为,而不是开放性(他们认为这是理所当然的)。该许可证旨在实现道德准则未能实现的目标。丹麦承包商丹尼尔·麦克杜夫、朱莉娅·海恩斯、珍妮·李、克里斯托弗·海因斯、布伦特·海克特、尼古拉斯·文森特和韩林·李在 ACM FAccT 2022 上发表了一篇优秀论文,探讨了负责任人工智能的行为使用许可。任何对该主题感兴趣的人都应阅读此文。

放弃最宽松的许可证真的有必要吗?真的值得吗?真的可以找到平衡吗?维基媒体的约翰·魏茨曼最近认为,使用限制无效。新许可证提出的其他问题包括执行、治理、许可证扩散、同行生产以及创建开放替代方案背后的变革理论。我在我最近的 关于开放人工智能的笔记 中更详细地定义了这些问题。

有些人会问 RAIL 许可证是否真的是开放许可证。我不认为这是关键问题。更重要的问题是,我们是否需要重新审视开放许可框架和定义,并将负责任的许可作为开放的一种形式来接受。

我最近发表了一篇与 Zuzanna Warso 合著的 白皮书,内容是关于使用开放许可的照片进行面部识别训练数据集。我们遵循了亚当·哈维及其 exposing.ai 项目 的前期工作(亚当还对与开放许可相关的数据集方面进行了 详细探索 )。这些有争议的案例表明,信息共享领域的不道德使用是为人工智能训练部署关键数据集的副作用。它们还表明了分配责任和确保负责任使用的重要性——这与新的 RAIL 许可证旨在解决的问题相同。

在我们的论文中,我们认为这些数据集(以及人工智能系统的其他要素)应作为公共领域进行管理。随着人工智能公共领域 被设计出来,许可制度是需要回答的关键问题之一。希望答案将由开放倡导者和人工智能研究人员共同产生。如果您想参与此类对话,请在 Twitter 上找到我 (@atarkowski)。

图像由 Stable Diffusion 生成,使用提示语“绽放的人工智能”。