OSI在联合国“为了善”OSPO活动

本月早些时候,开源促进会参加了由联合国在纽约市举办的“为了善的OSPO”活动。 OSI执行董事斯特凡诺·马富利参加了一个由迈赫迪·斯内主持的关于开源人工智能的小组讨论,同场的杰出演讲者包括阿什利·克莱默、克雷格·拉姆拉尔、萨莎·卢奇奥尼和塞尔吉奥·加戈。 请在下方找到斯特凡诺演讲的文字稿。

迈赫迪·斯内  

什么是人工智能领域的开源?它意味着什么?基础组成部分是什么?数据发展到什么程度了? 有人提到权重和数据技能。我们如何真正理解人工智能领域的开源是什么?今天,加入我们的是一位可以帮助我们理解人工智能领域开源的含义以及我们前进方向的人。斯特凡诺,您能分享您的见解吗?

斯特凡诺·马富利  

谢谢。 我们对此有一些想法。自从GPT开始出现以来,我们就一直在思考这些问题。我们问自己:如何将无需许可的创新原则以及开源生态系统创造的巨大价值转移到人工智能领域?

经过两年多的研究以及与多个利益相关者的全球对话,我们确定了三个关键要素。 首先,无需许可的创新需要移植到人工智能领域,但这很复杂,必须分解为更小的组成部分。

我们意识到,作为人工智能系统的开发者、用户和部署者,我们需要了解这些系统是如何构建的。 这包括仔细研究所有组件,能够出于任何目的运行它们而无需请求许可(开源的基本原则),并修改它们以根据相同的输入更改输出。 这些基本原则包括能够与他人分享这些修改。

为了实现这一点,您需要数据、用于训练和清理数据的代码(例如,删除重复项)、参数、权重以及一种对这些权重进行推理的方法。 这相当简单明了。然而,挑战在于法律框架。

现在,复杂的部分是开源软件如何取得了非常出色的发展,这基于管理开源的法律框架相当简单且在全球范围内被接受的事实。 它建立在版权之上,这是一个在两个方面都运行良好的系统。 它赋予内容创作者专有权利,但也可以使用相同的机制向任何接收创作的人授予权利。

对于数据,我们没有这种机制。这是一个非常简单而戏剧性的认识。 当我们谈论数据时,我们应该注意我们正在讨论哪种数据。有作为内容创建的数据,也有作为事实的数据;例如火灾、速度限制或道路痕迹。 这些是事实,它们的处理方式不同。 还有私人数据、个人信息和各种其他类型的数据,每种数据在世界各地都有不同的规则和规定。

未来,政府的主要作用将是通过协调这些规则来促进数据领域无需许可的创新。 这将创造公平的竞争环境,目前大型企业比开源开发者或希望创建大型语言模型的人拥有更多的权力。 政府应帮助创建数据集、消除障碍,并为学术界、小型开发者和全球南方地区提供便利。

迈赫迪·斯内  

我们已经有了开放数据和开源。 现在,我们需要创建开放人工智能和开放模型。 当我们谈论开放人工智能时,我们是将这两个领域结合在一起并保持分离,还是从头开始创建新的东西?

斯特凡诺·马富利 

这是一个非常有趣且有力量的问题。 我认为开放数据作为一种运动已经存在很长时间了。 然而,直到最近,数据科学家才真正意识到他们手中握有的价值。 数据是可替代的,可以用来构建与原始领域完全不同的新事物。

我们需要更多地讨论这个问题,并建立平台以实现更好的互动。 一个引人注目的例子是一个流行的图像数据集,用于训练许多图像生成人工智能工具,该数据集多年来包含儿童性虐待图像。 一篇研究论文强调了这个巨大的问题,但没有人提交错误报告,数据集的维护者也没有简单的方法来注意到并删除这些图像。

软件世界非常了解某些事物,数据科学家也非常了解某些事物。 我们开始看到需要更多的空间来进行互动和相互学习。

对话非常复杂。亚历克斯和我对此进行了长时间的讨论。 我不想完全专注于此,但我想说的是,开源从来不是为了取悦公司或特定的利益相关者。 我们需要将其视为一个权力平衡得以维持的生态系统。

虽然开源软件和开源人工智能仍在发展,但必要的要素——数据、代码和其他组件——已经存在。 然而,数据的部分仍然需要讨论和最终确定。 推动数据的彻底开放有明显的缺点和问题。 这将是意图的平衡,旨在为公众和整个生态系统取得最佳结果。

迈赫迪·斯内  

非常感谢。 我的下一个问题是关于未来。 您对下一个重大技术有何看法?

斯特凡诺·马富利 

从开放创新的角度来看,这关系到什么将使社会掌控技术。 开源的重点一直是使开发者和最终用户对其使用的技术拥有主权。 无论是量子计算机、人工智能还是未来的技术,保持这种控制至关重要。

政府需要在促进创新和确保没有单一权力变得过于强大方面发挥作用。 必须保持私营部门、公共部门、非营利部门以及经常被忽视的第四部门(包括为公共利益而非为利润工作的开发者和创作者)之间的平衡。 这种平衡对于建立一个所有利益相关者都拥有平等利益和影响力的生态系统至关重要。


如果您想完整收听小组讨论,可以在这里收听(开源人工智能小组讨论大约在1:00:00开始)。