OSI 的深度探讨是关于人工智能和开源未来的重要讨论

[赞助商观点]

作者:迈克·林克斯维耶,GitHub 开发者政策主管

构建人工智能并从根本上加速人类进步的动力贯穿了计算机发展的历史。自由软件由人工智能实验室的开发者创立,开源术语由人工智能和纳米技术智库的领导者创造,这并非巧合。“人工智能”经历过起伏和定义的变化,但现在很明显,过去十年的深度学习革命将是变革性的——无论是仅仅作为 软件 2.0,还是更重要的东西。 GitHub 赞助开源促进会的 深度探讨:人工智能,因为我们认为社区有必要深入探讨开源软件、流程和原则如何才能最好地实现人工智能的承诺。 

开源是人工智能开发的核心

开源是人工智能发展的关键驱动力,体现在三个方面。首先,领先的人工智能工具都是开源的。像 PyTorch 这样的开源框架是训练人工智能系统普遍存在的基础设施。 同样,开源软件为负责任的人工智能开发提供了必要的工具,使开发人员能够使用像 InterpretML 这样的软件包提高人工智能系统的透明度,并使用像 AIF360 这样的工具包来衡量偏差。 

其次,开源协作为开发人员构建人工智能系统提供了路线图。 

我们正在见证大量训练好的机器学习模型在开源和其他公共许可证下被置于公共领域。这使开发人员能够出于自己的目的使用、训练、修改和重新分发模型,从而构建类似于支撑现代软件开发的开源库和软件包生态系统的人工智能开发流程。许多这些项目正在为社区如何协作构建人工智能设定规范。从许可证的角度来看,这产生了不同的结果。 EleutherAI 正在为其工具和模型使用开源许可证。其他人正在根据 许可证 发布人工智能模型,这些许可证可能允许任何用户使用、修改和共享模型——只要他们避免作者在许可证中认为不道德的用途。

第三,自由和开源软件激发了相关关键领域的类似开放运动,例如开放获取、开放数据和自由文化,以产生“信息共享”。这些运动是人工智能民主化的基础驱动力,维基百科的普及和诸如 Common Crawlthe Pile 等用于训练人工智能模型的抓取数据集证明了这一点。如果没有这些开放运动通过规范、实践、法律支持,当然还有社区的结合创造的信息共享,人工智能的发展将会更慢,并且更局限于仅拥有专有数据的最大实体。

人工智能将成为[开源]软件开发的核心

人工智能正在改变软件的制作方式。似乎每周,开发人员都会遇到新的 AI 驱动的工具,这些工具可能会改变软件的构建和维护方式。其中最主要的是代码生成系统,这些系统充当开发人员的结对程序员,帮助他们更快地编写代码。自从我们去年推出 GitHub Copilot 以来,其他公司也发布了用于代码生成的人工智能系统,例如 Amazon、卡内基梅隆大学、DeepMind、Meta、OpenAI、Replit、Salesforce 等。这些系统现在或不久的将来,不仅可以帮助程序员生成新代码(尤其是必要但痛苦的样板代码和测试),还可以帮助进行代码文档编写以及从一种编程语言到另一种编程语言的翻译。人工智能驱动的开发者工具在减少程序员繁琐工作方面的潜力巨大。

人工智能还有望在多个维度上扩展开发人员的能力和机会:使更多开发人员可以使用高级工具(如形式化方法),使更多人成为开发人员(降低编写有用代码的门槛,加速学习),并在降低软件成本的同时提高软件质量,这将增加开发人员的总体机会和需求(正如开源在过去几十年所做的那样)。

由于人工智能模型的相对不透明性和复杂性,人工智能本身也给软件的正确性和供应链安全带来了新的挑战。我们可以预见人工智能模型作为依赖项的使用将激增,这为软件供应链安全和出处提出了新的问题。为了负责任地使用人工智能,我们将不得不借鉴传统软件生态系统安全方面的经验和投资——开发人员、安全研究人员和整个社会(每个人都将得到人工智能工具的辅助)之间的全球性开放协作对于管理人工智能风险和推动与人类进步保持一致至关重要。

迈向开源和人工智能的强大社区管理

开发人员可能正处于类似于网络出现时的转折点。随着库、代码和实践更容易获得,开源开发随着网络而加速,但也引发了 FOSS 社区关于用户自主权和透明度的问题,因为代码从分发转向服务。人工智能可能构成软件经济学的另一次转变,促使自由软件和开源积极分子将其政策野心从保护私人创建的监管豁免(版权许可证)扩大到包括围绕公共监管的 倡导

开源促进会既是 开源定义 的管理者,又是关于开源的元讨论的焦点,因此具有独特的地位来主导关于人工智能的未来如何体现开放精神的对话。

一个基本问题:对于人工智能系统而言,开源意味着什么?例如,预训练模型能否成为其自身修改的首选形式?或者,模型要成为开源模型,需要使用开源许可证的最少先决条件是什么?在生成开源模型的背景下,应如何处理包含个人或其他敏感数据的训练集?这些问题不仅将告知现有和新的开源社区的行动,还将受到公共政策的影响——例如,欧盟人工智能法案草案提到了开源人工智能系统,尽管对于什么是开源人工智能还没有明确的定义。

另一组基本问题涉及开源人工智能项目如何治理,以及开源在人工智能治理中发挥什么作用:在哪些层面上(例如,技术、社区规范、标准、法律、公共政策),采用什么方法,以及不同的方法可以是互补的,还是必然会限制跨项目的协作或互操作性。

最后,关于人工智能的宏观影响的问题,从劳动力到地缘政治,以及开源在塑造良好的宏观结果方面可以发挥的作用,至关重要。例如,全球在人工智能方面的开放合作如何降低失控的军事竞争或技术突袭的风险,同时增加利用人工智能刺激创新以帮助应对气候变化等全球挑战的益处?

开源协作已经从个人实验室的小规模发展到全球且很大程度上非正式的社区,再到包括巨额企业投资并为社会大部分关键基础设施提供动力的生态系统。随着政府成为开源的关键参与者,以及人工智能大规模扩展软件将在社会中扮演的角色,这种规模的扩大仍在继续加速。后者——人工智能——对于开源社区提出具有挑战性的问题是一个很好的提示,其中许多问题已经在表面下涌动,这是由于开源和软件与社会各界和世界各地的接触面和重要性增加所致。

我们很高兴 OSI 正在迎接挑战,参与到如此重要和深刻的问题的讨论中,这些问题远远超出了开源最初的实际背景——但一直存在于我们的愿景之中。我们期待为 深度探讨:人工智能对话 做出贡献并关注其进展,并鼓励大家加入。