第一集:文字记录稿

[介绍]

[00:00:00] PC: 我们正处于软件开发的某个阶段,要区分哪些是人编写的,哪些是机器编写的,已经不再那么容易了。这个概念可能很简单,但我认为实际应用可能会变得非常复杂。

[00:00:20] SM: 欢迎收听“深度探索:人工智能”播客,来自开放源代码促进会。我们将探讨人工智能如何影响自由和开源软件,从开发者到企业,再到我们所有人。

[赞助商信息]

[00:00:34] SM: “深度探索:人工智能”由我们的赞助商 GitHub 支持。开源人工智能框架和模型将为下一代软件带来变革性影响;推动各行各业发展,普及知识,降低成为开发者的门槛。随着这种演进的持续,GitHub 很高兴参与并支持 OSI 对人工智能和开源的深入探索,并欢迎所有人为对话做出贡献。

[访谈]

[00:01:02] SM: 我是斯特凡诺·马富利。我是开放源代码促进会的执行董事。今天,我与帕梅拉·切斯特克对话,她是一位在开源领域拥有丰富经验的律师,也是开放源代码促进会的董事会成员。她还在商标、版权、广告、营销法领域执业。感谢帕姆的加入。让我们直接进入正题吧,帕姆。从我们在线下的交流中,我知道你对机器创作的材料的版权有一些非常明确的看法。你能否更详细地分享一下你在这方面的想法?

[00:01:35] PC: 我想首先声明,我发言的立场是作为一名美国版权律师,基于美国法律。我认为这个领域在不同的司法管辖区可能会有很大的差异。我只是在谈论我所了解的。美国对于哪些作品受版权保护一直非常明确。多年以来,早在计算机出现之前,他们就非常明确地指出,只有当作品是由人类作者创作时,版权才存在。这可以追溯到很久以前。可能人们最熟悉的著名例子是猴子自拍,一位摄影师声称一只猴子抓起他的相机,拍下了这张猴子露出灿烂笑容的迷人照片。

当他提交版权申请,想要注册这张照片的版权时,版权局驳回了申请,因为公众已经广泛知晓,这是猴子的作品,而不是人的作品。后来故事发生了变化,这个人声称他对整个内容贡献了更多的版权,这与最初的故事有所不同。实际上,维基百科就此事对他提出了质疑。维基百科对此进行了大量的调查,并得出结论,认为这张照片不具有版权,因为它是猴子拍摄的。

另一个例子是有人想要注册一部作品的版权,他们说这部作品不是他们写的,而是圣灵通过他们传达信息而创作的。版权局驳回了申请,并表示:“不,对不起。它不是由人类作者创作的。我们无法注册其版权。” 我收回我说的这些是版权局的决定,还是版权局现在纳入其指南的诉讼。如果我记反了,请不要责怪我。

[00:03:20] SM: 为了明确起见,圣经是否因为这个原因而不受版权保护?

[00:03:28] PC: 圣经,因为时间太久了。实际上,我对圣经的了解不足以说清楚。当然,由于时间流逝,由于时间期限,它已经不受版权保护。我不知道有多少章节是由上帝口述的,还是仅仅是某人复述了上帝告诉他们的事情。

[00:03:42] SM: 仍然有上帝的参与。当然,在这种情况下,计算机现在是神了。我也在想机器,程序,比如绘画是通过摆动钟摆完成的,最终颜料会落在上面。我的意思是,在那个时候,还是有人在推动水桶。

[00:04:01] PC: 是的。实际上,版权局在这方面也有规定——版权保护的标准,最高法院要求原创性和创造性。如果版权局认为作品没有足够的创造性和原创性,他们会拒绝注册。我个人经历过这种情况,当时我试图为一个特定地点的纪念雕塑注册版权。版权局表示他们拒绝注册。这实际上是一个非常著名的雕塑。版权局拒绝注册,理由是它不够有创意。

版权局确实发现自己,尽管他们声称并非如此,但他们最终扮演了艺术作品和非艺术作品的仲裁者的角色。这是另一个方面,如果我只是推动一个钟摆,之后它就自行运转,那是否有创意?我可以长时间谈论这个问题,因为我认为不同作品的标准差异很大。例如,照片很容易被认为是受版权保护的作品,即使你只是按下快门。围绕照片的法律发展很容易保护它们,但其他作品则不然。

你可能暗示了——存在着我们使用计算机创作艺术作品的复杂性问题。仅仅因为机器参与其中就不能成为界定是否具有版权的分界线,因为我使用 Inkscape 或 Gimp 来创作作品。版权局在这方面有指导意见,说明分界线在哪里。我将读一段很长的段落,请原谅我的朗读和段落的长度。这实际上是基于版权局 1966 年发布的一份声明。想想看。这出自版权局自己的指导文件,名为版权纲要,关于如何进行注册。

它写道:“版权局不会注册由机器或纯粹的机械过程产生,随机或自动运行,而没有任何人类作者的创造性投入或干预的作品。关键问题是,该作品基本上是人类作者的作品,计算机或其他设备仅仅是辅助工具,还是作品中传统的作者身份要素(文学、艺术或音乐表达,或选择安排等要素)实际上不是由人构思和执行,而是由机器构思和执行的。”

那是理论,对吧?我认为那是理论。听起来好像很明确。人类在做什么,机器在做什么,这条线在哪里?这将是基于输入、基于机器学习的作品的版权归属的战场。

[00:06:58] SM: 明白了。就像最近新闻中出现的一个工具,OpenAI 组织开发的名为 DALL·E 的软件。基本上,你给它输入文本,描述一些东西,比如海滩上的日落,机器就能根据这段文本生成艺术作品。呈现出的东西看起来像海滩上的日落。我见过一些实验,用 Twitter 个人简介来描述,并由这个名为 DALL·E 的软件以艺术形式呈现,它们非常漂亮,以至于在 Hacker News 上,一位年轻艺术家发起了一场讨论。他想知道,“从我看到的这台机器的输出结果来看,我可能要失业了。” DALL·E 产生的艺术作品显然是不受版权保护的,对吧?这非常容易理解。

[00:07:52] PC: 是的。是的,我认为是这样。是的。

[00:07:54] SM: 现在,对我来说有趣的是幕后发生的事情,比如 DALL·E 被认为是开源的,或者类似 DALL·E 的东西被认为是开源的。现在,这是一个令我着迷的问题。因为有一点是肯定的,为了训练 DALL·E,让它能够阅读和生成艺术作品,他们必须查看大量的艺术作品,以计算机的角度进行某种奇怪的解读。通过这样做,它需要——最终生成 DALL·E 输出的算法是机器学习的输出,是机器通过自学学习的结果。这是否受版权保护?

[00:08:35] PC: 是的。我认为这就是复杂性所在。要梳理这一切是如何发生的,软件是如何开发的,有人编写了一个软件程序,用于接收输入,然后分析输入,创建规则,或者创建某种模型。当然,人类为了创建最终的 DALL·E 系统而编写的软件,这肯定是受版权保护的。在某种程度上,我们也可以把它分成“这是软件,这是数据”。算法作用于数据产生结果,将数据通过算法运行并产生结果,我认为结果不会被认为受版权保护。

我认为有趣的地方在于,软件本身会因其从给定的数据中学到的东西而进行修改。据我所知,我不是软件工程师,但我们正处于软件开发的某个阶段,要区分哪些是人编写的,哪些是机器编写的,已经不再那么容易了。这个概念可能很简单,但我认为实际应用可能会变得非常复杂。

[00:09:53] SM: 对的。是的,这正是我着迷的地方。我也不是软件工程师。我只是一个建筑师,长期以来一直是这个世界的观察者。我记得有一次,我对人工智能进行了一些非常浅显的探索,或者说从更高级的角度使用人工智能,那是在我过去搭建邮件服务器的时候。我安装了 SpamAssassin。我从来没有真正想过这个问题。SpamAssassin 是一个相当简单的机器学习系统,Apache 软件基金会开发的软件本身由 Debian 打包,并且非常——它很容易安装。APT 从 SpamAssassin 安装。

然后你要做的是用你的一组好邮件,也就是“ham”,和坏邮件,也就是“spam”来喂养它。然后还有一些其他组件。从根本上说,就是这样。你训练模型,你训练 SpamAssassin 理解你的那组好邮件和那些你不想批准的邮件。然后它创建规则。基于这些规则,它将应用过滤器。非常简单。它在 Debian 中。

现在,在这种情况下,我确实理解机器在被喂入垃圾邮件和好邮件后,会生成一个模型。该模型是由机器生成的。这是否受版权保护?通常,你不会在 Debian 中打包这些模型,因为每个人都有自己的垃圾邮件。在任何情况下,它都很容易复制。我从来没有想过这个问题。它可能很容易复制。

[00:11:27] PC: 从你的描述来看,我认为这些模型倾向于被归为不受版权保护的范畴。因为作品的创造性方面在于软件。现在你将数据输入到软件中,然后它吐出来,然后机器算出,软件算出模型应该是什么样的。你没有做出任何艺术性或创造性的选择,或主动的选择。我想,作为一名积极进取的律师,美国版权法中有一个概念,适用于数据库或信息集合,即在信息的选择、协调和安排方面可能存在版权。

举一个类似的例子,如果我选择出版一位诗人的作品选集,并且我希望它是完整的选集,那么我对选集,对总体作品不享有版权。我不拥有诗歌的版权,但我也不拥有选择、协调和安排的版权,因为那里没有创造性的选择。我只是识别出作者的每一部作品并将其收录进去。但如果相反,我说,“嗯,我想选择这位作者的特定作品——所有谈论,比如说,悲伤的作品。” 我浏览一遍,然后选择所有我认为符合这一选择标准的诗歌——我所做的这个创造性选择。

然后我按照一定的顺序排列它们。我不一定按照时间顺序排列它们。我按照从最快乐到最悲伤的顺序排列它们,或者类似的方式。这可能会跨越一条线,被认为是受版权保护的。因为在选择、协调、选择和安排方面存在创造性。这适用于数据库,所以在美国,数据库受到一定的保护。我对模型犹豫的原因是,我的论点是,“嗯,我在选择我要用于训练的好邮件和垃圾邮件时做出了创造性的选择。” 因此,作为训练结果的这个模型,又回到了这个概念,作品是由机器完成的,还是由人完成的?我会说?或者它更偏向于人类的一侧,因为我选择了用于训练的垃圾邮件和好邮件。

[00:13:33] SM: 明白了。

[00:13:34] PC: 这就是我会提出的论点。我不知道它会有多成功,但我会提出它。

[00:13:39] SM: 这说得通。因为如果它不受版权保护,那会发生什么?它是否被认为是完全的公共领域?

[00:13:48] PC: 它只是不受版权保护。有趣的是,我认为我们已经到了社会上的一个阶段,版权最大化主义盛行,人们普遍认为,如果是我创造的,那么我就对其拥有某些专有权。但这根本不是真的。有些作品根本不受任何制度的保护。你可能创造了它,但每个人都可以使用它,因为它出于某种原因,不受版权保护。

我认为这就是它将要——它也变得非常有趣,可能违反直觉,并且难以让人接受,甚至随着时间的推移可能会发生改变。最高法院一直非常明确地指出,他们所称的“血汗付出”不足以使作品获得版权。无论你在这上面花了多少努力,或者投入了多少时间、金钱和精力,如果没有创造性和原创性,这些才是受版权保护的作品的标志。“血汗付出”,投入大量的时间和精力是不够的。我认为这就是它变得非常有趣的地方,因为显然,在机器学习、调整模型上花费了大量的时间和精力。

我的意思是,我们现在从经验中知道,图像生成或图像识别软件的初始训练数据库非常糟糕,这正在造成问题。也把这个概念抛到脑后,血汗付出不足以使其获得版权。无论你在这上面花了多少努力,这都不能使其获得版权。

[00:15:20] SM: 明白了。不,这非常有趣。你触及了一个非常重要的点,因为最终,如果某些东西不受版权保护,那么我们可能就无法轻松地理解它是否是开源的。

[00:15:32] PC: 如果我可以就此展开一下。因为我认为这是一个有趣的观点,它迫使我们真正审视什么是开源?我们的优先事项是什么?我们想要实现什么?某些东西不受版权保护这个事实,是否能让我们达到最初想要达到的目标?无论如何,如果我们认为开源许可证,特别是著作权共享许可证是对版权的一种必要的破解,因为也许软件根本不应该受版权保护。那么,对这些作品不进行版权保护是否实际上是最好的解决方案?这对我们来说实际上是一个很好的结果。那么,你也不再拥有许可证作为为了善意目的的控制工具。你放弃了控制权。

[00:16:19] SM: 这是一个非常有趣的对话,因为这种二分法一直很难解释。我记得曾经与早期的欧洲海盗党成员进行过对话,他们完全反对版权。我们存在一种紧张关系,即不将版权应用于软件,意味着著作权共享也会变得没有意义。回到人工智能的开源问题,我注意到的一件事是,例如,在 Debian 中,Debian 社区内部正在进行一些关于他们是否需要规则来决定他们可以导入到 Debian 档案库中的软件包的对话。

一方面,很容易说 PyTorch、TensorFlow、NumPy,实现一些有趣算法或神经语言、神经处理、文本处理以及计算机视觉的基本软件组件。然后,有一些模型是科学进步所必需的。其中一些模型的许可证不容易解释。甚至对于用于训练模型的基本数据源,大数据集,也存在争论。

关于我们是否需要一个定义,或者我们需要一些帮助来理解什么可以进入并被装运到 Debian 软件包中,是否存在争论。你对此有何看法?

[00:17:48] PC: 我已经面临过这些问题。它们开始越来越频繁地出现。实际上,我发现更令人不安的是用于启动的数据集——实际上,有些人是,我不在乎他们的模型,或者我们将进行自己的建模,所以我们不需要那么多模型。我们将进行自己的建模。这些数据中的一些将是受版权保护的内容。第一个问题是,我是否已获得版权所有者的许可,以这种方式使用这些数据?

作为一个受版权保护内容的例子,照片。我不知道所有的数据在哪里,所有用于训练的照片集都来自哪里。用于训练的主题是受版权保护的。所有这些数据是否允许使用?是否经许可使用?那么,接下来的问题是,如果没有,这对模型意味着什么?如果我使用了我不应该使用的数据,我没有获得许可来建模,这是否会玷污我的模型?

假设模型是在 MIT 许可证或类似许可证下发布的,它是免费提供的。这可以吗?这仅仅是因为模型已经经过充分的消毒,我可以使用了吗?如果我不知道它所训练的内容的质量——如果我不知道我训练的内容的来源?这就是我开始感到头疼的地方。我无法绕过数据集。

[00:19:16] SM: 当然。因为我为这个系列做一些研究时了解到,欧盟有一项新的权利,引入了一项新的权利,数据挖掘权。他们默认开启了这项权利,这令人惊讶。从我目前读到的内容来看,这是对一些事情的回应,我们稍后会邀请嘉宾向我们解释更多。看起来,欧盟委员会被研究人员说服了,认为一些——想想 Flickr 上的图像档案,它们早期实施了知识共享许可。那里有非常广泛的图片,包含大量的元数据和标签,并且具有免费提供的许可证。只是,数据挖掘是否包含在其中尚不清楚。

作为一个人,作为一个国家的公民,我认为自己——就像我现在这张脸就在那里。它可以被用于不正当的用途,而不仅仅是识别照片中的白人男性。这些都是相关的含义。我认为,这在某种程度上与开放源代码促进会和开放源代码定义有关。因为在很多方面,即使我们不——我们作为一个组织,我们努力保持中立,但我们确实有一些组织依赖开源来建立一个技术平台,可以无歧视地实施。现在,我们有能够决定某人是否出狱的人工智能系统。

过去,我们会说,“你必须使代码开源,因为它是公共的。它是公共部门使用的。你必须使代码开源,所以我们需要能够作为公众来检查它,我们也应该能够要求并要求修复。” 现在,对于人工智能系统,事情变得有点模糊不清了。

[00:21:10] PC: 我不知道它们是否变得更加模糊不清。当你提到数据挖掘时,如果我没记错的话,我脑海中隐约记得,欧盟法律下的数据挖掘许可,仅限于非商业用途。OSI 非常明确地表示,我们不歧视商业用途或非商业用途。正如你刚才解释的那样,这是有原因的,即界限划分变得非常困难。善与恶的问题,就我而言,是无法解决的。我们必须采取这个立场,“我们不对这些东西如何使用做出价值判断。”

特别是在了解到由有缺陷的数据库创建的模型存在问题,以及这将造成多大的危害之后,我内心深处非常希望我们能够说,“不,这与我们的信仰体系不符,不应该使用这些。” 我们有这些不歧视原则。我一直非常明确地表示,OSI 软件可以用于邪恶目的。也许我的想法太固执了,但我就是看不到为模型划出不同界限的任何方法。

[00:22:22] SM: 我认为 OSI 的角色不一定是对此进行评判。我们肯定一直在帮助参与政策制定和政策讨论的人们。我想到了像 DFF 这样的组织,或者其他类似的组织,他们愿意将软件以开源许可证的形式提供,这是接受诸如报税之类的基本条件,例如欧洲自由软件基金会长期以来一直在进行的这项运动。公共资金,公共代码。如果是由税收资助的,那么任何软件开发都应该是自由开源的。我们希望就什么是开源人工智能进行对话,或者至少一些团体希望听到这样的对话。也许在某个阶段,我们将不得不进行这样的对话。

[赞助商信息]

[00:23:16] SM: “深度探索:人工智能”由我们的赞助商 DataStax 支持。DataStax 是一家实时数据公司。借助 DataStax,任何企业都可以调动实时数据,并快速构建智能、高度可扩展的应用程序,以成为一家数据驱动型企业,并释放人工智能的全部潜力。借助 AstraDB 和 Astra Streaming,DataStax 以独特的方式在任何云上提供的开放数据堆栈中交付了世界上最具可扩展性的数据库 Apache Cassandra 的强大功能,以及先进的 Apache Pulsar 流媒体技术。

DataStax 每天都在新兴的人工智能无处不在的未来中留下开源创新周期。请访问 datastax.com 了解更多信息。

[访谈继续]

[00:23:56] SM: 你提到你的客户正在从事机器学习方面的工作。他们遇到了哪些问题?

[00:24:02] PC: 我不想分享太多。一个商业案例,我在商业——对于商业客户而言,我发现有趣的是一个重要的案例。我有一个客户,他是一家公司的服务提供商,为另一家公司做一些机器学习方面的工作。这里存在所有权问题,谁将拥有所有权和重用权,以及数据的重用。例如,客户可能会说,“嗯,如果你要使用我的数据,这是我的数据集,我希望你评估一下,并提出一些建模方案。但你不能将此数据集用于其他人。” 因为他们试图获得商业优势,对吧?他们试图为自己获得市场差异化优势。他们认为他们可以通过限制数据集来实现这一点。

实际上,我认为这与商业软件开发非常相似,而不是开源软件开发模式,在商业软件开发中,它是你的专有开发,你将一遍又一遍地重复做同样的事情。如果你不打算分享你的工作成果,或者你不打算使用其他人的工作成果。我认为同样的事情也会发生在这里,好吧,我重新训练一下。我将使用别人的数据集做同样的事情,而这可能看起来与你的数据集非常非常相似。

现在,我想,这里也有一些含义。也许我们是否最好允许使用更多的数据,而不是限制数据?如果我们使用更多的数据,而不是每次都重新发明轮子,我们是否会得到更好的模型?是的,我发现这很有趣。

[00:25:21] SM: 是的。这正是我们在自由软件和开源软件传播初期进行的对话。你为什么要重新发明轮子?为什么每个人都在研究不同的内核和不同的 Unix 变体和方言?为什么你们不合作,把所有的精力都投入到一个内核中,并更快地构建它?我们可能会到达那个阶段。你对人工智能成为一种向善的力量,以及通过开放协作更快进步的方式感到乐观,还是更多地感到担心,担心出现机械战警和天网?

[00:25:59] PC: 这是一个非常好的问题。我没有答案,因为我的信任程度取决于谁在做这件事。我们已经看到一些善意的人,他们理解问题,并且对问题保持警惕。我记得有一个——有一个 Twitter 机器人,大约在八个小时内就变成了种族主义者。几乎在瞬间,它就开始说出贬低性的种族主义侮辱,他们不得不把它撤下来。当然,这让我非常犹豫。我认为我们确实看到这些工具被过早地使用,以有害于我们的方式被警察或监狱系统所依赖。

这些工具还没有经过充分的测试,我们认为少数族裔报告将存在,我们可以预测人们在犯罪之前是否会犯罪。这部分让我感到恐惧。有很多人认识到这些问题的存在。我们仍处于早期阶段,我们将拭目以待。

[00:26:57] SM: 我同意你的看法。这一切都取决于谁能够引导并赢得信任。到目前为止,我有点紧张,因为从我所看到的,人工智能在我们目前看到的工具水平上,比如 DALL·E 和最令人惊叹的那些,真正让你惊叹的那些,需要大量的数据和大量的处理能力,这对于 Debian 开发者来说是真正无法获得的。我们过去常做的软件开发,在 20 年前还很容易访问,可以创建一个完整的发行版,功能完善的 Unix 机器和服务器,但在人工智能系统中,似乎不再以同样的方式容易获得了。

我也希望我们将在未来几周进行的这些对话中的一些能够揭示一些希望和一些前进的道路。因为我真的很喜欢看到学术发展的光明前景,例如,所有的研究。我读到了一些非常有趣的文章,我推荐你读一下,如果你还没有读过的话,自由软件基金会发布的关于 Copilot 分析的论文。其中一些论文非常有思想,令人大开眼界。至少,对于像我这样对这个领域如此陌生的人来说是这样的。

[00:28:19] PC: 我昨天和前天都在思考一件事,我收到一份法语文件需要审查。这是一份用法语编写的法律文件,只是通过机器翻译器翻译成了英文。我们已经达到了一个程度,因为我记得,这还在我的记忆中,最早的时候,Babel 是一个网站,你可以在那里——这真是太神奇了。你能得到任何东西,即使它像当时那样难以理解,也真是太神奇了。

我们现在已经到了依赖机器——我认为机器学习可能始终是目前任何翻译的第一步。然后可能会由人工进行审核,以确保它连贯且易于理解。有时不是这样。有时在我所做的工作中,它可能足够接近了。可能存在一些语法问题,但我理解了要点。我只是把这看作是我们可能在机器学习领域走向的一个例子。我们现在仍处于非常早期的阶段,“是的,我可以理解要点。它不是很棒”,但我们将达到一个程度,即依赖所有这些机器生成的内容,或机器做出的决策将成为我们日常生活中普通的一部分,这非常有趣。

[00:29:34] SM: 就像今天早上那位年轻人在网上论坛上说的那样,“我是一名设计师。我看到自己很快就要因为 DALL·E 而失业了。转录员,转录文本的人和翻译人员,他们基本上从今天开始就已经失业了。借助一些 GPT3,即 OpenAI 的文本处理技术以及他们其他大型项目,也能够总结文本和编写非常基本的营销文案。许多创意工作的低级工作岗位可能会消失。这是一个令人着迷的世界。

[00:30:16] PC: 美联社使用机器编写了一些内容。这是关于公司收益的简单报道,他们使用机器生成的副本。

[00:30:26] SM: 《洛杉矶时报》购买了那个价格,关于地震的小片段。

[00:30:33] PC: 我的意思是,我仍然希望我们始终能够区分,机器生成的东西和人类生成的东西之间存在差异。也许只有细微的差别。始终占据上风。

[00:30:45] SM: 再次强调,对于 DALL·E,我在周末阅读的一些资料中,人们注意到了一些小细节,这些细节让你能够分辨出它是机器生成的,还是艺术家创作的。但没有什么是你不能在 Photoshop 上修饰一下就能修复的。

[00:31:03] PC: 是的。我认为还有一点,回到版权的主题,原创性和创造性,有时被称为艺术家拥有的创造性火花。根据定义,机器不会有创造性火花。我认为我们还有希望。

[00:31:20] SM: 你认为我们还应该谈论些什么吗?

[00:31:24] PC: 我谈到了这个概念——这种冲突,即存在着大量正在完成的工作,但似乎不受版权保护,或者至少,有论点认为它不受版权保护。然而,它的数量巨大。对于一家公司来说,拥有它将是一个巨大的价值主张。但看起来,根据目前的法律,我会说,他们可能不拥有对它的专有权。

这对他们的商业模式意味着什么?他们将如何从中赚钱?在 Red Hat 工作过,我一直被问到一个问题,而且现在还在被问。我已经离开那里很多年了。当我说我在 Red Hat 工作过时,每个人脱口而出的第一个问题是,“他们是如何通过销售免费软件赚钱的?” Red Hat 已经找到了一种很好的商业模式,可以通过这样做赚取相当多的钱。因为微软的建立——早期的软件公司是建立在版权的专有性之上的。你必须付费才能使用他们的版权。那是一种商业模式。

我们这些身处开源领域的人一直在创造性地思考商业模式,因为对于一家公司来说,纯粹的开源模式是行不通的——当然,真正的纯粹主义者很少,对吧?大多数公司都在采用组合模式。他们正在做的是“开放核心”,这在开源方面是一个亏损的先导,但随后他们会向你出售专有小部件的许可证。一个真正纯粹的开源模式非常罕见,非常困难且具有挑战性。当所有这些工作都不受版权保护时,人们可能会争先恐后地思考如何从中获利?对于我没有专有权的东西,我的商业模式是什么?

我们这些已经思考这个问题几十年的人或许能够在这方面帮助他们。也许他们会提出新的模式。也许他们会提出我们从未想过的东西,那也很棒。我认为这对人们来说将是非常具有挑战性的。我该如何从中获利?

访问权是第二种方法,如果你没有版权的话。例如,就像博物馆一样。博物馆没有版权。你不能在我们的展厅里拍照。没有版权。除了更现代的作品外,你不会侵犯大多数作品的版权。他们所做的是,这是允许你访问作品的条件。这是你进入博物馆的条件,即你不拍照。这是一种在开源商业模式中使用的门槛,即在我们收到你的付款之前,我们不会给你可执行文件,然后我们会给你。

我预计我们对某种门槛的依赖,访问门槛将是一种方式。现在有了云技术,你不需要给人们软件的副本。你只需给他们一个访问它的门户。那么这种访问就更容易控制了。

[00:34:07] SM: 像 OpenAI 模式在我看来就像他们正在做的事情,他们构建了这个伟大的机器,然后他们可能通过 API 访问来收费。还有算法塑造事物和移动事物的另一个领域。这对我来说很着迷。它与开源部分的相关性较小,但与公众对话更相关,即 Twitter、Facebook 或 LinkedIn 中的算法决定你对哪些项目感兴趣。最近,再次出现了一些关于 Twitter 正在进行一个名为“蓝天”的新项目的对话,这个项目有点异想天开。他们希望在非常广泛的意义上开源他们的算法。你有什么看法吗?

[00:34:54] PC: 我认为,也许,无论我们所说的开源是指简单地了解算法是什么,还是——我的意思是,也许他们愿意让其他平台使用他们的算法。那将非常有趣。特别是当我们谈论“我是否信任 Twitter 能正确地过滤内容?”时,我对此持有很多怀疑态度。如果这种模式能够在所有社交媒体平台之间公开共享,以便他们可以各自调整它,从而提出更好的模式?根据开源开发理论,这将是一个更好的模式,对吧?因为我们不只是依赖于一个人或一个实体的判断。我们正在从很多人那里获得判断——共识。是的,这很有趣。如果他们真的、真正地意味着开源流程,但这可能不是他们实际想做的。

[00:35:42] SM: 嗯,是的。完全正确。我认为对于他们想要实现的目标,还没有非常好的定义,或者非常好的理解。我读过他们的一些论文,他们似乎是善意的。也在考虑对其进行分发,以便没有任何一个实体拥有对信息或算法本身的访问权。我们拭目以待。我们将看看是否有什么值得关注的东西。

[00:36:05] PC: 这让我想起了这个概念,当我谈到模型是否可以受版权保护时?它是否在许可之下?也就是说,通常发生的情况是,我们倾向于对内容附加许可——如果我们不知道内容是否受版权保护,但我们希望其他人使用它,我们会对其附加许可,因为这样非常明确。我只是把它提出来,因为这样做有一个缺点,那就是通过对所有东西都附加许可,我们减少了我们假设的每个人都可以自由使用的公共领域资源。它在公共领域。无论出于何种原因,它都不受版权保护。

通过对某物附加许可,你是在说,我认为这是可以受版权保护的,你需要许可才能这样做。这样做有一个负面后果。这样做是有原因的,但也有这种负面后果。我只是想把这个概念抛出来,就像他们会对算法附加许可一样,那样会让每个人都高兴,但我们现在刚刚发表了一个公开声明,声明我们认为这个算法是受版权保护的,由一个实体拥有。

[00:37:06] SM: 非常感谢您。

[00:37:08] PC: 非常荣幸。

[采访结束]

[00:37:10] SM: 感谢收听。感谢我们的赞助商 Google。请记得在您的播客播放器上订阅以获取更多剧集。请评论和分享。这有助于更多人找到我们。访问 deepdive.opensource.org,在那里您可以找到更多剧集,了解这些问题,并且您可以捐款成为会员。会员是我们能够完成这项工作的唯一原因。如果您对本集或对 Deep Dive: AI 有任何反馈,请发送电子邮件至 [email protected]

本播客由开源倡议组织制作,Nicole Martinelli 提供帮助。音乐由 audionautix.com 的 Jason Shaw 提供,根据知识共享署名 4.0 国际许可协议授权。链接在剧集注释中。

[结束]