整个社会如何才能保持对人工智能系统的控制?

10 月 13 日深度探讨:人工智能社会小组的文字记录

斯特凡诺·马富利

欢迎大家。欢迎参加深度探讨:人工智能活动。这是由开源促进会举办的系列活动。我们不久前开始了一个播客,探讨人工智能如何从开发者、企业到我们所有人影响开源软件。今天的专题小组是第二阶段探索的一部分。我们邀请了小组讨论人工智能对整个社会的挑战和机遇。下周 18 日和 20 日我们还将举办另外两个小组讨论。但首先让我们从今天的小组成员开始。我是开源促进会的执行董事斯特凡诺·马富利,今天我与以下嘉宾一同参与,排名不分先后:路易斯·维拉,从开发者转型为律师,自 90 年代末以来一直从事开源工作。曾为从初创公司到亚马逊和谷歌的客户提供咨询,曾在 Mozilla、WikiMedia 和 Tidelift 担任内部法律顾问,目前在 Tidelift 担任总法律顾问。曾任开源促进会、OpenETdata.org 董事会成员,并协助起草了相当多的开源许可证。感谢路易斯加入。

路易斯·维拉

开源许可证太多了。除此之外,是的,我很高兴来到这里。

斯特凡诺·马富利

好吧,没人会说是她的错。我只是说了。基特·沃尔什。感谢基特·沃尔什的加入。她是电子前沿基金会的高级律师和助理主任。她领导 EFF 的人工智能和算法正义工作组,还专门研究版权和自由表达。她最近的工作涉及刑事被告挑战黑箱算法的权利,这与今天的主题非常契合。她还代表公众权利,反对政府机构试图采用算法工具来告知有关住房和医疗保健等福利的决策。因此,在该主题上拥有相当多的专业知识。感谢基特今天加入。

基特·沃尔什

是的。谢谢邀请我。

斯特凡诺·马富利

卡洛斯·穆尼奥斯·费兰迪斯是一位律师和博士研究员,专注于知识产权和反垄断角度的开源标准之间的互动。他是 Hugging Face 的技术和监管事务顾问,Hugging Face 是一家初创公司,我不知道如何在不使用其他公司商标的情况下描述它,但这是一个您可以找到大量模型和数据集进行交换的地方。并且,他一直在推动负责任的人工智能许可工作。卡洛斯是名为 Open RAIL 负责任人工智能许可证的新许可证集的起草者之一。他还是经合组织人工智能专家网络成员,经合组织人工智能观察站的成员,专注于监管和监管实验。谢谢,卡洛斯。

卡洛斯·穆尼奥斯·费兰迪斯

非常感谢。

斯特凡诺·马富利

最后是卡特·沃尔什,知识共享的总法律顾问,也是知识共享许可证第四版的合著者。她还在从事公共政策工作,以实现更好的共享和充满活力的评论。自 2000 年代中期以来,卡特一直参与自由和开源软件,包括在 WikiMedia 和自由软件基金会的董事会任职,以及在科技初创公司担任顾问。卡特。谢谢你。感谢您的加入。

斯特凡诺·马富利

今天我想和大家讨论三个主要问题。一是理解人工智能与我们之前已知的其他工具之间的区别。二是整个社会如何才能保持对人工智能系统的控制,以及国家和大公司的权力平衡?然后尝试理解人工智能合作的良好结果,以及我们如何更快、更迅速地获得更好的人工智能、更好的人工智能系统。让我们从第一个话题开始,我们经常听到人工智能提出了独特的挑战,这与我们以前从未见过的技术有关,但我们已经看到一些技术具有危险的用途,如果落入普通人手中,就会变得危险,例如枪支或基因编辑,所有这些东西,核武器,你知道,核能。你们的看法是什么?人工智能与我们以前见过的东西有什么区别?

斯特凡诺·马富利

路易斯,你想先开始吗?

路易斯·维拉

我的意思是,我可以继续,你知道,我可以只用 90 分钟来回答这个问题。但我认为有几件事,对吧?首先,法律一直在处理新技术。关于蒸汽火车如何改变美国法律,有大量的文献。关于汽车,还有另一篇文献。每个美国法学院的学生在法学院读到的第一批案例之一。他们读到一个关于汽车车轮断裂以及这如何改变美国法律的案例。所以在某种意义上,这一切都不是新鲜事,但在另一种意义上,我认为我们在这里看到的速度,我认为这是一个关键的区别因素。我非常想听听基特特别谈谈这一点。我认为人工智能的神话化,对吧?它一直存在于我们的电影中,一直存在于我们的科幻小说中,远早于它成为我们世界的一部分。我认为这真的影响了普通人、普通监管机构对它的看法。而且我认为这种神话化真的让事情变得复杂,这与过去的技术情况不一定相同,对吧?例如,在我们发明 CDA 230 之前,没有人读过关于网络的书,对吧?我认为,我认为这在很大程度上影响了事情。

斯特凡诺·马富利

速度绝对是一个问题。那么,基特?

基特·沃尔什

是的,我可以从那里开始。然后,当我,当我们考虑这个问题时,我还有一些关于它在实际问题上与众不同的想法,对于这个小组来说。我认为特别是我遇到的一个神话,不仅是针对人工智能,而且是任何算法决策工具,就是机器是中立和明智的想法。因此,只要您将关于某人权利或该怎么做的决定交给机器,它就会是公平的。而且,你知道,当我们听到这句话时,我们都会畏缩,但这确实需要对立法者进行大量教育,让他们了解即使只是一个算法决策工具,甚至在您接触到机器学习之前,这些东西如何体现偏差,不仅是程序员的偏差,还有数据和假设的偏差。

基特·沃尔什

这让我想到人工智能的另一个有点不同的地方,那就是它的开发如此依赖于海量数据收集,并且引发了许多新的隐私相关问题,尤其是在数据反映个人私人信息或信息(例如,我在 Flickr 上发布的我的面部照片,我从没想过会有一天被用来训练面部识别系统,供警察用来监禁人们)方面。然后,我认为另一个非常不同的要素是可解释性,以及您需要多少不同的机器学习开发成果才能有可能解释它是如何得出这些结论的。而且我认为这尤其相关,你知道,如果政府试图以影响人们权利的方式使用机器学习系统,那么作为受影响的人,您正当程序的一部分是政府对其针对您做出的决定给出合理的解释。

卡特·沃尔什

而且可能仅仅是因为有些工具类别政府不能合法地用于做出某些类别的决定。然后还有另一类,必须有透明度和流程,既在采用之前,也在个人受到影响时。而且我认为其中一些对于人工智能来说是新的,其中一些只是对于关于人们权利的算法决策来说是新的。但肯定有一些新的东西需要考虑。最后,当您谈论开源自由软件与机器学习时,版权是不同的。本系列已经详细探讨了不同的方面,数据、模型、工具、可能获得开源许可的东西、可能没有任何版权可以附加许可证的东西。因此,您最终会陷入一种无力的境地,即许可证可能不是正确的方法。而且我认为由于所有这些原因,它是不同的。我很好奇卡特和卡洛斯有什么要说的。

卡洛斯·穆尼奥斯·费兰迪斯

是的,我认为只是为了继续基特的思路,只是再补充一点见解。我认为这也与 ML 系统或 ML 模型输出的难度或挑战有关。说实话,当您是一家商业实体,在训练和重新训练以及微调您的机器学习商业应用程序上投入数百万美元时,您永远不会知道,最终您将在封闭的基础上销售这项非常具体的服务。因此,隐含地,您已经在限制公众对该工具的开放使用或访问,因为您知道该工具 99% 的平均概率是正确的,只是针对您的特定情况。因此,作为一般规则,如果我想,例如,开源或只是广泛开放一个 ML 模型或一个 ML 系统,一个 ML 应用程序,很难预测输出,对吧?所以我真的不知道用户将如何使用我将要发布的这个特定工具。

斯特凡诺·马富利

是的,没错,这绝对是不同的地方,你知道,一些新的东西,这种非确定性的结果。您对这些差异有什么看法?

卡特·沃尔什

我想就基特的可解释性观点说几句,我认为这是一个很大的区别。就像核武器或手枪或汽车等其他技术一样,关于它们会发生什么以及可以预测到会发生什么,很多都可以用物理学来解释。你知道,你得到这些输入,你得到这些输出。很容易理解它们可能会做什么以及你可能如何规范它们。而对于人工智能系统,它要不透明得多。就像你得到一组特定的输入,这些输入是如何追踪到输出的?而且我认为很多人都在利用这一点来将自己与输出拉开距离,说,哦,这只是,这是其他东西在做决定。它不是,没有人控制它。

卡特·沃尔什

没有地方可以追究责任或义务。这就是,你知道,这就是其中一件事。我认为另一个是它的可访问性。就像开发这些系统的能力有限,但访问权限正在向更多人开放,他们将它们用于不一定想到的事情,或者可能将它们用于与预期用途不同的目的。而且复制火车或核武器比让人访问一段软件要困难得多。而且,你知道,这带来了许多伟大的积极可能性,但也带来了人们可以想到的所有其他可能性。

斯特凡诺·马富利

是的,这绝对是我们已经看到的,对吧?对于监管这个领域,已经非常明显地出现了困难,尽管显然需要监管,或者说存在对监管的推动。例如,在几周内,我们看到了另一项来自欧洲关于人工智能法案的建议,以继续其立法进程。但是,美国政府的权利法案也是在上周发布了一些东西吗?你知道,那是什么?我们准备好对它进行监管了吗?我们应该在这个阶段告诉监管机构什么?放慢速度等待。继续,卡洛斯。

卡洛斯·穆尼奥斯·费兰迪斯

是的。非常感谢。我认为只是为了完成卡特的评论,并结束关于可解释性的思路,或者只是继续沿着可解释性的思路走下去。我认为这非常有趣,因为这关系到思考我们理解的访问或开放概念是什么?它是对人工智能开发结果、主要精华或核心部分的开放性。因此,基本上是访问产品、ML 模型,或者开放性,采取更多维度的视角,也必须关注开发或训练这些机器学习模型的过程。因为如果您促进访问如何构建、如何训练机器学习模型、如何探索、如何选择数据等等,那么您就在或多或少地向社会提供关于不仅如何构建机器学习相关模型,而且还包括如何管理它们的知识,对吧?这就是我们在大科学中采取的方法。不仅仅是真正公开地发布另一个工具,仅此而已。它还关于给全世界可能在协作基础上为这些工具的开发做出贡献的可能性,以学习。您如何开发这些工具?这非常非常重要。我只是想提出这一点,

路易斯·维拉

我认为这与监管要点相关,对吧?我的意思是,有很多不同的方法可以监管事物。当然,欧盟一直关注的一件事,因此研究也朝着这个方向发展,我认为是可解释性,对吧?我昨天看到了一个令人惊叹的演示。我们都看到了,你知道,输入一串文本和结果。好吧,有一个演示,就在上周,甚至可能在本周初,时间,时间对我们所有人来说都很奇怪。在那里,你可以,你可以输入像光头、愤怒的男人正在做研究这样的东西,就像股票演示一样。他会突出显示人工智能认为什么是光头,人工智能认为什么是愤怒,人工智能认为什么是研究,对吧?这种工具可以帮助我们理解,当然,有时,当然,在他们选择的演示中,人工智能非常清晰,但在那里,当然,还有其他演示和你可以输入的东西,人工智能显然非常错误地猜测它是什么,你知道,它在猜测它认为代表什么。

路易斯·维拉

这种调试工具,你知道,卡洛斯,就像你说的,你可以两者兼顾。我认为,不仅在监管方面,而且在政府说,嘿,这些东西需要是可理解的方面,都存在很多价值。你知道,作为监管的第一阶段。而且即使这在形式上还不,嗯,当然在全球范围内还不是正式的,但很明显,政府会期望这种可理解性。因此,结果,人们正在对此进行研究。所以,你知道,至少你可以将此作为初步步骤来做,甚至在你开始禁止某些种类的东西之前,尽管我认为这些正在到来。而且我当然知道基特的专业,你知道,基特已经提到了一些算法,这些算法可能会把你关起来。而且我认为你知道,卡洛斯知道,卡洛斯在其中一个许可证中写道,已经开始有一些公认的领域,我们,你知道,相信这些领域太敏感,不能信任算法。现在人类是否在这些领域做得好,我认为也是值得比较和讨论的点。但是,你知道,我的意思是,所以我知道卡洛斯对我们首先要监管哪些东西有看法,基特。我很好奇,你知道,我还没有机会深入研究白宫的文件。我很好奇,这是否有一个类似的受保护高风险领域列表?

基特·沃尔什

因此,在我查看的白宫权利法案的层面上,它更笼统,对吧?因此,原则是现阶段采取的一种很好的方法,在该技术的发展中。但我认为正如你所说,绝对有一些领域,我们知道在这些领域使用人工智能只是有害的,或者它不可靠。因此,一个例子是面部识别,你对警察说是只是有害的,不赞成这样做。另一个是预测性警务和使用算法来决定某人是否会被审前拘留。第二个类别是不同的,因为根本无法根据经验数据做出这些决定。这些领域中存在的所有数据都与警察与人的互动有关,而不是关于对他人或犯罪的危险的任何潜在真相,例如。因此,您根本没有数据,但您拥有被描绘成数据的信息,实际上在商业产品中用作数据。而且这根本不适合用途。因此,那是另一个我们知道的领域,你知道,这些数据不存在。当它在那种数据上训练时,没有神奇的技术可以将其变成像明智的无偏见决策工具一样的东西,但这就是正在销售的东西,对吧?那是非常真实的。是的。我很好奇 –

斯特凡诺·马富利

对我来说,可怕的部分之一是这些大型系统的实时部署的可怕部分之一是缺乏我们在任何工程机器中都会期望的基本工具,例如可解释性,我们无法控制它们的输出或预测它们的输出这一事实,是为了让我们能够更好地监管它们,拥有这些可解释性或更好的工程、更好的理解,这只是时间问题吗,你知道,研究取得进展的时间问题吗?还是我们真的,你知道,注定要失败,我们应该从完全不同的角度来看待这个问题,

卡特·沃尔什

所以我总是对直接处理事物实际机械功能的监管持怀疑态度,而不是事物的后果。因为当你知道,尝试监管事物的工作方式时,首先,你限制了很多用途,例如,可能是好的,但你也只是让人们玩游戏,例如,绕过它。我认为监管需要针对用它做什么,特别是针对基特关于结果是偏差的观点,因为输入其中的数据是有偏差的。就像我们可以看到那些地方,有很多监管处理我们无法知道的事情,例如,一个人在做某事时脑子里在想什么。就像那不是什么新鲜事。即使技术变得,你知道,即使技术掩盖了其中一些内容,或者让人觉得有可能客观,是的,我认为我们需要,它需要针对不让人们将自己与人工智能做出的决定拉开距离。人工智能是一种工具。人工智能是一种做出决定的工具,我们需要像批判地评估任何其他工具一样批判地评估它。虽然我们不能只是说人工智能的决定在某种程度上更好,因为它在某种程度上是中立的或客观的,但它只是接受输入其中的东西。

路易斯·维拉

我想说两件事。卡洛斯昨天向我提出了一个观点。卡洛斯和我正在线下讨论许可证,这当然是开源的传统工具,是开源法律界最杰出的工具。卡洛斯提醒我,像模型卡这样的东西,对于那些不熟悉的人来说,模型卡是呈现关于模型的标准信息集的方式,在某些方面同样重要,可能更重要,因为它们允许细致入微的决策,而许可证,许可证只能设置护栏。它无法提供那种信息质量,对吧?这有助于卡特,根据您的观点,将此用作工具。我们如何将此用作工具的一部分是我们帮助社会理解优势和局限性所做的事情之一,模型卡是该工具包中的一个工具。

路易斯·维拉

但这就是我想反驳您说的关于衡量结果的内容,因为我们在社会中使用的许多流程都不能仅仅通过结果来分析,对吧?你知道,不久前我被传唤参加陪审团义务。不清楚我是否会,那个陪审团现在可能还在审判中。而且花了两个星期来选择陪审团,选择陪审团的大部分时间都花在了完全是因为我们无法事后诸葛亮地猜测结果,你知道,所以我们花了很多时间交谈,基本上是试图为每个陪审员提供模型卡,对吧?这个陪审员的偏见是什么?这个陪审员对警察、毒品、种族等有什么看法,对吧?而且,你知道,所以我不认为,我的意思是,我确实想以结果为导向,因为归根结底,那才是最重要的。但是,在某些维度上,你只能做到这么多。这让很多人想要 – 大卫正在聊天中打字。卡洛斯举手了,所以请讲。

卡洛斯·穆尼奥斯·费兰迪斯

是的,不,我,我认为我想重新聚焦辩论,以这种背景为背景,并将其与开源联系起来,以及开源或甚至 OSI 在今天的人工智能领域中的作用。这与输出无关。因此,我们将要共享的内容,例如模型、数据集等,也与人工智能中心法规的输出或实际后果有关。例如,以人工智能法案为例,该法规实施的核心试点之一是标准,对吧?技术规范,记录和描述官方或正式 SDO(例如欧洲 CEN/CENELEC 或 ETSI)描述人工智能系统可信度的方式,对吧?因此,从现在到两年后,我们将最终得到一份 200、250 页的文件,向公众或市场解释您的产品或您的人工智能系统必须如何被认为是可信的,对吧?

卡洛斯·穆尼奥斯·费兰迪斯

您必须解释这份技术规范,因为我们处理的不是电信领域的技术标准。因此,使用 5G 可互操作性协议。我们正在处理一项标准,该标准也将受到市场解释的影响。现在,您如何遵守这项标准?您可以构建工具、软件工具,只是为了证明您的项目或您的 ML 应用程序或您正在商业化的任何东西是可信的或具有人工智能信任级别,对吧?以新加坡为例,新加坡理事会管理局去年开发并与一些大型科技公司一起测试了一种产品,基本上解释并处理了可信人工智能或可解释性的标签,对吧?现在,谁拥有这个工具?因为这将是一项大生意,例如,对于咨询公司,甚至一些大型科技公司也对开发这些工具感兴趣。因为归根结底,这不是关于标准,而是关于软件参考实现。现在,谁将在市场上持有这个事实上的标准?或者我们是否公开有兴趣推广这个工具的开源版本,供所有人享受并能够使用特定的中心法规进行认证。现在,我真的看到了开源和开源相关参考实现的作用。

斯特凡诺·马富利

是的,这可能是一个我们更熟悉的领域,可以这样说。而且以这种方式思考它不那么具有挑战性,但我仍然想知道,并且仍然试图理解,在阅读人工智能法案之后,我们是否能够到达那个空间,到达那个我们可以解释为什么汽车、自动驾驶仪决定走某条路线或,你知道,撞到电线杆以拯救小猫,或者,你知道,电车难题,以及所有其他都是人工智能法案一部分的东西,它们被描述为例子。有点像,这是我思考的原因之一,我们需要等待并观察研究界能够提供什么,你知道,什么是输出,还是我们需要继续前进?我喜欢卡特说的关于我们需要考虑输出的事实。如果我理解正确,您是在考虑制定一般规则、一般政策、一般意图,然后有点抽象于实际实现,有点像,你知道,开源运动在宣言之前写了宣言,好吧,在第一个许可证出现之前。我看到路易斯很紧张 –

路易斯·维拉

哦,是的。好吧,我的意思是,我认为我们正处于一个有趣的时期,对吧?如果一年前你问我关于这个话题,特别是关于开放的问题,我会说,你看,训练成本太高了,在这个领域真的不开放,对吧?我们现在正处于一个窗口期,你知道,在开放、宽松定义方面,存在巨大的创造性活力,对吧?在 ML 中,当有人说 250 页的法规时,我就想,好吧,这有点像开放的终结,对吧?这可能不是一件坏事,对吧?可能是我们不这样做,传统的开放开发机制实际上无法创建足够值得信赖的人工智能来在野外运行,对吧?而且我认为这涉及到我们所有人一直在以某种形式暗示的内容,那就是责任,对吧?

路易斯·维拉

我的意思是,你知道,有一种监管模式就是,与其明确说明这是否值得信赖,不如我们只是将举证责任放在你身上,如果你因为炸毁了某样东西而被起诉,举证责任就在你身上。欧盟现在正在制定的《人工智能软件责任法案》和《人工智能责任法案》就是试图做到这一点。你知道,这可能是现阶段正确的事情,而且 250 页的指南可能为时过早,但要明确的是,我们必须做点什么。而且我认为,当然,对于开放来说,问题是,我认为,你知道,卡洛斯试图表达的是,开放如何与所有这些互动?对吧?而且我认为我们还不知道。我不确定。我希望我们有机会弄清楚。对此我不确定。

卡特·沃尔什

我想从我思考的角度稍微插一句。就像我,我特别想到,因为这是在 OSI 主办的活动中,考虑到法规通过制定只有一些最大的公司才能满足的标准来阻碍开放开发,并阻止其他开发发生。就像我可以看到这些过程,这些过程一直被捕获,并制定只有最大的公司才能满足的标准。而且我,那是我不想发生的事情。即使我认为社会结果是需要控制的事情。

斯特凡诺·马富利

是的,不,当然。这是挑战之一,但我们以前也见过这种情况。我的意思是,软件刚开始开发时,它被降级到只有能够负担得起购买大型设备的大学的小部门。并且花了一段时间才达到任何人用一百美元的电脑就可以编写真正有影响力的软件的水平。因此,如果我回到我的时间论——我开始认为那里可能有一些东西。

路易斯·维拉

好吧,但我认为值得注意的是,我们基本上一直在一个软件不受监管的世界中运作,对吧?而且我认为机器学习非常有趣的一件事是,它将导致,当那个时期结束时,对吧?就像,我,我认为那是一个我们将回顾并认为我们都很天真的时代。问题是监管采取什么形式,对吧?而且我认为,你知道,基特,我很想听听你的看法,对吧?因为在许多方面,EFF 一直是堡垒,我这样说是作为一个长期的持卡会员,但最近,不是持卡会员,部分原因是由于一些意识形态上的差异,EFF 长期以来一直是言论自由运动的言论自由派,对吧?就像我们出于多种原因不能监管软件。而且我认为当时这并没有错,但我确实想知道这是否正在改变。而且我很好奇你是否可以分享 EFF 在事物变化平衡方面的想法。

基特·沃尔什

是的。我对软件在过去很长一段时间里没有受到监管的想法感到好奇,因为我们一直都在与那些由于出口管制或 DMCA 1201 问题而无法发布其软件的人打交道,或者,你知道,各种各样的问题,以及面对许多提议,这些提议特别是当一项新技术出现时,会在某种意义上过早地进行监管,即存在一些危害。因此,也扼杀了创造良好软件的潜力。我认为,你知道,我们继续认为软件受第一修正案保护,这不是绝对的,但这确实要求您在采取禁止传播软件代码等信息的方法之前,权衡监管的必要性并寻找限制性较小的监管手段。

基特·沃尔什

因此,这永远不是绝对的障碍。特别是,你知道,在机器学习领域,存在隐私问题,这同样是人们的基本权利,它会抵消一些,你知道,潜在的信息传播。因此,我不会说这是一个绝对的,我不会说第一修正案禁止监管人工智能工具。但我确实认为,每当您监管信息的传播或创建新的艺术表达等的工具时,都需要进行第一修正案审查。但同样,这是一个涉及一些平衡的法律测试。这不是绝对禁止,你知道,政府在这个领域做任何事情。

斯特凡诺·马富利

所以,我觉得我们一直在绕着监管转,但是,我们还能做些什么吗?就像当软件开始从研究实验室走出来时,版权并没有有意识地应用于它,它只是在流动,对吧?这是一个正在创造的新的人工制品。如果我没记错的话,IBM 决定应用版权是一项具体的政策决定,然后在 80 年代在美国法院作为一种理论进行了测试。然后出现了复制左,就像对版权的破解一样。所以,我们有新的人工制品、新技术、新工具吗?那里存在监管压力。但如果我们暂时抛开这一点,就像作为一个从业者、研究人员、整个社会的社区,我们在这里是否有机会创造一些新的方法来控制和平衡人工智能创造者的权力。

卡洛斯·穆尼奥斯·费兰迪斯

因此,我认为,如果我可以插一句,并将所有之前的对话联系起来,我认为我们现在必须意识到的一件事,就在今天,此刻,我们正处于一个非常宝贵的时刻,因为我们正在观察开放性之战,对吧?自从几年前开始,我们开始看到所有这些大型语言模型由大型科技公司以及现在的研究社区或更多初创公司推向公众。因此,我们现在可能正处于类似于软件在 90 年代、2000 年代与 Linux 所处的位置。因此,我们现在正处于这个非常时刻,我们正在为开放性与封闭性进行这场政策斗争,或者开放性等于民主化机器学习的访问权限,而封闭性等于封闭式机器学习是安全的机器学习,对吧?这就是我们现在正在进行的主要辩论。

卡洛斯·穆尼奥斯·费兰迪斯

监管不会马上到来。监管会在三年后到来,对吧?那么我们今天或明天真正要做的是什么,来触及或发挥这种在促进机器学习的开放共享或开放获取,同时又提倡负责任的技术使用之间的交汇点?正如大家可能知道的,几个月前我们已经尝试或一直在尝试推动一种新型的负责任的 AI 许可。因此,开放且负责任的许可只是第一步。我们正处在开源促进会(Open Source Initiative)或自由软件基金会(Free Software Foundation)所处的时刻,甚至可以追溯到他们在八九十年代的倡导,我们正像他们那样,刚刚开始一场可能的运动。当然,我们也在问自己与 OSI、FSF、Creative Commons 相同的问题,对吧?

卡洛斯·穆尼奥斯·费兰迪斯

如果我们没有监管,但同时又想继续促进开放获取和负责任的审查,我们现在该怎么办?负责任的 AI 许可是否是主要的工具,万能的解决方案?不,当然不是。这些只是 AI 社区的另一个提议,应该通过协作的方式加以改进。这也是为什么我今天在这里,而丹麦下周会来的原因。所以这是 AI 社区可能产生的一个结果。也许 OSI 会有另一个结果,我们当然会很乐意支持它。或者也许 Luis、Kat 和 Kit 对此有其他不同的看法。

路易斯·维拉

嗯,我只想说,我认为我们还没有触及到的一个重要事情是,出于各种原因,我确实认为这与早期的自由和开源软件有很多有趣的相似之处。但我认为一个至关重要且非常不同的地方是,AI 社区,从业者社区总体上非常关注伦理问题。随着社区规模的扩大,这种情况当然会改变。但就目前而言,有一些关于此的民意调查数据。我前几天看到从业者非常关注这些伦理问题。而且我不认为这种情况在九十年代的软件运动中是存在的。当然也有一些,我不想说完全没有,对吧?因为再说一遍,那是我以成员身份加入 EFF 的时候,对吧?所以,这些事情非常真实。我有一件可以解密 DVD 密钥的 T 恤。所以,这并不是说这些事情不存在,也不是说我们根本没有考虑过这些事情,但它们不像在 AI 社区中那样处于最前沿。我认为这是一个非常有趣的差异。我没有任何好的结论可以从中得出,但我认为这是一个非常有趣的差异。

卡洛斯·穆尼奥斯·费兰迪斯

所以,如果可以的话,我可以给你一个非常实际的例子,抱歉打断你,Stefano。我可以给你一个非常实际的例子。这不仅仅是关于推广 RAILS,而是关于我们在 Big Science 的经验,对吧?因此,开放且负责任的 AI 许可的概念不仅仅是另一个炒作或很酷的新法律工具,它是我们在没有实践或经验方法的情况下提出或开发的。这基本上是对社区交易的回应。在这种情况下,这是大型科学社区根据他们的伦理章程或我们的伦理章程,对承认模型的技术能力以及模型卡中记录的技术局限性的担忧。因此,许可就是对这些担忧的回应。当然,我们可以将其与伦理许可联系起来,或者老实说,我不知道什么是伦理许可的定义。我确实知道的是,开放 RAIL 基本上是对这个问题的回应。所以我们采取了一种有机的做法,我们必须填补空白,因为 OSI 或 Creative Commons 或其他组织都没有任何许可来涵盖这个空白。这很好,也没问题。我们只是做出了回应。对吧?

斯特凡诺·马富利

对。我,我的意思是,我认为 Kat 可以。是的。我,我看到你的麦克风亮起来了,你曾在 FSF 董事会任职,你非常了解,自由零的含义以及它是如何产生的,为什么会存在。

卡特·沃尔什

是的。而且我认为我也对版权许可作为控制社会行为的一种方式,比我刚开始认为这可能是真的时更加怀疑。就像,我们很多人一开始都认为这可能是真的,并且版权许可可以建立一套规范。而现在我认为,版权许可非常适合设定创作者的经济权利界限,除非某些权利受到保护,否则他们不会参与系统,并且如果这些权利没有得到尊重,他们拥有某些版权补救措施,但对于确定规范而言。很多考虑规范的人,甚至从来没有读过许可。让我们明确这一点。就像,他们并不特别关心许可。

卡特·沃尔什

他们更了解的是一套实践,人们实际上在做什么。所以,你知道,CC 没有,好吧,取决于你认为什么是伦理许可,比如 CC 没有伦理许可。但是你知道,你可能会争论非商业用途,但我们确实提倡许多与许可无关的共享方式。比如,这是确定你可以在不承担版权侵权责任的情况下做什么的许可。但这是我们认为你应该做的事情,才能成为这个领域的好参与者。我们特别是在使用许多我们认为不可版权化的东西时这样说,我们鼓励人们在这些东西上使用 CC zero,例如,很多数据集,你知道,公共领域,在版权下想做什么就做什么。

卡特·沃尔什

但是,比如,嘿,如果你正在参与这些学术社区,你应该说明你从哪里获得的数据,因为这对于版权以外的原因很重要。你可能对特别私密或敏感的数据有访问控制,比如,你知道,这是不可版权化的,但你仍然可能因为它是个人数据而限制访问。而这与 CC 所做的并不矛盾,但我们不会将其放入许可中。所以,比如,我认为拥有一套规范、实践和行为,甚至编码是好的,但我只是对通过具有补救措施和版权的许可来做到这一点持怀疑态度。

基特·沃尔什

是的,我倾向于认为许可提供了确定性领域,作为用户,你知道,只要你保持在其轮廓内,你肯定不会对授予你许可的人承担责任。这对后续创新真的很有帮助,对吧?这在自由软件、开源社区中真的很有帮助,人们可以有信心,是的,我被允许在此基础上构建新的和酷的东西,然后我可能会根据许可等将其分享回去。我认为这一切,我认为它在传达规范或至少是开发事物的人的愿望方面是有用的。但它不太有用的地方在于,它不能阻止人们做合理使用的事情,即使这与许可相反,对吧?

基特·沃尔什

所以,你知道,当我创造东西时,人们会说,你为什么不在上面加上一个许可,说比如,不允许法西斯分子使用它。我就想,好吧,你知道,这是一部表达作品,他们会表达完全不同的观点,而且这很可能是一种合理使用,对吧?比如,让他们拿走我的创意表达,并用它传递一个全新的信息。我认为这很相似,你知道,对于任何你打算做的不会侵犯版权的事情,你都不需要许可。而且,你知道,我们正在讨论版权作为一种治理工具的局限性。我认为这绝对值得做。我认为这很棒。比如,我认为拥有许可给你的确定性很重要,或者如果你在灰色地带运作,如果你没有,尤其你知道,合理使用是美国法律制度,不适用于其他司法管辖区。

基特·沃尔什

但我认为它也有相当大的局限性,特别是如果你认为,我不是说有人这样认为,但我见过有人认为,你知道,我根据这些条款发布它,所以它不能以相反的方式使用。它可以合法地以不侵犯版权的方式使用,或者也许他们不在乎侵犯版权,因为他们想,你知道,搞乱民主,或者做一些因其他原因而非法的事情。所以你知道,这是一个重要的有价值的工具,但它确实有重要的局限性,需要理解。

斯特凡诺·马富利

有道理。路易斯?

路易斯·维拉

我只是想说,我不得不向人们解释很多次,许可条款对拥有法律部门的大型实体最有效,而不是对个人不良行为者,对吧?就像这是一个非常长时间的讨论。而且在这里也很相关,对吧?因为我们在 AI 领域试图监管的某些事情,很大程度上是政府在做的事情,你知道,大型商业实体在做的事情。对于他们来说,许可可能是一种非常有效的监管制度,对吧?因为他们的律师实际上会阅读这些东西。但如果你试图说,你知道,不要将这个图像生成器用于色情内容,否则你就违反了许可  –

路易斯·维拉

是的,是的。

斯特凡诺·马富利

不,我明白。哦,卡洛斯,请继续。

卡洛斯·穆尼奥斯·费兰迪斯

哦,非常感谢。所以,是的,我同意。当然,我首先认为,限制、解释,其次当然是对限制的执行,这是一个挑战。我的意思是,我们在开放许可中加入一些用户限制,并不意味着我们将确保百分之百的下游价值链控制。当然不是。现在,如果我们能够劝阻、阻止一些用户或潜在的误用者,甚至在特定情况下实现强制执行,是的,我们正在赢得极小比例的误用。是的。此外,回到监管,我认为这非常有趣。我不知道你是否关注了 AI 法案的议会辩论,但现在他们正在激烈地辩论是否将特定的开源条款纳入 AI 法案中。

卡洛斯·穆尼奥斯·费兰迪斯

这非常有趣,因为他们已经在玩弄对开源模型或预训练模型豁免的概念。现在,当然,我们不会进入欧洲议会的开源定义,它不是 OSI 的定义,我认为这是另一个需要讨论的问题。但回到这一点,捷克在 7 月 15 日提出的法案草案,为 ABC 增加了一个新条款,以及处理通用 AI 系统的条款,好的。以及这些通用 AI 系统也必须如何遵守高风险 AI 系统的相关规定。现在,4C 条款,4C 豁免基本上规定,如果许可或模型开发者利益相关者在模型的文档或使用规范中明确声明,该模型或通用系统不能用于任何高风险场景,则通用 AI 系统不应承担或背负与高风险相关的规定负担。

卡洛斯·穆尼奥斯·费兰迪斯

所以你已经在市场或利益相关者和经济激励中,将一些模仿 AI 法案的使用限制纳入许可或商业化模型的条款中。对吧?现在,如果我必须这样做,我应该选择开放许可还是模型许可?没有期限。我应该选择 rail 还是另一种不同的内部起草的许可?也许是因为我在发布或发布我的通用 AI 系统方面,将有更大的成功机会,而无需遵守可能在数万到数十万合规成本之间的高风险相关规定,对吧?所以,思考监管者如何玩,好吧,抱歉使用“玩”这个词,或者也许他们如何构想潜在的经济激励措施,以促使市场继续发布 AI,但同时又符合这些高风险场景,也非常有趣。

斯特凡诺·马富利

这非常有趣,因为我认为这可以追溯并把我带回到我对自由零的想法。也就是说,自由零是出于任何目的运行程序的自由,这反过来又影响了一系列后续的,一系列开源定义的组成部分,这是一个实际的选择。这是早期作者、参与者、自由软件社区有意识的选择,他们知道他们编写的软件可能被用于武器,但有意识地决定,监管或,你知道,设定规范、社会规范和限制的可能性会阻碍,会损害该领域的发展,计算机科学的发展。

斯特凡诺·马富利

这将减慢速度,并且几乎没有可能的好处。所以,我从你,卡洛斯那里听到的是,欧盟正在考虑给予开源一些许可,并制定某种方式来说,你知道,但这项监管将是开放的,为开源开放一些可能性,而不是,而不是完全遵守监管,或者一些例外。同时,我听到你说,研究社区真的在推动将这些限制纳入,当他们发布他们的模型时,因为他们意识到风险等等。他们是否完全理解,通过限制,通过设置限制,通过对模型和知识的自由流动设置障碍和摩擦,他们混合和匹配这些,他们正在做的研究的方式。他们可能也在减慢速度。我们是否,他们是否,你认为他们是否评估过这种可能性,即因为害怕滥用他们正在生产的东西而减慢科学进步的速度?

卡洛斯·穆尼奥斯·费兰迪斯

所以我再次回到我的观点,当你在监管中,特别是在像 AI 这样的行业监管中设置豁免时,对于一项真正尖端的技术,你还必须作为监管者思考,你正在市场中产生一些特定的经济激励,因为你希望利益相关者以完全相同的方式遵守监管,对吧?所以,当我开源一个非高风险系统时,或者如果它是一个高风险系统,我公开地发布它并附带一套使用限制,我知道我更有机会遵守监管,并以任何方式继续商业化我的系统。这是一点。现在的另一点是,AI 法案中为高风险 AI 系统提供的合规结构,当然将由大公司来实现或承担。

卡洛斯·穆尼奥斯·费兰迪斯

是的,这太庞大了。因为归根结底,你将对高风险系统做什么,当这个高风险系统获得认证并合法地可以商业化时,你将为这家投资了合规成本的公司带来可观的投资回报。这就像一项专利。我为一个不错的专利投资了 5 万美元,或者为一个不错的专利投资了 1.5 万美元,现在我想要通过直接回报,比如,通过收取特许权使用费等等来获得投资回报。通过这个高认证计划,可能会发生同样的事情。

斯特凡诺·马富利

是的。是的。

路易斯·维拉

我很想听听 kit 对此的看法,因为我认为,你知道,我当时提出的观点是乐观的,嘿,从业者,你知道,对这类事情真的很周到,你知道,kit,你至少在某种程度上与从业者中不太谨慎的边缘打交道,你知道,并且直接在其中一些商业利益上运作,对吧?我的意思是,他们会说,好吧,如果我可以卖给法院系统,我会谎称这些量刑工具有多中立,或者任何情况都可能发生,对吧?就像

卡特·沃尔什

是的,他们实际上正在投资法律工具来阻止透明度,对吧?所以这不是一种机器学习工具,而是一种算法工具。但例如,在很多案件中,我们一直在为刑事被告人争取权利,以检查用于生成指控他们的证据的代码,对吧?比如,基本上我擦拭了凶器,它是一种 DNA 混合物,所以我不能简单地将其映射到一个人的基因。相反,我得到了一堆基因混合物,这些基因可能是由任意数量的不同的人以任意组合贡献的。而软件供应商说,我做了一些非常聪明的数学运算,你很可能是接触过枪支的人之一。然后你说,好吧,我想看看你实现这种数学运算的代码,他们说,不,那是商业秘密,如果允许你或任何人查看它,那将损害我向警方法医实验室销售这项技术的商业利益。

卡特·沃尔什

他们实际上说服了一些法院,认为这在早期是有道理的,对吧?因此,去年是我们真正扭转美国联邦和州一级局势的一年。并说服法院,实际上,你知道,与你对质的证据的权利包括检查用于生成指控你入狱或判处你死刑的证据的软件的权利。所以这有点,你知道,我们需要,这是一个可以利用新法规解决的问题,但也有一些现有的权利和制度也涉及到这个问题。因此,我们的大部分工作都是,你知道,我是一名诉讼律师,对吧?

卡特·沃尔什

我,我去法院,我试图赢得将要保护人们权利的案件。所以,你知道,法院不能通过新法律。我必须将其与某人已经拥有的权利联系起来。当然,我们也致力于立法和新的监管方法。但是,你知道,这已经,你知道,这是一个进行一些法律创新以确保保密性不会,不会被用来剥夺人们对这些系统如何运作以及它们如何影响人们的见解的问题。因为它不仅仅是一个刑事被告人受到影响。而是每个人。这是整个公众,你知道,这原则上是以公众名义伸张正义的刑事处罚制度。

卡特·沃尔什

你知道,每个人都有兴趣以公平的方式完成这件事,并且了解它是如何完成的。所以我确实认为早些时候在聊天中讨论过模型卡,你知道,如果你是一个技术专家,你想成为这个领域的好参与者,并且你想帮助人们了解该工具何时可靠以及何时不可靠,那你可以做的事情。而且,显然这不是人们应该做的唯一的事情,或者,你知道,强制执行模型卡将不足以,你知道,监管这个领域的行为的制度,因为绝对有一些行为者会根据他们的商业利益行事,并且阻止对该工具如何工作的批评和审查符合他们的商业利益,除非我们做一些事情,你知道,来改变这种商业利益,对吧?

卡特·沃尔什

所以,你知道,例如,监管意味着,你知道,你不能将你的产品卖给,你知道,政府用户或,你知道,你想接触的那种用户,如果事情是这样运作的,或者它不能用于特定目的,对吧?比如,你知道,我们甚至还没有讨论我们是否,我们是否已经在监管使用?我们是否已经在监管技术的创造?或者,你知道,对你可以输入到技术中的输入类型有什么治理?因为这些都是,你知道,不同且有效的法律干预点。

斯特凡诺·马富利

的确如此。那么,我们如何在社会与国家行为者以及部署和开发这些大型系统的大公司之间保持平衡,或者我们如何获得平衡?我们能做什么?哦,沉默 <笑>。

路易斯·维拉

我会说我没有一个好的答案。我会说,我认为我发现有点言过其实的一件事,我认为这与 kit 的观点或 kit 的经验有关。我们一直说,哦,ML 太复杂了。它太不透明了。我们使用的所有这些系统都如此复杂和不透明,对吧?就像,它们是,我不知道 ML 是否真的让情况变得更糟,对吧?我们不知道我们的,比如你和广告人员谈论,其中没有太多 ML,但比如,没有人理解为什么你会被投放广告,广告会被投放。就像那是一个非常难以理解的系统。没有人像谷歌,你知道,所有这些对谷歌的监管,比如,你知道,搜索结果,谷歌不知道它是如何,我的意思是,他们可以调整它,他们可以暗中操纵,对吧?

路易斯·维拉

但他们很久以来都不知道他们是如何获得搜索结果的。而且,你知道,无论你称之为机器学习与否,哦,或者我另一个最喜欢的例子,实际上已经造成了死亡,丰田刹车问题,比如丰田汽车刹车系统的软件很糟糕,而且是商业秘密。因此,只有某些,你知道,在这些丰田意外加速案件中,某些专家证人才能获得。而这些证人,我们能够从这些证人那里得到的一些事实是,这些证人都对代码的质量感到震惊。但这不需要机器学习。这只需要糟糕的不透明代码。所以在某种程度上,其中一些问题并不是新的。而且我认为我们最好意识到这一点,记住这一点。

基特·沃尔什

是的,就像稍微重复一下我在聊天中说的话,但是就像 Kit 所描述的那样,系统被用于警务和刑事量刑,比如,你知道,甚至无法进行检查。比如,当然,可以进行检查并不能解决所有问题,但是比如,这应该是一个条件,比如,如果它被用来限制某人的权利,那么它应该是可用的,比如,这应该只是进入这个领域的入场券。<笑>,

卡特·沃尔什

好吧,特别是,你知道,让你阅读它并不是补救措施的结束,对吧?比如,你发现缺陷,它被取消资格,所以现在不能使用了,这已经记录在案了。因此,当有人想要部署另一个类似的工具时,你可以指出这个例子,作为为什么在其采用之前进行透明化以及公众参与至关重要的论据。因此,这些案例就像,让我们先得到第一块,让我们实际看到它。然后你就会遇到像纽约市首席法医办公室使用的技术这样的情况,是的,有一个隐藏的功能可能会错误地将人们送进监狱。现在我们有了这一个例子,说服其他法院查看它很重要就容易多了。并在此初步成功的基础上继续发展。

斯特凡诺·马富利

我的意思是,我们一直在倡导在任何与数字世界和现实世界之间的互动相关的事情中使用开源软件。这样至少我们可以作为社会,作为集体层面进行某种程度的控制。比如,来自 F SFE 和公共代码的倡议,公共资金,公共代码以及 Cut 的其他运动。我打断你了。抱歉。

基特·沃尔什

我想说的是,有时这里的人,比如我们社区的人,提倡开放性作为解决方案的一部分,犯了一个错误,就是我们说这会解决问题。当然,它不会,但我认为它是解决方案的必要组成部分。

斯特凡诺·马富利

因此,我提到的一件重要的事情,你在一开始提到,当你谈到传统软件和 AI 机器学习系统之间的区别时,数据和数据访问似乎是黑客社区或较小群体更广泛参与的瓶颈之一。所以,我收到了来自 HIPAA 基金会的一个问题,HIPAA 基金会是一个正在为医疗研究构建数据集评论的组织,这是一个巨大的主题,对隐私和其他事物有巨大的影响。但他们有一个有趣的问题。他们,他们基本上在说,如果他们,他们想知道是否有一种方法,或者你是否可以想象一种方法,我们正在为 AI 构建数据集评论,但我们也想要,他们也在尝试想象一种类似 copyleft 的方法,如果你使用这个由社会贡献的数据集,那么最终结果也应该在相同的条件下共享和可用。

斯特凡诺·马富利

有点像,再次,copyleft 对此的破解。你认为怎么样,我的意思是,你通常如何看待数据可用性这个话题,作为一种工具来民主化和传播机器学习 AI 系统的采用,首先是训练模型的下游对整个社会的可用性?

卡洛斯·穆尼奥斯·费兰迪斯

所以,是的,如果我设想自己是 <笑>,这是一个超级有趣的话题。我认为在 rail 倡议下,我们正在考虑的下一步是转向数据许可。但是数据许可,即使使用模型许可,也更难制定,对吧?因此,好的数据集是成千上万个模型的主要根源。它不仅仅是许可一个模型,而是许可它的根源,对吧?许可 pile 以许可 lion,对吧?这种核心数据集,当你在构思或设计数据集的许可策略时,你必须考虑许多建议,并且可能只考虑基于用途的限制。此外,价值链或数据集中要完成的主要目的是什么,是训练吗?

卡洛斯·穆尼奥斯·费兰迪斯

是验证测试,针对哪个特定 ML 模型,在哪个上下文中?因此,有很多,我们是否对数据集有透明的跟踪或历史记录?因此,在起草数据许可时,必须考虑所有这些因素。我甚至没有谈论开放数据许可。我们有一些开放数据许可或尝试。Linux 基金会有,有三个数据许可。蒙特利尔数据许可倡议的人员几年前发布了非常好的论文。我可以把它分享在聊天中。所以我们有一些初步尝试,但这非常具有挑战性

斯特凡诺·马富利

是的。数据也不是静态的,这是另一件需要记住的事情

路易斯·维拉

它们也不是,我的意思是,这是 Open Street map 经常遇到的问题。而且我认为对于开放社区来说,这将是一个真正的挑战,开放社区是一个全球社区。ML 社区是一个全球社区。我们所处的法律制度和监管制度不是全球性的。我认为我们在开源社区中理所当然地认为,伯尔尼公约,对于那些观看伯尔尼公约的非律师来说,是版权条约的约束力,它是什么?是除了巴拿马之外的所有国家,你知道,将地球上的每个国家都约束到同一个基本平台上。我,当我与程序员交谈时,我将伯尔尼公约称为其他版权法建立在其上的平台,它为我们提供了一套全球原则和思想,我们可以用它来构建,例如,一个全球开源软件许可,它或多或少地工作,当然有很多边缘情况,但或多或少地在世界各地的所有法律制度中都有效。而且,你知道,在美国,数据许可与欧盟或日本或墨西哥非常不同,所有这些国家都有不同的数据许可制度。而且这只是在谈论数据库权利,更不用说隐私权、责任规则了。我不清楚我们如何为基于非全球法律制度的全球社区制定规则,我仍然没有好的想法,这让我很困扰。

斯特凡诺·马富利

我认为 Cut 是小组中在这方面最有经验的人 <笑>。

基特·沃尔什

我只是在想,即使有伯尔尼公约这个平台,做全球版权许可也已经够难了。数据治理不是我的专业领域。你知道,我对它了解得足够多,才知道这是一个危险的领域,我通常需要咨询,比如,你知道,许多不同的律师,当试图做一些跨司法管辖区的事情时。

斯特凡诺·马富利

但我记得 Creative Commons 在最初的倡议中,他们在不同的司法管辖区翻译了许可 嗯嗯。 <肯定>。而且我认为这种方法已经改变了,对吧?

基特·沃尔什

最初的许可协议是基于美国法律的背景制定的,基本上,就像,这是一个小型的、实验性的项目,就像许可协议的 1.0 版本有点像,让我们看看它是否能成功。而且它们并非在所有司法管辖区都有效。因此,后来的第二版和第三版具有国际化的、类似报告的版本,旨在在不同国家法律的背景下以相同的方式发挥作用。最新版本所做的重要事情之一是尝试看看是否可以在一个版本中解决所有这些问题。而且我们已经,你知道,尽我们所能地做到了。我们还没有看到不适用的边缘案例。但是,但是它没有解决其他一些问题,比如,它,CC 只是认为数据是不可版权的,而我们的许可协议是版权许可协议。

基特·沃尔什

所以我们不处理,嗯,我们只是通过说你需要一份单独的协议来回避很多这些难题。如果你想这样做,这份单独的协议就像,我认为我们需要考虑的,是关于这些具有版权以外问题的,比如隐私的数据集。我们确实对数据库权利采取了一个小的立场,即它们基本上是根据相同的条款获得许可的。但是,但这并不能解决所有其他法规会发挥作用的问题,而不仅仅是类似专有数据库权利之类的问题。

卡特·沃尔什

是的。我认为,你知道,一种方法是,如果你是该集合的唯一持有者,对吧?你已经把这个集合放在一起了,你可以要求人们来找你,并与你签订一份合同,其中包含你想施加的条款,对吧?当然,这不如一个开放许可协议那么优雅,它可以在没有单一存储库的情况下流通,或者,你知道,你可以有几个不同的,比如你信任的人来,你知道,授予这些权利,对吧?但是,你知道,那是一种选择。你可以将任何你想写的东西写入合同权利,当然,无论是版权许可,还是,你知道,我这种从互联网上抓取数据的人给予你的合同权利。这两者都不能解决可能反映在数据中的个人的隐私权,对吧?

卡特·沃尔什

就像当我把我的照片上传到 Flickr 并加上 CC BI 许可时,我并没有放弃我的隐私权,比如,就它被用于警察面部识别而言。那不是版权许可的一部分。所以我认为,我认为有一些方法。它们不一定像,你知道,那么流畅,而且,取决于数据,它可能不,你知道,它可能不实用。而且我也不了解每个国家的合同法。你知道,你可能会遇到一些问题,比如,这些条款只是不可执行的。你不能,你不能在合同中要求这些。但是,你知道,如果我是,如果我想让数据集仅在某些使用条款下使用,这可能就是我会做的方式。

斯特凡诺·马富利

我们需要,我们需要在这里发明一些东西吗?这里是否存在一个空间,或者是否存在一个,我们发现了启动的需求,比如想出一些想法来解决,解决创建数据集、组装它们、根据创作者愿意接受或推广的条件安全分发这个问题。

卡洛斯·穆尼奥斯·费兰迪斯

所以,如果,如果我可以插一句,我认为——并且同意 Kit 的观点,顺便说一下。我认为这非常具有挑战性。对于模型和数据,无论我们是否认为这些是可版权的,我们都必须看看经验证据。例如,在黑客马拉松阶段,市场上用于发布模型的顶级许可是附加到 0.0 许可的。第三或第四个是数据集的 cc BI 许可。我认为这是一个 CC 许可,对吧?然后你走出去,你看到 OpenAI 的最新版本,Whisper MIT 许可,2019 年 OpenAI 的第一个版本,GPT-2 MIT 许可,对吧?基于版权。Facebook 的是基于版权的。所以市场上有这样一种趋势,我们可以讨论版权是否是正确的工具或方法,但我认为这甚至不仅仅是采取这种纯粹或狭隘的版权监管方法及其在市场中的经济作用。

卡洛斯·穆尼奥斯·费兰迪斯

而是开放源代码和知识共享通过许可协议所取得的成就。因为我们不再关心是否拥有版权。模型开发者不会考虑这一点。模型开发者将许可协议视为一种载体,一种社会制度来使用。这是主要的工具。这是许可协议的主要作用,无论你是否将其置于版权之下,都没关系。对于模型开发者,对于数据集,对于想要发布数据集的人来说,重点只是选择一个许可协议,选择一个开源许可协议。有时我看到数据集在 GP 三许可下发布,所以这就是市场、或者模型开发者,或者可能只是技术背景对开源和署名的看法。这就是你拥有的影响力,而且非常大。

基特·沃尔什

至少,至少对于美国的许多用途来说,许多这些用途都被认为是,比如,我可以根据我想要的任何许可使用数据。这就像一种变革性使用。并非所有使用都涉及版权下的权利。所以版权许可有多大的权力?CC 面临着这个问题,因为有很多批评,例如,Flickr 上的所有照片都被用来训练这些面部监控系统。比如,有什么是,你知道,有什么是 CC 可以对此做些什么的吗?我们实际上与乔治城大学的 Amanda Lewandowski 做了一些工作,你知道,她所有关于人工智能和版权以及,你知道,其他相关权利的论文都很精彩,人们应该阅读它们,我知道 Lewis 早些时候引用了一篇,但是,你知道,他们的大量分析都表明,是的,就像,有一个非常强烈的,有一个非常强烈的合理使用案例。即使 CC 的许可协议中加入了限制,它可能也无法阻止许多这些不良用途,至少在美国是这样,那里是,你知道,我,我所有经验的来源地。

斯特凡诺·马富利

Louis,

路易斯·维拉

嗯,在版权许可协议中,我不认为会有,我的意思是,欧盟特别出于善意,制定了一项版权法条款,基本上使训练成为可选择退出的,对吧?所以现在隐私法,当然,仍然非常非常强烈地适用在那里,但它不是,但是版权许可协议在那方面只能做这么多。我的意思是,你知道,回到你关于这是否是我们应该考虑的问题的问题?我认为很多人已经对这个问题进行了一些思考,对吧?比如,关于数据信托有一个有趣的论点。但是,嘿,我只是把这个东西放在这里,<笑声> 你知道,我把这个文本文件和一个目录放在这里,的易用性,既在字面意义上很有用,因为你没有建立一个实体,你没有设置,而且文化上的易用性,对吧?当你问其他律师,当你问其他程序员,而不是律师,哦,我如何控制人们如何使用我的东西?好吧,给他们一个版权许可协议,这就是,你知道,无论好坏。我当然要承担一些责任。这是一种我们长期以来鼓励程序员的规范,我认为现在我们正在遇到它的局限性。

斯特凡诺·马富利

对吧?对。但是有一种论点是,更多的数据,我的意思是,更多的数据意味着机器学习的更高可及性,这是平衡像 Lewandowski 这样的公司的权力的一个方法。所以既然我们快到小组讨论的尾声了,我想以你们所有人的一个想法来结束,思考一下什么是,你知道,你们想象中可以从开源文化中迁移过来的东西,不仅仅是开源,还有开放数据、开放知识,所有你能想象到的开放概念,可以转移到人工智能领域,以实现,好吧,乌托邦式的未来,即这些人工智能系统是为了社会福祉而部署的。那会是什么?

路易斯·维拉

我将要提出,我实际上要稍微反驳一下,简单地说,我,我觉得在这个领域的预测几乎有点毫无意义——感觉即将到来的变化范围如此巨大和彻底,以至于除了脚踏实地,一步一个脚印地走下去之外,很难做任何事情,你知道,用我的意思是用,就像我说的,那里存在的善意来构建,并尽可能快地做到这一点,这听起来有点悲观,但也非常,我不知道。我经常把这比作印刷术,印刷术的好处是它使我们所有人都,比如,你知道,它对社会非常有益,但也造成了百年的血腥战争。所以,我不知道。这就是我们所处的境地。抱歉以我自己的悲观论调结束,但我很想听到其他人更乐观的看法。

基特·沃尔什

哦,是的。我愿意,我本来想插一句,比如,我们整个小组讨论都在谈论危害和监管危害的重要性,以及控制访问。但是,但是我的确,比如,我想成为一个技术爱好者。我只是希望某些条件首先得到满足。比如我玩过一些人工智能艺术系统和一些人工智能写作系统,比如我认为它们,比如我真的很喜欢这种想法,即有可能向更多人开放创作,给更多人,比如时间和便利以及,能力来做到这一点。我要说我可能是这个小组里编程经验最少的人。你知道,我有一些,比如,基本能力,但是人工智能助手会大大提高我做到这一点的能力。

基特·沃尔什

比如,那是一个,那是一个,你知道,很棒的事情。那将向更多人开放这个领域。所以,比如我很乐意,我很乐意看到我们基本上制定规则,以保持这种开放性,比如保持,保持我们在其他技术(如印刷术和一般的软件开发)中看到的那种生成能力。是的,我认为,我认为我们可以,如果我们能找到一种方法来平衡对危害的监管和保持系统的开放性。比如我认为,总的来说,人工智能有很大的可能性让更多人能够创造和参与创造。

卡洛斯·穆尼奥斯·费兰迪斯

或者,是的,对我来说,对我来说,我认为我希望在未来看到的是我们今天所享受的。也感谢 Stefan,为此。我认为我们,我们必须意识到,我们在这里是一些不同协会或倡议的代表,三个不同的开放许可或许可社区,对吧?知识共享、OSI 开放源代码促进会、铁路倡议。有时我们可能会有一些摩擦,我们可能有不同的利益,但我们今天为了一个共同的目标来到这里。我们正在一起合作。这仅仅是开始。这太棒了。我的意思是,我今年 28 岁,一年前我还在攻读法学博士学位,突然我就开始为大型语言模型开发许可协议,对吧?现在我有机会与拥有,什么,20、30 年经验的律师讨论。这就是我们应该欢迎和需要的合作类型,对吧?这就是前进的方向。我现在还没有正确的答案或回应,但这仅仅是开始。

卡特·沃尔什

哦,谢谢 Carlos。我们应该,我们应该让你最后发言。因为那非常充满希望和积极向上,我也将尝试以积极的调子结束,但我确实,你知道,我在思考这种工具可能为更广泛的人群打开一些非常有力的表达或社会变革形式的方式。我在思考,现在我在思考印刷术,对吧?对印刷术的反应是什么,在很多地方对印刷术的反应是锁定谁有权使用它,以维持控制,对吧?这就是我们获得《安妮法令》的方式。这就是我们最初获得版权的方式,对吧?是对试图控制谁能够传播思想的回应。Cat 已经多次提出了这一点,你知道,要对监管解决方案保持警惕,这些解决方案意味着只有已经是最有权势的行为者才能够利用这种技术的承诺。

卡特·沃尔什

所以我认为这是一个教训。我不知道这是否是开源运动的教训。这是一个来自 15 世纪威尼斯的教训,可能适用于人工智能的世界。我想我就说到这里,因为你知道,而且我确实认为,你知道,我们从人工智能中学到了一些东西,我不会就此结束。我还要继续说下去。我们从人工智能中可以学到一些东西,从,你知道,开源和自由软件方面,就使用和受技术影响的人们的权利而言。我认为你可以转换许多这些原则,你知道,绝对仍然有价值,并且是开始思考的好方法。并且也要发现这给解决新挑战带来的方式。所以我认为积极的方面是感谢您召集这个系列,以便我们都可以,你知道,一起思考这些事情。

斯特凡诺·马富利

谢谢。谢谢,也感谢大家。对我来说,这非常棒,我的积极方面,而且我,我今天仍然感到震惊,因为这些人工智能,许多这些人工智能系统确实为许多艺术作品提供了访问途径。比如今天微软 PowerPoint 与 Dolly 的集成。所以现在可以生成大量的剪贴画,而无需像以前那样搜索,比如,哦,我这里有一张蛋糕图片,蛋糕的图片。所以,它将解放大量时间,而且我认为它将给我们带来良好和充满希望的,希望是良好的结果。所以再次感谢大家的加入。我们将于下周继续这个系列的小组讨论。下一次小组讨论是一个法律小组,我们将有来自 OSI 开放源代码促进会、IBM 研究院、美国公民自由联盟华盛顿分部和 Hugging Face 的演讲者。敬请关注。更多内容即将到来。谢谢。

卡洛斯·穆尼奥斯·费兰迪斯

谢谢。