开源软件始于学术界,人工智能也不例外。

10 月 20 日深入探讨:人工智能学术研讨小组的文字记录

斯特凡诺·马富利

好的,我们开始了。感谢大家,欢迎参加深入探讨:人工智能。这是来自开源促进会的系列活动。我们最初是一个播客季,探讨人工智能如何从开发者、企业到我们所有人影响开源软件。小组讨论的目标是更好地理解人工智能和我们称之为经典软件(特别是开源软件)之间的相似之处和不同之处。今天的小组是四次讨论的最后一次,我们将深入探讨人工智能对整个社会的挑战和机遇。我是斯特凡诺·马富利,开源促进会的执行董事,今天我与马克·苏尔曼一起参加。他的工作基本上是保护网络。马克担任 Mozilla 基金会的执行董事,这是一个全球社区,其工作范围从制作 Firefox 到在在线隐私等问题上表明立场。马克最大的重点是构建 Mozilla 的运动层面,运营网络公民,与志同道合的组织和领导者建立联盟,并发展开放互联网运动。马克,感谢你的到来。

马克·苏尔曼

谢谢你,斯特凡诺。考虑到我们正在参加 OSI 的电话会议,建立联盟和许可至关重要。

斯特凡诺·马富利

我们有易卜拉欣·哈达德博士。他是 Linux 基金会人工智能和数据战略项目副总裁。他专注于为推进开源人工智能平台创造一个厂商中立的环境,通过为开发者提供一个中立、可信的中心来编写代码、管理和扩展开源技术项目,从而赋能几代创新者。哈达德还领导 Linux 基金会、人工智能和数据基金会以及 PyTorch 基金会,后者是几周前开始的。感谢你的到来,易卜拉欣。

易卜拉欣·哈达德

感谢邀请。也向其他小组成员问好。

斯特凡诺·马富利

然后我们有克里斯·奥尔本。他是维基媒体基金会的机器学习主管,在那里他将统计学习、人工智能和软件工程应用于政治、社会和人道主义工作。他在人道主义事业和非营利组织以及初创公司的数据科学方面拥有长期经验。他还撰写了《Python 机器学习食谱》,并创建了机器学习速记卡。感谢你的到来,克里斯。

克里斯·奥尔本

不客气。

斯特凡诺·马富利

还有艾米·海涅克,

艾米·海涅克

你说对了。没错。

斯特凡诺·马富利

资深工程和数据科学领导者,在快速发展的初创公司工作了 15 年。目前,她是供应链软件公司 7bridges 的工程副总裁。她之前是 Primer.AI 创始团队成员,在那里她构建了他们的自然语言处理摘要引擎,我们将不得不解释这意味着什么,它做什么。她还在美国和英国扩展了技术团队。感谢你的到来,艾米。

艾米·海涅克

我很荣幸。谢谢你。

斯特凡诺·马富利

你是一名数学家,对吧?

艾米·海涅克

是的。受过训练。没错。

斯特凡诺·马富利

是的,这将是我想要关注的问题之一,因为今天我想和你们讨论三个主题。一个是学术界和研究在人工智能中的作用。

斯特凡诺·马富利

你认为应该是什么样的角色,我们如何促进人工智能领域的合作?我们如何在更广泛的意义上做得更好?我们如何更快地实现这一目标?最后,我想谈谈研究和学术界在保护社会免受人工智能危害方面的责任。那么,让我们开始吧,让我们从研究开始,研究是人工智能益处开始变得明显的领域之一。无论您是审查医疗记录以诊断癌症,还是充当信息监督员。你们都有学术研究的根基,但也跨越到了其他领域。因此,存在很多差异。根据您的经验,您认为大学和研究机构应该扮演什么角色?你知道,是成为大型科技公司的培训基地还是监督机构?马克,也许你先说?

马克·苏尔曼

嗯,我的意思是,学术界的研究方面可以发挥很多不同的作用。我想值得一提的是,Mozilla 的兴趣实际上在于人工智能与我们在 Mozilla 网络宣言中提出的价值观保持一致。因此,在许多方面,我们认为今天围绕人工智能提出的问题与我们 20-25 年前围绕网络提出的问题相似,例如它们实际上如何保持开放。我的意思是,我们都必须联系到关于如何部署人工智能人员以及尊重人类尊严的问题。因此,对我来说,当我思考研究人员的角色时,我会思考它。这如何为此做出贡献?因为我确实认为,当然,大多数人工智能研究发生的地方和大多数人工智能开发发生的地方是在大型公司,这些公司的激励机制并非特别旨在与人类利益保持一致。

马克·苏尔曼

而学术界和学术研究实际上可以有助于实现这一目标。因此,我认为一件事是,真正关注我们如何以符合人类利益的方式进行创新,这要通过我们在学术界可以进行的研究来实现。但是,我想我要说的另一件事是,真正鼓励,你看到了,但你看到的还不够。更多地关注真正务实的应用研究,更多地关注我们如何构建。你知道,人工智能的开源堆栈是值得信赖的,符合人类价值观,并且可以胜过你知道,一些更专有的堆栈。因此,我认为一个尊重人类尊严的开放堆栈,你当然可以在 Linux 和网络堆栈中的其他东西中看到,例如,我们实际上可以构建开放的东西,这些东西可以胜过专有的,或者至少可以与之平等竞争。我认为构建一个值得信赖的人工智能堆栈,胜过专有的堆栈,从而使那些实际上不考虑人类利益的堆栈,我相信这是可以实现的。我将学术研究视为研究人员,将其视为其中的关键参与者。

斯特凡诺·马富利

艾米,你已经从数学领域进入到企业界,也许你在这个小组中拥有最多的企业经验。你如何看待这个角色?

艾米·海涅克

是的,我认为首先要说的是,这可能是一个非常明显的观点,但人工智能领域正在进行的研发和创新步伐和多样性令人震惊。所以我们大约在八年前创立了 Primer,当我们创立它时,我们在 NLP 领域工作,你知道,当时最先进的技术和我们使用的一些模型的关系提取率约为 65%。我认为摘要总结之类的东西实际上不太可能实现。我们整个思考方式都是关于如何绕过模型实际上不太好但确实存在并且开始变得更可用和可访问的事实。现在,你知道,没过几年,你看看像稳定扩散以及所有这些令人难以置信的新模型那样,令人难以置信的事情是可能的。

艾米·海涅克

这是一个令人难以置信的研究步伐。我认为现在对我们来说也还处于非常早期的阶段,我们需要弄清楚如何使这些东西在人们的日常生活中变得有用。因此,这些技术对人们有什么应用和确切的作用。因此,存在着非常深刻的问题,例如,如果你构建模型,人们如何解释或理解它们?你如何实际调整它们并使其适用于不同的用例?例如,我们曾与许多不同的企业用例合作。而且这通常非常困难。因此,你可以与一个组织合作,你知道,他们有钱花,他们知道他们想以某种方式使用人工智能来加速某些工作流程,他们可以大致描述工作流程。但仍然很难弄清楚你实际上如何使用人工智能来解决这些问题。

艾米·海涅克

因此,这里有一个很大的开放领域,它还处于早期阶段。因此,为了更具体地思考学术界的作用,当然,在我的职位上,我们与不同的研究小组交朋友,互相介绍和分享想法。我们聘请了来自博士学位或博士后的人员,并与他们合作。你知道,想法在非常快速地来回碰撞。因此,在很多领域,我们需要人们进来,以不同的方式看待这些问题,并提出不同的思考方式,我想。我认为我们还不知道它将如何发展,究竟会发生什么,以及它将如何应用。

斯特凡诺·马富利

这是一个我多次听到的反复出现的话题,我想回到这一点,即过去的进步,这种非常快速的进步。易卜拉欣,我看到你举起了麦克风。你对学术界的作用有什么看法?

易卜拉欣·哈达德

因此,我认为让学术界参与到伦理人工智能这一特定话题中至关重要,对吧?我认为,因为这就是我们今天的讨论方向,当我们审视人工智能领域最大和最成功的开源项目时,其中许多项目都起源于学术界。这确实是许多教授,你知道,多年前,实际上开始研究人工智能的这些不同领域,而不是真正的伦理部分。他们的许多努力都是为了实现我们今天在这些开源人工智能平台、库、工具和框架等方面所取得的成就的较小构建模块。我们看到在数据领域,我们的许多项目都有不同的学术工具,无论是研究生还是领域末期项目,这些项目都发展到了一定的程度,并开始获得一些吸引力并开始增长等等。

易卜拉欣·哈达德

因此,学术界肯定有很多影响力。我认为大约在 2017 年、18 年、19 年左右,大约在那个时候,出现了一个转折点,许多商业实体和组织,你知道,商业组织意识到人工智能人才不足以满足需求。那时,他们开始了对学术界的“圈地运动”,基本上赞助了不同大学的整个人工智能部门。实际上,加拿大是其中一个国家,他们拥有一些相当不错的大学和非常先进的人工智能研究,包括我的前雇主在内的不同组织都去了那里,你知道,赞助,你知道,有点像整个部门,并有点让他们的议程受到研究的驱动,以获得研究人员的份额,你知道,思想份额等等。因此,肯定有很多影响,而且许多当前成功的项目实际上都来自学术界。

易卜拉欣·哈达德

因此,对我来说,这有点至关重要。至于伦理人工智能的具体细节,我想提到的是,你知道,在 lfa in data 在下一个阶段,我们认为这是一个非常关键的话题。我们实际上有一个指定的委员会,由许多公司,你知道,数十个组织组成,他们在我们称之为可信人工智能委员会的保护伞下工作。这个委员会实际上每两周召开一次会议,他们有两条不同的工作路径。第一条工作路径侧重于可信人工智能的原则,并且有已发表的论文讨论了这些原则,你知道,达到了一定的详细程度。这当然很棒,但是当涉及到这些原则的适用性时,我们在基金会中也有三个不同的托管项目,其目标基本上是研究不同的软件堆栈,并实现并得出结论,这些堆栈是否实际部署了基于已定义的各种治理原则的伦理人工智能。

易卜拉欣·哈达德

这些实际上是可以下载、编译、构建并在不同代码上运行的源代码。它们今天被用于不同的行业,更具体地说,金融和保险行业就是一个很好的例子。因此,对我们来说,这是一个很棒的话题,而且当然是一个中心话题,而使之更加复杂的是,我将以此作为我的结束语。使之非常难以驾驭的真正原因是我们在全球范围内看到的不同的立法。因此,你知道,不同的国家,例如,你知道,在北美,你知道,加拿大和美国,更具体地说是在欧洲,无论是单个国家还是整个欧盟集团,你知道,中国、日本、新加坡和其他国家,他们都在引入关于人工智能及其伦理使用的不同立法。一些国家甚至设立了人工智能官员或人工智能部长来监督立法以及人工智能的不同应用及其伦理新闻。因此,这当然是一个全球性的热点话题。

斯特凡诺·马富利

的确如此。既然你提到了伦理方法和原因,我的意思是,信任问题,克里斯,你可能在这方面有很多经验,我想听听你在这方面的想法。

克里斯·奥尔本

是的,我的意思是,这绝对引出了我认为可能真正有趣的部分之一,你知道,我的博士学位是社会科学,对我来说有趣的是,甚至关于伦理人工智能的讨论都不会发生,除非许多社会科学家与学术界的计算机科学家走到一起并引发了这场对话,现在它已经蔓延到工业界,而且,你知道,我们正在举办更多关于它的专题讨论会,并且它正在被纳入工作中,但最初开始讨论它的核心人物是在学术界。这真的是一个非常应用的想法,说明如何使用它。对我来说,你知道,为了呼应易卜拉欣的观点,我认为学术界发挥巨大作用的领域可能有两个。

克里斯·奥尔本

一个是计算机科学推动人工智能能力的极限,对吧?就像,你知道,新模型、新架构、新规模。我们如何真正推动这些技术向前发展,然后将其纳入更实际的应用场景,比如我们。另一个是社会科学方面,比如立法,对吧?例如,政治如何发挥作用,我不想仅仅局限于像一个小桶子里的严格伦理人工智能,我想说更大范围的。就像,嘿,社会影响是它背后的经济学。例如,生成式艺术是否创造就业机会?它是否会失去就业机会?人们会去哪里?那里存在着一个理解的完整世界,因为人工智能的影响如此之大,以至于,你知道,在许多不同领域都有可以学习的领域。这是我们在维基媒体基金会经常利用的东西,因为有很多研究使用了维基百科。

克里斯·奥尔本

我们在工作中经常使用它,例如,好吧,你如何定义一种编辑类型,比如群体编辑,很多人聚集在一起弄清楚如何一起编辑一篇文章。例如,我们如何使用机器学习检测到这样的事情?好吧,我们去找之前研究过这个问题的学术研究,并尝试弄清楚如何从那里开始工作。因此,其中有很多价值,但我想承认,是的,有很多东西正在计算机科学领域发生,推动着前沿发展,我们正在这样做,这非常有价值,而且在社会科学、经济学、立法、政治学、你知道,像社会学和这类东西中也有很多领域。这实际上非常有用,我认为它可能有点未被充分利用,但我认为这种情况会随着时间的推移而消失。

斯特凡诺·马富利

是的,我看到的,这是,这是真的进展非常快。艾米,你也提到了这一点,马克也是,你也提到了研究人员进入公司工作,然后被不同的动机驱动,并且这也在不为大型公司工作的研究人员之间造成了相当大的摩擦,他们不得不举手说,“等一下,你在做错事。你在犯错误。你正在把我构建的东西推向去做一些危险的事情,或者只是不打算做它一直在做的事情。”因此,所有这些都让我觉得,从实验室和基础研究转向应用研究或应用产品而不是研究,似乎还为时过早。你知道,我有这种感觉。你们对此有何看法?我想听听你们所有人的意见。现在是黄金时段吗?

艾米·海涅克

你知道,我想在社会层面,就加入进来的学术团体而言,我只想向生物学家们致敬,因为我们实际上在自然语言处理领域发现,我们最终聘请了很多来自生物学或化学或应用科学领域的人,他们在这些背景下学习了机器学习,因此不得不与非常混乱的数据和他们试图回答的非常具体的问题作斗争。因此,最终以不同的方式,以非常实际的方式解开了这些问题。因此,当他们进入企业时,然后他们开始思考企业用例或其他什么时,他们带来了一个非常有用的视角。因此,我认为很抱歉回到这一点。我认为看到非常不同的视角仍然需要汇集在一起,才能以任何有意义的方式使用这些东西,当你深入研究真正实际的用例时,这真的令人着迷。

艾米·海涅克

因此,我认为这种动态令人着迷。但是,是的,正如你所说,我认为现在还为时过早,但我认为,当你在实验室环境中时,你不一定能找出问题所在。我认为当我们把这些东西带到应用环境中并尝试使用它们时,我们才意识到,哦,实际上有很多非常困难的问题,这些问题构成了不同的问题,需要回去解决。因此,你知道,人们实际上对告诉他们答案的大型黑匣子模型非常不舒服。他们希望找到能够为他们提供信息以帮助他们做事的工具。因此,通常你不想让模型给你答案。你还希望模型给出它得出答案的原因,或者给你一些你可以推理和使用的证据片段。但是,不同的相关问题成为最终构建有用软件的关键。因此,是的,我认为它必须来回碰撞,但这绝对还处于非常早期的阶段。

易卜拉欣·哈达德

是的。我,我赞同,抱歉。尤其是关于不同观点的意见。你知道,我们与全球多个国家的组织合作,我们可以问一个问题,关于,你知道,你认为什么是伦理人工智能,应该对不同的模型和其他模型施加什么样的约束等等。你可以向中国、日本的某个人、研究人员和政府政策制定者,以及欧洲、英国、美国等几个国家的人提出这个问题,你会得到,你知道,七八个不同的答案。我们意识到的是,你知道,当然,在政策制定和日常实际应用方面,存在不同的观点和不同的方向。真正困难的是达成某种全球共识,我们首先要对眼前的问题有一个共同的理解,然后再开始解决这些问题。

易卜拉欣·哈达德

因为当然,在中国被认为是伦理人工智能的观点,与加拿大被认为是伦理使用的观点将大相径庭。这深深植根于,你知道,在这些国家的文化、政策和他们的民主意识等等之中。因此,我认为在我们在基本理解方面取得进展之前,还有很长的路要走,你知道,理解我们需要处理的问题,然后才能作为一个集体的努力,我们能够产生所需的解决方案。

马克·苏尔曼

那么,让我继续艾米和易卜拉欣所说的,当然现在还为时过早。我认为没有人会说其他的话。我的意思是,我们可以想象晚期会是什么样子。我认为这正是我们需要做的事情的原因,就像,以艾米建议的方式思考事情,对吧?来回,因为我们正在塑造晚期会是什么样子,因为它是一个来回的过程,没有什么柏拉图式的只从实验室里出来,然后他们说,哦,还没到黄金时段。我的意思是,我们正在谈论大规模的自适应系统。认为它们永远会完成的想法,你知道,有点与它们的本质背道而驰,对吧?因此,我认为艾米谈到的来回,以及在不同背景下进行的实验,是关键。

马克·苏尔曼

然后听起来我们已经达成共识,即你来回实验的部分方式是与来自不同视角和不同学科的人员合作。如果我们考虑一下我们这些在座的年纪较大的人使用的所有软件,这真的很重要,你知道,想想当我开始,你知道,使用软件时,比如在我 10 岁或 12 岁的时候,在我自己的电脑上用 BASIC 编程,你只有编写代码的人,你知道,如果你想学习某些东西是如何工作的,你必须去学习,软件中没有说明,你必须读书等等。想想过去 30 年、40 年用户体验设计的演变,你不会拿起一件软件或一个应用程序或其他什么东西,然后需要一本书。

马克·苏尔曼

这是一个从真正以工程驱动的关于计算是什么的想法到包含多个学科的东西的过程,包括设计师、人类学家、思考我们如何与人机交互的人员,你知道,所有以人为中心的设计。我们正处于另一个,我认为更大的,一个更大规模的开始,我们需要将许多来自不同视角的不同人员带入我们构建的团队中,并利用它来进行这些系统的迭代演变。我认为同样的情况也适用于这种东西如何与监管相冲突。我的意思是,我们一直在尝试找到一个类比,我能想到的最好的类比是城市规划,但我们不知道如何监管像这样大规模存在的系统。因此,将它留在实验室而不是真正尝试弄清楚如何在社会中建立这种能力将是疯狂的。就像,我们必须学习如何对我们希望事情如何发展做出社会和民主的决定。我们没有工具,获得工具的唯一方法是尝试并建立社会能力。

克里斯·奥尔本

是的,不,我的意思是,我绝对认为,我绝对认为现在还为时过早,我认为机器学习和人工智能领域最有趣的事情之一是,它几乎随着时间推移而增长得更快,对吧?因此,就像我们一直在谈论那里,就像一个高峰一样,就像五六年前人们说的那样,哦,我们正处于人工智能炒作的顶峰,诸如此类的东西。而且似乎每个月都会发布一些令人震惊的东西,这是以前没有人想到的。我认为其中一部分意味着它的加速速度远远超过了社会,特别是政治真正抓住它的能力。就像我绝对觉得围绕机器学习的政治和立法的一些对话落后了六年,对吧?

克里斯·奥尔本

它们就像,它们正在辩论一个现在完全过时的问题。我们甚至在他们讨论的事情上走得更远,这只是正在发生的事情的旧版本。这是一个非常,这是一个非常困难的点。当你从事政治和科技工作时,你肯定会看到的一件事是,政治和立法需要一段时间才能赶上它的发展速度。你在社交媒体上可以看到这一点,就像在 Twitter 的早期,如果你想以负面的方式谈论一个政府,在一个压迫政权中,Twitter 实际上是一个可以去的地方,因为政府不知道在那里寻找。当然,现在绝对不是在一个压迫政权中谈论事情的地方,因为他们可以使用所有这些工具进行搜索,这些工具是为了基本上找到你是否在 Twitter 上说政府的坏话而开发的,就像政府赶上了一项新技术一样。

克里斯·奥尔本

但是,再次强调,对于人工智能,我们看到这种超快的开发速度,如果有什么不同的话,这种速度还在加快,这在科技领域甚至也很少见。通常,会有一个成熟点,就像,这项技术有点像变得更稳定,然后我们寻找它的应用。因此,在它成熟之后,时间就是,好吧,我们如何将其应用于生物学?我们如何将其应用于法律?我们如何将其应用于航运和商业、社会和民主以及诸如此类的东西?你知道,它,它绝对就像每六个月,我们都在一个新的领域。我的意思是,如果你在人工智能领域,就像我可以列举一堆东西,比如循环神经网络或卷积神经网络,这些东西在五年前还处于前沿,但现在完全不是前沿了。没有人会在生产中使用它。就像,就像我们正在经历的那种快速发展一样,对于社会,特别是政府来说,赶上它是非常困难的,因此,现在还为时过早,而且发展迅速,

斯特凡诺·马富利

我认为你们都提到了这一点,但我的理解,我对这种快速进步和缺乏信任的解读是,它带有一种恐惧,我认为这是近期监管努力的主要驱动力之一,至少那些更仔细审视过的监管努力,欧盟人工智能法案和美国人工智能权利法案,我上周匆匆浏览了一下,看起来,你知道,他们真的很害怕这些算法做出决定。人工智能法案,其中之一,你知道,对精神控制或潜意识信息的恐惧,人工智能法案中提到了这一点,在我看来,他们害怕算法做出决定并改变投票与观点,例如。我认为他们都有这种恐惧。

斯特凡诺·马富利

这可以追溯到成熟度,例如我们,或者我们如何获得对团队模型的信任?例如,我们为软件需要做什么?当我们谈论互联网开始时,你知道,我们看到了,好吧,使其开源,让很多人查看代码,这样你就可以信任浏览器,你可以信任 Web 服务器,你可以信任数据库为你提供你实际想要的数据。而且,你知道,它与加密有关,比如信任算法,因为它已经过数学家的测试和实战检验。你认为我们需要什么,你认为学术界的研究需要提出什么,才能达到这样的水平,例如,“哦,你知道,这就是解决方案,这就是你应该关注的。”克里斯?

克里斯·奥尔本

是的,我认为这是一个非常有趣的观点,绝对,你知道,我一直与这类东西进行比较的类比是社交媒体。Twitter 非常出名的一件事是,他们对研究人员非常开放。因此,它已成为一个真正对社交媒体进行大量研究并将 Twitter 作为例子的场所。并且有很多关于这方面的论文。将此与 TikTok 之类的东西进行对比很有趣,TikTok 是一个非常受欢迎的应用程序,我的意思是,我不认为它是一种算法,我认为它是多种算法,但其中嵌入了人工智能,人们看不到,也无法测试,也无法查看。研究人员很难掌握它。我绝对觉得这是我希望看到更多关注的地方,就像,你如何对一个黑匣子类型的系统进行研究?

克里斯·奥尔本

不仅仅是模型像黑匣子一样,而且他们没有邀请你进去,他们没有给你很好的 API 访问权限。例如,你如何对这类东西进行对抗性研究,我认为这非常有趣,因为有用的东西之一,不仅对 TikTok 有用,而且对其他人也有用,是这样的想法,你知道,这是一个国际性的发展等等。因此,我们进行的许多讨论都以美国或欧洲为基础,并且基于某些民主观念和诸如此类的东西。但这并不适用。这是我们在维基媒体基金会看到的情况,我们在世界各地有 330 个社区,关于什么是公平,什么是所有事物的概念在所有这些不同的社区中都非常不同。需要有一种方法让研究人员在政府广泛使用人工智能的环境中运作,但他们没有为研究人员提供特殊帐户,没有提供高 API 限制来获取,你知道,进行研究。

克里斯·奥尔本

我确实认为,许多研究倾向于关注最容易实现的目标,这往往是 Twitter 上的很多东西。然而,还有很多,你知道,真正更受欢迎的平台,比如 TikTok 之类的东西,它们对研究的开放性并不好,但显然正在以我们不理解的方式使用算法,比如真的真的不理解,因为也许他们正在将它指向,你知道,我的意思是你可以认真地从左到右中心地分析他们想如何使用它。也许是参与度,也许是政治参与度,也许是形成不满,谁知道呢,因为谁知道呢,对吧?

马克·苏尔曼

让我继续说下去。而且,我也想最后再说一下。这是我为什么说“是”,你知道,就这次电话会议而言,以及为什么我想继续与 OSI 合作,因为我们确实在另一个时代用许可证回答了这个问题,并且一开始并不清楚 OSI 成立的原因是为了裁决,对吧?因为人们会去说关于“这是开放的,这是免费的”之类的各种各样的话。因此,我认为我们有点处于那个位置。我的意思是,这花了,我不知道, OSI 成立之初经历了五六年时间的较量。因此,就这样,我想说,部分原因是,谁知道我们如何才能变得值得信赖。但其中一部分是克里斯所说的透明度,以及务实地弄清楚透明度意味着什么,并在现阶段建立激励机制。

马克·苏尔曼

我意思是,我们所做的事情之一是尝试,我也不知道,通过众包人们来逆向监视一部分监视经济,你知道,让他们捐赠他们的浏览器数据,这样我们就可以实际查看一些框框,并展示如果它们是透明的,你可能会看到什么。因为,因为令人惊讶的是,Twitter 已经开放了很多数据,但是我们,我们刚刚发布了一份关于我们的第二份众包研究报告,关于 YouTube 推荐系统的报告,其中 20,000 人基本上展示了他们如何在 YouTube 中测试用户控制,并展示了它们是如何不工作的。所以我认为其中一件事,不仅仅是,是的,透明度,而且还像是让我们开始弄清楚在实践中它可能看起来是什么样子。而且我认为在,你知道的,公平性,或者至少在实践中看待设计中的公平性,情况也是如此。

马克·苏尔曼

我们需要几十年的时间来尝试弄清楚这一点。我们所说的含义是什么,以及特定社区中的良好数据治理是三个需要探索的维度。然后回到最初,我认为看看什么样的许可或其他工具可能让我们比法律更快地探索这些主题。而且,这再次是开源的巨大创新,对吧?如果我们,我们破解了版权法以达到特定的目的。而且我认为我们需要再次审视这一点。看到 Hugging Face 和其他人在负责任的 AI 许可方面所做的一些工作很有趣。我的意思是,它,它目前非常模糊,但是,我确实认为我们应该发扬 25 年前开源的精神,并看看它如何在原型化这些问题方面比法律更快。是的。

艾米·海涅克

艾米,我看到你的麦克风打开了。是的。所以我想指出的一件事是,对于一个 AI 应用程序来说,它有,它有点像洋葱的层次。所以我认为实际上马克·U 很棒,因为你指出了这些层次的不同部分,但是也许对我们来说,在其中稍微指出这一点很有趣。所以你经常会遇到这种情况,你有一个,这种基础模型,它可能是一个大型训练模型,它尽可能多地保存数据,以创建某种世界的基础模型。所以它可能是这些类型的图像生成模型之一,或者是这些大型语言模型之一。所以你有,有点像这些基础模型,它们是在大量数据上训练的,然后这些东西可以被构建在其之上,所以你可以微调它们来做不同的事情,然后你可以围绕它构建应用程序,这些应用程序使用这些,使用这些训练模型来实现不同的目标。

艾米·海涅克

所以我认为有趣的是,我认为游戏的一部分是,最终的东西是如何被人们使用的?所以我认为想到,你知道的,你不知道发生了什么的模型,但突然被赋予权力来,你知道,决定谁被雇用或不被雇用,并且你知道,这在某种程度上是否会存在很深的偏见,以及,如果我们没有访问权限,我们甚至会如何知道这一点,即最终的应用程序。但是有趣的是,那些正在走向外部的基础模型,这些类型的大型基础模型可以用于许多不同的应用程序。它们使其他人可以轻松地去构建大量的应用程序,但它们本身有点像一个煮熟的袋子,里面装满了任何进入其中的数据。所以我认为,你知道,正如你提到的,关于 Rails 许可或其他东西的那些基础模型,已经有一些引人入胜的对话,在这些基础模型中,可能会发生各种各样的事情。

艾米·海涅克

而且我认为我们不一定知道烘焙到这些数据中的是什么,所以我们不知道是否真的,你知道,如果你以某种方式戳它,它会有点可怕和奇怪,并向我们展示人类本性中最糟糕的一面,这些东西被吸入到训练数据中。如果你以其他方式戳它,你会看到一些非常令人愉悦的东西,这有点像是,你可以从中弹出的最富有创造力和最可爱的东西。所以我认为我们必须努力解决,你知道,我们对这种潜力的释放感觉如何,我们,你知道,我们构建了这些可以做很多很多事情的模型。我们如何推理这种能力?然后其次,当我们在其之上构建应用程序时,我们不知道它在做什么,我们如何检查它是否正在做我们甚至想让它做的事情?所以我们可能有良好的意图,但只是没有意识到它存在严重缺陷,或者我们也可能有某种恶意。但是它们都是人工智能,但它们是不同类型的。

斯特凡诺·马富利

哦,这,这是一个非常公平的观点。易卜拉欣,哦,你被静音了。抱歉。

易卜拉欣·哈达德

谢谢。所以我想回到克里斯提到的关于发展速度和创新速度的事情,实际上我们跟踪了 AI 和数据领域中顶级的开源项目。所以大约有 3,330 个项目,我们认为它们是生态系统中的关键和重要的项目,你将能够通过我在聊天中分享的链接来探索它们。真正有趣的是,所有这些项目在代码行数方面的总和约为 5 亿行代码,并且每周有 100 万行新代码被实现。所以这就像每周每周都有 100 万行新代码被添加到这些关键顶级项目的代码库中,这些项目代表着来自数千个组织的数万名活跃开发人员的贡献。

易卜拉欣·哈达德

因此,这在跟上步伐方面确实是一个巨大的挑战,而且,你知道,我们可以访问这种大规模的外部研发资源,作为集体努力,这是一件很棒的事情,但从不同的角度来看,跟上这种创新步伐,并对道德 AI 领域的面貌变化和研究保持良好的把握,实际上是非常具有挑战性的。关于,你知道的,马克和艾米关于,你知道,我们现在可以做什么以及开源的价值的观点。我认为开源确实具有巨大的价值,这本身就适用于 AI 和数据领域。这可以用一个词来概括,正如大家提到的,你知道,透明度。

易卜拉欣·哈达德

而且我认为,你知道,从我们的角度来看,我们尝试从四个不同的挑战来看待这个方面。第一个挑战是,你知道,确保公平性。所以我们需要能够拥有,当然是开源工具和方法,你知道,库,无论是什么情况,这将允许我们检测、指示任何类型的偏见,无论是在数据集还是模型中。所以这是一个方面,它有点像是公平方面。第二个方面被称为稳健性,基本上是方法,或者,或者库和工具,允许我们检测数据集和模型是否被篡改。基本上是尝试识别它们是否受到了任何对抗性攻击。第三个方面,我认为一位小组成员用不同的语言提到了,是可解释性,也就是说我们需要能够理解并让模型具有自我解释性。

易卜拉欣·哈达德

基本上我们需要方法,以及,工具或库,这将允许我们理解和解释这些不同的模型以及结果,以及决策树等等。第一个方面是谱系。这既适用于数据也适用于模型。基本上是了解方法的来源,模型的来源和数据集的来源,对它们所做的任何更改,由谁完成的,以及使用相同的数据集产生相同结果的能力。所以这些是四种不同的挑战,我认为这将是解决道德 AI 总体问题的一个很好的部分,通过解决与公平性、稳健性、可解释性和谱系相关的较小子集挑战,并通过开源方法,即协作工作、开放性和透明度。

斯特凡诺·马富利

这里面绝对有很多,很多问题。易卜拉欣,就像我们,我们也进行过相关的讨论,关于,你知道,公平性问题。你如何衡量,你提到了很多技术问题,即正在部署和可用的技术工具,以判断模型的公平性和强度。在现场的许多用户提出的异议,就像我们在周二的小组讨论中邀请了詹妮弗·李一样,是许多技术工具仍然使用我们社会内置的偏见来衡量事物。因此,有很多工作需要做,我认为在这个领域有很多对话。这就是为什么我对多次提到的道德,道德方法感兴趣。

斯特凡诺·马富利

而且,我,我已经听过很多很多次了,而且看起来它正在成为最受讨论的话题。以及这个社区,研究人员社区最受讨论的特征。他们似乎非常非常关心发布他们的论文,发布他们的数据集,他们的模型,他们的训练模型以及所有,以及所有的工具,并非常小心谨慎地对待系统的部署或下游使用。你认为这是为什么会发生?这是你在其他领域见过的吗?比如,我不记得马克,我不记得互联网早期有这种情况,我不,好吧,当时有一些担忧,但他们也觉得,呃,我们以后再解决它。比如,或者我们将通过法规法律来解决它,或者其他人会做。我不记得看到研究人员如此关注这一点,但是这里发生了什么?

马克·苏尔曼

嗯,我认为正是如此。它是,我们以后再解决它。然后,你知道,我们得到了斯诺登,我们得到了剑桥分析公司,我们得到了弗朗西斯·哈根,我们得到了,你知道,无论你的政治立场如何,我们所拥有的两极分化的混乱局面,我们得到了对科学的否认。而且,我,我不认为这与人工智能有关。我的意思是,它,它是一种日益增长的意识,即我们构建到系统中的设计决策,就像所有系统一样,汽车、城市等等。但是,你知道,我们真的用数字系统塑造了很多。设计决策很重要,护栏很重要,当然影响的关注比关注更重要。但是在设计阶段考虑潜在影响很重要。我们,你知道,Misso 宣言,这是,你知道,指导我们的东西,而且,我们真的每周都在使用它,以说,我们应该这样做吗?

马克·苏尔曼

我们应该那样做吗?我的意思是,对我们内部来说,这是一个非常有用的工具,它写成了两章。第一章,也许会有第三章,写于 2007 年,我认为我们大多数人都觉得,这些话都在里面,只要它是开放的、可互操作的、去中心化的、等等,它就会是好的。而且,我们仍然相信这些东西。但是网络,这些原则是,是关于网络的,通过成为这些东西,没有任何关于,你知道,真正意图的设计,已经造成了很多伤害,或者被用来造成了很多伤害。部分原因是它,它是开放的,没有任何故事的另一面。所以我们写了,Misso 宣言的第二章,毫不奇怪地在 2017 年,其中谈到了包容性和人类尊严以及真理,以及在互联网向前发展的过程中,在设计中需要关注如何平衡这些,我认为这些是像我们大多数人所代表的技术价值观,以及一组人文价值观,随着互联网和数字技术以及 AI 融入我们生活的方方面面,我们必须关注如何两者兼顾。

马克·苏尔曼

所以我不,我认为这仅仅是因为 AI 是当前的计算时代,所以这个问题在 AI 中显得很突出。我认为这是一个关于数字系统在我们社会转型中的作用的问题,以及确保我们仍然关心民主和人道主义。易卜拉欣。

易卜拉欣·哈达德

是的。所以我基本同意马克所说的大部分内容,但我想补充一个不同的观点,关于为什么这现在变得重要。而且我认为,你知道,我个人的观点是,有很多研究人员,你知道,技术专家和从业者意识到,类似于克里斯提到的,事实上,今天正在发生令人难以置信的创新。有大规模的发展,基本上我们认为三年前是,你知道的,尖端技术的东西,今天已经,你知道的,已经过时了。真的,有很多新的东西。我想给你几个例子来说明我的意思。我认为在 2019 年,我在中国参加了微软研发中心的一个活动。

易卜拉欣·哈达德

他们当时正在展示一个 AI 系统,该系统能够,一,作曲和演奏。他们的预测是在几年内,但不到五年。所以我们几乎快到了。你将会坐在你的车里开车,听着收音机里的音乐,却不知道是否有一个像你或我一样的真人,作曲和演奏了音乐,还是实际上是一个 AI 系统。所以这是一个例子,另一个例子来自上周,我在迪拜参加一个活动并演讲。他们有一个机器人,在查看了一些图像或扫描了一些图像后,能够绘制相似的图像,结果非常完美。我的意思是,我站在展位前看着它,这真是令人难以置信。所以我认为很多人都担心正在发生的进步,以及这可能对社会造成的潜在危险。只是,你知道,所以真的很多人有兴趣探索这一点,并弄清楚如何部署它,并保持部署在积极的方面,关于,关于人类和人性,以及一般的社会,而不是所有,你知道,其中一些技术被以一种令人担忧的方式使用。

斯特凡诺·马富利

是的,我,我完全同意你的看法。这真的很有趣,而且绝对是我一直在观察的东西,但没有真正评判。我,这真是一个中心话题。但是我想回到艾米说的一些话,你在谈论构建这些模型和训练这些大型模型所需的大量数据,这些模型然后成为,我想我们失去了 –。哦,不。好的。所以,这些,这些大型数据集,需要投入的大量数据,以及也可以重新训练和专门化的模型。所以基本上有必要,那里,你可以,我们可以看到,在拥有共享的公共资源方面存在优势,在那里我们,我们可以,我们可以提取,我们可以混合和匹配事物。我们如何到达那里?什么,什么是必要的?什么或什么是缺失的?我们是否走在正确的道路上,为构建更好的 AI 构建公共资源?所以为了改进,或者什么,你的经验是什么,你对此有什么想法?

艾米·海涅克

所以我认为,可能有针对这两个不同层面的答案。其中之一可能围绕构建这些可以用于许多事情的基础模型所需的数据。而且,你知道,正如我所说,一般来说,他们想尽可能多地吸取数据 <笑> 来自世界各地。所以你可以通过这些基本图像模型之一投入的图像越多,分辨率越高,它就越能理解世界。你可以投入的语言越多,你就越能生成长篇文本。所以,关于这一点有一个问题。那么,我们觉得可以放进模型中的数据是什么类型的数据?我认为第二个问题实际上是关于为特定目的训练东西。所以我可能会谈论第二个问题,即使第一个问题可能更有趣,因为也许我对另一个方面有更多独特的见解。

艾米·海涅克

所以我们发现的其中一件有趣的事情是,为特定用例微调模型。所以这是与银行或不同类型的企业合作。因此,无论如何,在商业中的一些 AI 用例是关于思考人类工作流程,并尝试构建可能使人们能够完成这些工作流程的工具。所以也许它们旨在阅读大量文档,找到与其业务相关的内容,然后对此做些什么。当你去与公司合作时,你发现通常他们会想象,哦,引入 AI 来做这件事会非常酷。然后当他们开始这个过程时,你实际上意识到他们的业务流程并没有真正被记录下来,你会让做这项工作的个人去为你训练数据,你会发现他们彼此之间的意见一致程度较低。

艾米·海涅克

所以他们彼此之间的意见一致程度低于他们意见不一致的程度。因此,他们实际上正在积极地和系统地做着与他们的邻居不同的事情。他们以不同的方式解释了他们的工作是什么。因此,当你来到应用程序时,这非常有趣,因为是的,我们经常真正深入了解人们做什么?他们如何做出决定?他们想如何做出决定?而且我认为,如果你知道,让 AI 做有用事情的一些承诺实际上将是关于我们学习我们在日常工作中做什么,并以一种系统的方式谈论它,这可能是我们以前不必做的事情。而且我认为这有点令人着迷。我认为,关于知识产权也存在着令人着迷的问题,如果你的业务以某种方式运作,然后你可以用训练数据和示例的形式来表示它,这些数据和示例被嵌入到模型中,那么这个模型,这个经过微调的模型可能对你的业务来说非常非常具体,并且如果你可以随着时间的推移训练它,它将变得对你的业务非常宝贵,但我很想听听其他人对这些大型基础模型以及我们觉得可以投入其中的数据的看法。因为它们肯定越多越好,似乎是这样。

斯特凡诺·马富利

是的。

斯特凡诺·马富利

因为构建这些大型数据集也非常困难。而且,你知道,我,我曾经认为维基百科很大,但后来我意识到它对于自然语言处理来说真的太小了。所以我的意思是,我们开始看到来自各个方面的非常非常强烈的抵制,让我们称它们为版权所有者,从唱片业协会到一些,电影协会,编辑,书籍和出版商,甚至一些,你知道,Copyleft 支持者也在反击,说,听着,这是我的代码,这是我发布这些数据的条件。所以是的。你认为呢,你认为,我们应该做什么,我们应该做什么来创建这些公共资源,以扩大数据的可用性,以便获得更好的 AI 系统?

克里斯·奥尔本

是的,我认为有几件事。我绝对认为最有趣的事情之一是,从法律和许可的角度来看,围绕正在使用的数据有更清晰的认识。所以就像,正如艾米指出的那样,很多这些,这些模型都是在非常大的数据集上训练的。无论你想称之为基础模型、基础模型,无论你想怎么称呼它,都是基于,都是建立在非常大的数据集之上的,为了获取这些数据集。不同部分的许可非常多样化。所以也许他们拿维基百科,对吧?我们对内容有一个许可,然后他们抓取 GitHub 上的所有内容,GitHub 有不同的许可,然后他们去 DeviantArt,这是一个艺术类的,就像,就像展示库,每个作者都有不同的许可,并将其纳入其中。

克里斯·奥尔本

最终的数据库实际上是由一堆不同的许可拼凑而成的,这些许可被拼凑在一起。然后在上面训练一个模型,然后在上面训练,你知道,然后你以此为基础构建,然后在上面构建一个应用程序,并且变得非常难以理解,它的法律部分的来源。而且,我认为我们正在看到这一点,我们至少看到一个案例,关于 LinkedIn,就像,嘿,抓取数据并为其训练模型是合法的,但我们也看到了关于 GitHub Copilot 的诉讼,它说,嘿,你拿走了我所有的代码,然后基本上作为产品提供给人们。这是非法的。我们正在看到与芭蕾舞和其他生成艺术相关的东西,就像字面上有时显示,就像水印一样,因为他们抓取了所有这些,带有水印的库存照片网站。

克里斯·奥尔本

所以有时算法无法删除水印,在他们的,在他们的生成部分中。而且,我们可以获得越多的清晰度越好。就像我,我很想看到一个真正宽松的数据许可,它是,专门围绕 ML/AI 的,就像,嘿,你被允许,你知道,从中制作一个模型,你必须为此给予我们署名。或者,你被允许使用围绕它的东西,它是真正的,就像,专注于此。而且,这意味着当你外出抓取大量数据时,你实际上可以去查看该许可是否存在或不存在,或者诸如此类的东西。因为我,你知道,对我们来说,最大的问题是,我们试图在基础上做事情。

克里斯·奥尔本

我们希望你以我们制作的东西为基础进行构建。所以,就像,我们试图非常非常宽松,但随后研究人员来找我们说,嘿,我有一种很棒的方法来检测维基百科上的破坏行为。然后就像,好的,酷。我们需要知道所有东西背后的许可,以确保,你知道,就像我们处于一个良好的位置,我们可以将其发布给社区以构建东西。因为这就是我们试图做的。因此,我们需要明确你提交给我们的模型是否具有这样做的能力。而且很多时候,这并不清楚,因为,你知道,尤其是在学术环境中,许可信息是,它不在商业环境中。一切都是非营利的,一切都是为了教育。在这些类型的设置中允许有更多的回旋余地。

克里斯·奥尔本

然后当你尝试将其应用到,你知道,更商业的案例或非营利空间或类似的东西时,你会遇到更多的担忧。所以绝对像,我,我只是希望围绕,就像,什么是可能的,有更多的清晰度?就像我可能,我可以碰触到的界限在哪里,并确保如果我要抓取互联网上的每一张图片,我可能会找到,我应该丢弃哪些图片,对吧?我应该保留哪些图片?我应该去哪里?什么是好的来源?而且,我们正在朝着这个方向发展,但我们还没有完全到达那里。

斯特凡诺·马富利

我,我认为易卜拉欣和马克,你们都有构建数据集的经验,或者至少易卜拉欣,你没有专门为数据编写的许可吗?

易卜拉欣·哈达德

是的。所以我们有所谓的 CDLA,这是一种专门为许可数据集而创建的许可。而且,如你所知,开源许可证是为源代码而设计的,源代码的性质与数据不同。因此,Linux 基金会成员和社区多次进行了练习,因为今天我们处于 CDLA 的第二版。所以我们有 CDLA,即社区数据许可协议的缩写。几年前有一个版本一,也许明年,对其进行了更新。它实际上以两个版本存在,CDLA 许可类型一,它有点像是宽松的 CDLA 许可类型二共享。

易卜拉欣·哈达德

而且,这些,这些许可或这两个许可,基本上是相同的许可,你知道,带有两个不同的许可协议。它们专门针对数据共享。我们目前还没有在 Linux 基金会托管数据,我们实际上正在努力启动一项新的倡议,其目的将在今年年底或明年初最有可能宣布。而且我认为马克,他们在数据方面有更多的经验,尤其是他们几年前完成的语音项目。也许他可以谈谈

马克·苏尔曼

是的,语音项目仍在进行中。我的意思是,我,我认为,正在谈论的项目是所谓的 Common Voice,这是一个用于语音文本 Texas 的训练数据集,这是我们在 Nvidia 和一个庞大的社区(世界各地的人们)中进行的。而且,你知道,其中有很多有趣的事情。其中之一是,你知道,你问的问题,比如我们如何,如何考虑构建公共资源?而且,在真正没有竞争数据集的情况下,比如在非洲语言中,我们在 Common voice 中做了很多工作,半传统的开源,你有社区在那里贡献语音片段,贡献文本,根据语音片段验证文本,这是可行的,因为你没有有竞争力的庞大有机数据集或抓取的数据集。

马克·苏尔曼

因此,在什么都没有的情况下构建公共资源的一种方法,你知道,我们实际上从,从开源中知道,鸡蛋,越常见的,我们不知道,正如克里斯所说,你知道,我们所处的法律基础是什么。而且,如果持有者在某种程度上成功地说,是的,实际上这些基础模型充满了我们拥有的各种东西,那将会非常不同。而且你必须找到某种方法,把它们扔进垃圾桶或放弃它们。就像我,我不认为我们会合法地达到那个地步,但如果你得到了那个,你将处于一种情况,就像,哦,现在我们必须回去说,我们如何合法地构建公共资源,以及克里斯所说的那种方式。但是,我,我认为挑战在于,马已经跑了,我,我只是看不到我们把它收回。

马克·苏尔曼

然后,对于公共资源来说,这是一个问题。因为克里斯所说的那种真正的公共资源,我们在其中对许可或易卜拉欣所说的许可有想法,永远不会与那些只是 [听不清] 的东西竞争。所以,我真的不知道该如何考虑它。而且,我想,只是一个来自语音项目的尾声,也很清楚,如果你确实有一个公共资源,那么在易卜拉欣谈到的某些方面,以及其他方面,传统的开源软件许可是不够的。而且我认为我们正处于最早期的阶段。其中一个有趣的例子是,也是数据集的社区所有权问题。意思是数据集通常只有在聚合时才有意义,对吧?这是我们在代码中没有的相同方式的东西。而且,在 Common Voice 中,有一组社区将其数据集从 Common Voice 中取出,并说,我们不希望它在 CC Zero 下,这是我们的主要许可。我们想要社区控制,我们想说谁可以使用这个?而且,我认为在公共资源确实存在的地方,未来二十年,我们将有很多真正有价值的许可问题需要解决,围绕数据。

斯特凡诺·马富利

而且我认为主要的,主要的

斯特凡诺·马富利

或者你知道,这太可怕了。我们需要制定法律来阻止某些用途,或者我们意识到这一点,作为一个社区,如果我们不想分享它,这太可怕了。但它对我来说很着迷。阅读关于那个数据集被撤回的事情让我感到着迷。这是我从 Hippo AI 收到的另一个问题,Hippo AI 是一个基金会,它正在汇集患者捐赠给公共领域的医疗数据集,你知道,为了构建一个关于医疗数据的公共数据集。他们想要做的是建立某种版权自由机制,他们希望有一种方法来说,如果你从这些数据集中构建出很酷的东西,你需要以我们给你数据的方式向公众发布数据、模型以及所有信息、所有工具和所有这些东西,这有点像 AlphaFold 对其发现的蛋白质数据库所做的那样。

斯特凡诺·马富利

比如我,那么你对此有何看法?比如你对首先构建框架、政策和社会规范,然后可能制定法律合同来激励共享这些想法有何看法,Chris?

克里斯·奥尔本

是的,我既喜欢这个想法,而且我认为,为了重申 Mark 提出的观点,必须有有价值的激励来做这件事,而不是另一种选择。就像人们这样做的原因是,你知道,假设你是一家初创公司,你收集所有的数据,可能是关于某件事的数据,你基于它构建一个产品,你变得富有。然后,当你坐在那里,你的公司价值 40 亿美元时,有人会说,嘿,哦,那些许可信息,很不错,你知道,但是当你取得成功的时候,那些考虑因素才出现,人们开始对此产生问题。这是一条路。我不认为这是最好的路,但这绝对是一条路,它显然激励个人去做,这也是人们这样做的原因。

克里斯·奥尔本

我认为更难接受的是,你知道,鉴于那条路是一种选择,更难接受它,并认为,相反,你应该做的是制定一个框架,你知道,就像你在这些庞大的数据集中收集的每一张图像都是一部分,你知道,就像是以某种方式获得许可,并且你已经联系了每个用户,你知道,这就像,你可以看到,对于没有巨大个人收益的道路来说,这是非常困难的,比如社会收益肯定,但比如个人收益。然后另一条路,基本上是目前默认的方式,是两者中最容易的。对你来说,理想的道路是,作为一个理性的个人,而不是像社会层面。改变这一点,我没有一个好主意如何做到。所以如果任何人,其他人有好主意,我很乐意听到。但这绝对是,你可以看到为什么人们在追求自身利益时会收集每一条数据,比如所有数据,然后从中创建一个模型。

易卜拉欣·哈达德

这实际上类似于标准与源代码之争,你知道,我们应该先编写标准然后实施,还是应该先实施然后让标准反映实施?非常有趣。

马克·苏尔曼

但当然,在任何情况下,它都不会那样运作,对吧?我的意思是,没有参考实现,标准就行不通,而且它们并不相同,你知道,反之亦然。所以,我想这就是我们已经知道的,如果激励措施到位,这里可能也是如此。我认为这就是 Chris 重复强调的挑战。我认为没有任何激励去做这件事。除了我猜我会说的坏方法,或者当然,非常自私的 Hoover 方法。在其他类型的障碍、风险或保护措施存在的情况下,情况可能会有所不同,或者如何,我猜这取决于你坐在哪个位置,比如,你知道,人权法、健康数据保护法或劳动法。而且,我们可能会在那些地方看到一些创新,在那些已经受到高度保护的环境中,大量收集和使用 PII 将迫使我们在你引用的某些方面进行创新,我不记得是不是,你知道,因为围绕患者数据的 PII 已经受到如此高度的保护,人们非常不愿意再回去,然后,围绕公共领域和不同许可制度的创新更有可能在那里出现,因为护栏的激励措施已经存在。

马克·苏尔曼

所以,也许如果你抽象地关心更大的话题,我认为特别是关注健康和劳动数据,你知道,我们可能会看到人们创新的方式。我们看到这种情况的一个地方,我们,这个叫做数据期货的东西,在这些事情中,与我们在这里谈论的方式不同。但在某种意义上,对于某些参与者来说,要弄清楚同性恋经济世界中的协作数据治理,因为他们实际上想能够共同拥有和使用他们的身份,比如司机或送货员或其他身份。因此,那里有一些创新,他们正在构建他们共同的方式,因为他们实际上想看到平台正在看到的关于他们的信息,以便在谈判中拥有一些影响力。而且,而且

斯特凡诺·马富利

Amy 我看到你了

艾米·海涅克

是的,我认为一个,我的意思是,一个小小的补充点,这很有意义,是数据的规模对模型的优劣有很大的影响。所以我认为我猜想这里的另一个挑战是,如果你最终得到的是小型的、许可良好的数据,你基于它构建的模型将无法取得很大成就。所以,你知道,其中一部分是我们可以说,你知道,人们想发财,并想在他们收获的所有东西之上建立一家公司,但是,你知道,你也可以这样看待它,也许,也许人们将在大量数据之上构建的一些东西实际上会带来很多社会利益或好处,或者它们将促成我们想要的创新。所以我认为你是对的,这完全是关于激励措施的,这很棘手,因为我们需要获得那么多数据的方法,如此庞大的数据量,如果我们希望这一整类模型能够存在并被使用。

斯特凡诺·马富利

是的,绝对是,我绝对能看到其中的冲突,那里有,那里有如此多的材料,比如互联网创造了大量数据,大量信息。但是,与此同时,当它降低了版权的重要性时,它也增加了检查和控制的数量以及大型公司的权力。所以我认为这将是很棘手的,但这可能应该是我们首要关注的问题,对吧,数据挖掘,欧盟已经开始在法律和监管中定义数据挖掘。但我认为他们只是,他们没有像我希望的那样走得那么远,因为数据挖掘的权利仅在默认情况下对非营利或研究目的合法和开放,而不是对商业目的。因此,在清晰度方面存在一些不足,但肯定会在法庭和意见中很快面临挑战,我认为 Chris,你有什么想法?

克里斯·奥尔本

是的,我只是,我真的很,我真的很欣赏 Amy 的观点。我认为这很好,你知道,我认为有人说过,很多时候,对于这项技术来说,马已经跑出马厩了,或者你知道,就像,我们已经从其中一些令人惊叹的事物中获得了好处。这就是,你知道,Amy 的观点就像,那里有,就像即使,这就是你身处的现实,即使存在正在造成这些困难的版权情况,如果人们已经从中获得,正在从中获得的价值如此之大。从政治立法背景来看,很难将其撤回。我记得,你知道,很久以前,有人讨论过,哦,我们不应该,社交媒体应该是非法的,对吧?

克里斯·奥尔本

就像,每个人都在社交媒体上公开谈论。就像,那不会发生的。就像,你知道,我知道 Meta 最近发布了他们称之为 NLLB 模型的东西,即不让任何语言掉队,它可以在 200 种不太流行的语言之间进行直接翻译。比如,像塞索托语或像乌尔都语之类的语言。你可以在这两种语言之间进行翻译。这显然有巨大的好处,你可以将塞索托语的书籍翻译成乌尔都语,而无需通过英语等任何桥梁。就像,这太棒了。想象一下,如果为了完成这项工作而使用它,你是基于版权书籍或类似的东西,对吧?就像想象一下情况是这样的。会有人强烈反对说,嘿,你不能这样做吗,以及人们从中获得的所有好处。我们必须因为某种版权之类的东西而把它夺回来,考虑到版权已经非常,就像你是否可以使用版权是一场正在发生的斗争。然而,人们现在绝对获得了好处。我真的觉得,你知道,这有点像,我们已经稍微超过了讨论的范围,我们——

斯特凡诺·马富利

是的,规模已经开始倾斜了。

克里斯·奥尔本

是的。而且,我的意思是,就像如果你要获得一辆自动驾驶汽车,一辆富有想象力的自动驾驶汽车,它驾驶完美,但它却使用了,你知道,像受版权保护的数据。我只是不认为人们会召回。我只是不认为作为一个社会,你有能力做到这一点。

马克·苏尔曼

你知道,我认为我们,我们处于一个,我们当然处于一个棘手的地带,你知道,你,你使用较小的数据集,你不会获得这些创新,然后你也不会获得 Amy 和 Chris 正在谈论的那种好处。同样的,同样的情况也适用于,你知道,你也不会获得贪婪的加速,以及对事物的滥用。所以我想,你知道,也许对我们来说的问题是,公共领域是否与,你知道,减轻一些不良用途和鼓励,你知道,一些更有益的用途有关?我不知道它是否有关。我的意思是,再说一次,我认为这在某种程度上是 RAILS 实验,你知道,它的真正意义在于尝试成为,我们实际上是如何考虑将责任融入许可,而不是仅仅开放或使用。所以我认为这对我们来说是一个很大的开放性问题。马已经跑出马厩了,但马已经跑出马厩,既用于有益的用途,也用于邪恶的用途或这些贪婪的用途。而且我认为,即使我们两者都能拥有,贪婪的用途也比有益的用途更有可能让马跑出马厩。Uso,你知道,也许你最终会陷入这种愚蠢但也许真实的对话,这真的只是愚蠢的人性。

马克·苏尔曼

我认为这是我们必须努力解决的问题,因为当然,就开源行业和网络的历史而言,仅仅说一切都是开放的,而我们不询问关于这些东西被滥用的问题,你知道,到目前为止,情况并不好。我真的不知道我们对此该怎么办,但我确实认为我们必须关注这一点。

斯特凡诺·马富利

绝对要关注,绝对有充分的理由关注,特别是考虑到我们目前的处境。我认为我们需要记住这样一个事实,即我们设置的障碍越多,基于许可的研究和知识获取就越充满障碍,充满,充满,你知道,显然会消除好处。因此,我认为找到这种平衡是挑战所在。而且,我想回到学术界在寻找这种平衡方面的作用。而且,在其中一个播客中,我采访过的来自 Aeu AI 的研究员 Connor o 谈到,最终他认为 AI 是基本的,不是基础数学,但它是数学,而且线性代数基本上比我们想象的更容易理解。它真的不是博士水平的。至少他是这样声称的。他呼吁建立更好、更优秀的 AI 系统,也是为了激励更多学生开始学习数学,并进入这些领域。你认为,这是使 AI 系统更值得信赖、更透明,并帮助立法者做得更好的秘诀的一部分吗?

艾米·海涅克

我不同意这仅仅是数学。我不同意的原因是,它是数据加上数学。我用的是 s,因为我在英国住了一段时间了。抱歉,说“math”感觉很奇怪。总之,它是数据加上数学。所以问题是,你知道,其中一个,这些大型数据集中的一个是,比如,如果你去抓取你在网上找到的每张图片,那些都是人们拍摄的图片。这就像我们集体的经验和我们所展示的世界的蜂巢思维,以及我们关心的事物,以及我们认为值得拍照的事物的选择。如果你去抓取互联网上的所有文本,你知道,你知道,人们在 Reddit 上写什么类型的东西?人们在维基媒体上写什么类型的东西?

艾米·海涅克

那里?它们,它们是不同的。你知道,互联网上不同地方有不同类型的东西,它们是我们自身的反映,对吧?人文、才华和弱点以及一切的反映。因此,当你在推理 AI 模型时,你是在推理它的机制。比如,哦,这个东西训练那个东西。但你也在推理数据中驱动输出模式的模式类型。所以我认为,有一种思考 AI 的方式,你知道,就像之前关于学科的对话一样,有一种思考方式是,你进入你的数学头脑,你学习代数,你写下一堆方程,你理解它们如何操纵它们,你如何,你如何操纵它。还有另一种思考方式,你几乎就像,你知道,就像你是一个动物园管理员或类似的东西,你就像,你就像在玩这个东西,你以不同的方式戳它,你就像,哦,如果我这样做,会发生什么,你知道,它,它,在某种程度上,更像一个生物系统。

艾米·海涅克

它就像一个社会系统。它是我们投入其中的东西的缩影。所以我认为,你知道,我们,我们正在尝试教孩子们社交媒体素养,比如在线是什么意思,以及你如何小心你在网上与谁交谈,以及你如何思考来源,以及你如何评估你从不同地方获得的新闻类型?我认为我们需要某种方式让孩子们,而且不仅仅是孩子们,因为我认为作为成年人,大多数人不知道如何推理这件事。而且我认为这导致了为什么整件事如此可怕。你知道,我们想要有一些游乐场,在那里你可以使用其中一些模型,并以不同的方式推动它们,看看会发生什么。因此,可能是,像融合发布的稳定版这样的东西发生的一件伟大的事情是,如果越来越多的人开始使用其中一些 AI 模型来做图像生成之类的事情,并且他们尝试一些提示,并且这变得容易访问,那么他们,他们可能会开始推理,嘿,有时它吐出的东西看起来像已经存在的东西,有时它吐出完全的混乱,有时它不发出任何声音。

艾米·海涅克

而且,你知道,我什么时候得到什么?然后他们可能会意识到,当这些系统,当这些模型嵌入到更大的系统中时,类似的奇怪事情会发生,这取决于人们如何使用这些模型。他们可能会提出不同类型的问题,他们可能知道如何当下使用。所以是的,那里有很多学习要做,而且我认为这是一个非常有趣的问题,关于我们如何引导人们沿着这条线前进,特别是当我们意识到,你知道,概率,基本概率对我们来说是如此难以推理,我们通常在这方面非常糟糕,你知道,这就像与这些模型一起复合到无限远,这些模型只是,你知道,以疯狂的方式分层。Chris 和 Mark。

克里斯·奥尔本

是的,我的意思是,绝对是,要补充,补充这一点,你知道,你可以想象一个思想实验,我们说将学生的线性代数和微积分教育翻倍。这会让他们更好地理解 TikTok 是如何操纵他们的行为的吗?就像,不,可能不会,对吧?当然,数学是其中很大一部分,就像,如果你进入这个领域,你绝对应该懂数学,还有很多其他的,因为 ML 和 AI 的影响如此广泛,以至于有很多不同的领域可以解决它。你可以从法律的角度或政治的角度或生物学的角度来解决它。或者说你是一位艺术家,你就像,你看到的 AI 大象的唯一部分是生成艺术部分。

克里斯·奥尔本

就像,什么,就像,按照 Amy 的观点,就像吐出什么东西?我如何用它构建一些东西?就像你如何构建像生成艺术这样的东西,它既有趣又酷,并且最大程度地利用了该工具?也许这就是你一生都在努力做的事情。它有很多不同的部分,因为它太大了,以至于把它放在一个领域里是非常还原论的。就像如果我们只是更了解人文学科,我们就会弄清楚 AI,或者如果我们只是在脑海中拥有两倍的,你知道,像线性代数这样的东西,我们就会弄清楚,你知道,ai,它,它不是那样工作的。它太大了,它太包罗万象了。它有很多不同的组成部分,以至于它是整个社会,所有学术学科都在分解它,每个学术学科都对此有有趣的看法。

克里斯·奥尔本

我的意思是,绝对是我见过的一些最有趣的东西,比如日本文学正在使用 ML 和 AI 进行翻译,你知道,就像,这只是一个,你知道,一个正在被研究的领域。我不认为只有一个地方。我认为有很多很多地方,而且,其中一部分是,任何领域都有价值。你可以在任何领域,思考 AI 是如何发展的,以及你如何使用它,以及你如何更好地理解它。这是一个丰富的发现之地。

斯特凡诺·马富利

的确如此。我只想在 Mark 之前插一句,说明这个引言在播客中出现的背景,我们当时正在讨论分析模型本身,并理解模型在安全性和安全性方面的作用。所以只是想——

马克·苏尔曼

我们有点跑题了,但是,要思考我们已经走了多远,你知道,我想我会重复,你知道,Amy 和 Chris 所说的话。我的意思是,显然,它需要各种各样的观点,而且,我真的很想接你刚才说的话,Amy,就像这些是系统,对吧?那么我认为理解它们意味着什么?如果你广义地理解引言的内容,你知道,关于安全性的问题,你知道,我认为可以从两个方面来看。一是我们如何训练自己安全、高效、应用、尊重地生活在生命系统中。这就是我喜欢用动物园作为一种隐喻的地方,比如,我们可以去哪里学习?你知道,如果我想住在一个城市里,我学习如何知道这是一个危险的地方还是一个不危险的地方?

马克·苏尔曼

我可以去找谁,实际发生了什么?我周围有很多信号,需要大量的技能和知识,以及某种程度的经验积累。我认为我们需要开始以这种方式思考它。这里有不同的技能,然后又回到了我之前略过的东西。这也是一个问题,比如,我们需要什么技能,或者在邀请、设计或监管方面,我们想要什么样的模型,你知道,在这个领域中的安全、繁荣和美好。而且,我不认为,你知道,这就是我认为回到大规模系统很重要的地方,而且,城市是我认为与之类似的另一件事。我的意思是,我们在城市中努力监管和表达广泛的意图。但是,我们还是会尝试去做,对吧?

马克·苏尔曼

我们作为个人与邻居一起这样做,我们在城市层面通过,你知道,城市规划来做到这一点。而且,我认为,我们需要开始考虑共同解决这个问题,并寻找一些模型,比如我们如何在其中生活并塑造它,以及我们如何集体找到一些模型来塑造它,对吧?它不仅仅是洋葱或层,层,洋葱,我们谈论的任何东西。它是所有洋葱的连接。而且,你知道,我们如何,我们如何玩弄它?

斯特凡诺·马富利

我喜欢你提到城市,因为我,那有点是我的背景,而且我认为 Amy,你也和城市有关,而且,城市和,和社交,一般的社会规范,社交聚会和社会科学。它们教会我们与不完美共存,对吧?我们必须接受这样一个事实,即你必须在某个地方修理坑洼,但是,你知道,你永远不会让一切都正常运转,或者一切都与零一类型的方法完美对齐。

马克·苏尔曼

是的,我认为如果你想读一本关于如何思考和与 AI 一起进化的好书,请阅读 Jane Jacobs 的书。

斯特凡诺·马富利

好的。是的。我把它列入我的清单。那么,结束语。我认为我们只有三分钟了。你,你对创建这个评论和拥有这种能够工作、服务、为公众、以积极的方式为社会服务的 AI 有什么希望寄语,Chris?

克里斯·奥尔本

是的,我认为可能考虑到这个小组讨论的主题,我认为,你知道,我可能会倡导的最大的一件事是,AI 和 ML 是一个大帐篷,对吧?当然,有,你知道,那些人,他们每天都在坐下来制作模型。我会把自己也包括在内。但还有其他人,你知道,比如那些,那些正在从生成模型中创作艺术的人,或者那些正在研究我们人民周围的立法的人,或者那些正在研究,你知道,比如它如何应用于他们特定的林业领域或类似领域的人。而且因为它太大了,我不会认为它就像,这是计算机科学系的东西,我们只是稍微戳一下,然后批评一下。它实际上就像一个广泛的社会变革,你知道,就像技术始于计算机科学系,现在,它已经扩展到如此多不同的领域,以至于理解一切不再是计算机科学系的领域。这是所有不同的,你知道,学术学科领域应该关注的事情,并找到他们可以贡献的方式,并找到他们可以找到人们没有想到的观点的方式,并进行更广泛的讨论。因为你永远无法仅从一个学科严格地理解 ML 和 AI 是什么

斯特凡诺·马富利

Mark。

马克·苏尔曼

是的,我的意思是,我认为,同样的事情是,我们需要从所有这些角度来看待它,你知道,作为一个整体、全面发展的文艺复兴式个人,我不知道哪个词更合适,作为一种愿望,这真的将越来越成为将这种理念带入这个领域的一件重要事情,而且我认为,从某种程度上来说,这个领域也适用于社会。所以我认为,关注,关注这一点,然后,为了把它与学术部分联系起来,真正关注我们如何发展,我们如何以一种不局限于学科的方式相互教学和自我教学。我的意思是,我认为学术界就是这样,在我们被学科束缚,并被激励待在孤岛中的这段旅程中,它是我们自己最大的敌人。所以,我认为,如果我们能够相互尊重,尊重彼此的知识,但是,然后打破这些模式,并努力在我们是谁以及我们如何教学方面更加全面,我们可以在这方面做得更好。

斯特凡诺·马富利

谢谢。Ibrahim,你想对此补充评论吗?

易卜拉欣·哈达德

当然。所以我认为从我的角度来看,鉴于我的大部分工作是与技术项目相关的,我认为我结束这次讨论的一种方式是鼓励所有收听这次小组讨论的人,如果他们正在从事 AI 和数据方面的工作,请考虑开源他们的工作,并在开发解决任何行业和他们试图解决的任何问题的解决方案时,提高透明度。

斯特凡诺·马富利

谢谢。Amy,你呢?

艾米·海涅克

是的,我认为,这有点绕回来了,我们,我们正处于这个令人难以置信的创新和探索时代。我们真的不太明白我们正在构建的这个东西是什么。所以我认为你提出的其中一些问题,我很高兴你正在举办这个系列节目,让人们尝试打包,你知道,比如弄清楚我们如何与它抗衡,而且,你知道,围绕如何减少危害和困难,显然有一些非常紧迫的问题。但我认为,你知道,人们正在构建的工具,尤其是,正在使人们更容易进入这个领域并参与其中,并带来一些不同的观点,以试图理解我们拥有的东西是什么,以及这些工具可以为我们做什么。而且,你知道,接下来,你知道,接下来的几十年会是什么样子,因为这些东西会逐渐展开,我们会看到后果。

斯特凡诺·马富利

太好了。好的,非常感谢。今天的对话非常精彩。我可以再讲一个小时,但我想考虑到你们的时间,以及听众的时间。所以,这将结束我们的小组讨论系列。我想,嗯,我们肯定会采取下一步行动,我们称之为 Fathom III,这是一份报告,我们将总结我们从播客和这四次小组讨论中学到的内容。但我也感觉到,尽管我们称这个系列为“深度探讨”,但我们还没有深入到足够深的程度,或者还有很多东西需要探索。我已经开始考虑我们在 2023 年接下来要做什么。所以,请大家继续关注,我们将更多地谈论 AI,我们将更多地了解这些新技术正在为世界构建的挑战和机遇。谢谢大家。

马克·苏尔曼

谢谢你,也感谢 OSI 举办这次活动。

斯特凡诺·马富利

哦,不客气。