探索人工智能的商业面

10月11日深度探讨:人工智能商业专题小组的文字记录

斯特凡诺·马富利

那么,正式欢迎大家。好的,我们开始了。感谢各位,欢迎来到“深度探讨人工智能”。这是由开源促进会举办的系列活动,最初是一个播客系列。首先,探讨人工智能如何从开发者到企业,再到我们所有人,影响开源软件。今天,我们开始第二阶段的探索,通过一个专题小组,从企业角度关注人工智能的挑战和机遇。接下来还会有三场专题小组讨论。一场在星期四,13号,然后是18号和20号。专题小组的目标是更好地理解人工智能与我所说的经典软件,特别是开源软件之间的相似之处和不同之处。我是斯特凡诺·马富利,开源促进会的执行董事。

斯特凡诺·马富利

今天,和我一起参加的有——顺序随机——大卫·坎特。他是 MLCommons 的创始人兼执行董事,MLCommons 是一个开放工程组织,致力于让每个人都能更好地使用机器学习。MLCommons 的成员基本上是人工智能领域的名人录,从谷歌到百度,再到硬件制造商,如 Super Mink、Micro、戴尔斯。其中也有初创公司,赞助商和成员名单令人印象深刻。大卫还共同领导 MLPerf 的开发,MLPerf 是一套行业标准套件,用于衡量各种规模的机器学习性能。他在人工智能和开发方面经验丰富。MLCommons 还维护着列表,我的意思是,维护着两个大型开放语音领域数据集。欢迎。谢谢你,大卫,抽出时间。

大卫·坎特

非常感谢您给我这个机会来到这里,并做了精彩的介绍。大家应该知道,他出色地完成了工作,将可能过长的介绍压缩了。非常出色。非常感谢。谢谢。

斯特凡诺·马富利

斯特拉。斯特拉·比德曼是下一位。她是一位领先的自然语言处理研究员和开源人工智能倡导者。她运营着 ElutherAI,这是我最喜欢的草根研究小组之一。她最出名的是率先开发了开源大型语言模型,作为以专有方式发布的模型的替代方案。她还致力于数据集的研究,如 Pile、类似的 Lara Aesthetic captions,以及开发用于从文本生成图像的 v key gun clip 方法。她也是大型科学研究研讨会的成员,在那里她致力于开发开放的多任务和多语言语言模型,并共同领导评估工作组。谢谢你,斯特拉,来到这里。

阿斯特·努梅林·卡尔伯格

很荣幸。

斯特凡诺·马富利

接下来是阿斯特·努梅林·卡尔伯格,他是欧洲开放论坛的执行董事,欧洲开放论坛是一个位于布鲁塞尔的独立非营利智库。阿斯特负责该组织的总体愿景活动和政策制定。他在开放或欧洲政策制定、沟通和网络建设方面拥有丰富的经验,并领导关于欧洲数字挑战以及开放技术在充分发挥其潜力方面的作用的对话。谢谢你,阿斯特,来到这里。

阿斯特·努梅林·卡尔伯格

或者正如你所说,至少是一些,也许是一些对话。有很多对话正在进行中。

斯特凡诺·马富利

哦,事实上,有很多正在进行,非常多。萨尔·基米奇,谢谢你。她是一位工程师,热衷于帮助同行、道德行为者和数字爱好者来填补开源供应、开源软件供应链中的裂缝。他们主要与开放 Web 应用程序安全项目和开源安全基金会合作,构建解决安全问题的系统性方案。他们还领导美国联邦网络安全流动性动员计划中关于网络安全奖励和激励机制的工作。谢谢你,萨尔。

萨尔·基米奇

非常感谢。我也是一名受过训练的机器学习工程师。我主要从事 Kubernetes 的扩展,以前曾在超级计算机上进行实时脑图像处理。所以我很高兴今天能进行这次聊天。谢谢大家。

斯特凡诺·马富利

太棒了。最后一位是阿莱克·塔科夫斯基。他是 Open Future 的战略总监,Open Future 是另一个欧洲智库,致力于开发开放互联网的新方法,以最大限度地提高共享数据、知识和文化的社会效益。他在公共利益、倡导、运动、建设以及社会、文化和数字技术交叉领域的研究方面拥有丰富的经验。他还是一名受过训练的社会学家,并拥有波兰科学院社会学博士学位。他曾担任波兰总理的战略顾问,以及其他与该领域非常相关的经验。谢谢你

阿莱克·塔科夫斯基

要知道,我在知识共享委员会任职,我认为这非常相关。

斯特凡诺·马富利

非常相关,非常相关,超级相关,<笑声>,超级相关。所以今天我想和大家讨论三个要点。一是人工智能与我们之前见过的其他技术的不同之处或相似之处。二是我们可以从开源中吸取哪些教训,以促进合作并加速人工智能的进步。三是你认为企业应该承担哪些责任,以保护社会免受人工智能的滥用或有害人工智能的侵害。那么,让我们从第一个话题问题开始,提给各位。你们可以选一个人来回答。我经常听到的一种观点是,人工智能与我们之前见过的任何其他技术都有些不同,因此,它在伦理和负责任的使用方面提出了非常独特的问题。但是,你知道,纵观历史,我们一直看到技术出现,它们既有巨大的前景,也有潜在的危险,人们一直在争论是否应该将这些技术交给公众,是否会太危险。从枪支到社交媒体,再到基因工程。我们已经看到很多技术,公众或,你知道,企业希望保持完全控制。你们的看法是什么?人工智能与其他技术和竞争行业有何不同?也许大卫?

大卫·坎特

我们应该回到原始技术和神话,对吧?如果我们想想火,对吧?你知道,在希腊神话中,对吧?泰坦神普罗米修斯,我相信他把火带给了人类,但他不应该这样做,结果被锁在岩石上,下场非常悲惨。所以这不仅仅是,你知道,现代技术,对吧?我认为这是一种实际上可以追溯到几千年前的修辞手法。

斯特凡诺·马富利

的确如此。

大卫·坎特

或者你甚至可以说亚当和夏娃,你知道,对于那些信奉基督教的人来说。

斯特凡诺·马富利

苹果。

大卫·坎特

亚伯拉罕传统。但是,是的。

斯特凡诺·马富利

所以,是的。那么人工智能和火呢?

大卫·坎特

是的,我,还有其他人想谈谈这个吗?我,我很乐意谈,但我想——

萨尔·基米奇

我可以就这个比喻说几句吗?因为我认为,必须考虑到,火只有在无法控制时才是危险的。在这种情况下,讨论中,我,它是,这里有一个背景,那就是失控的算法,这个问题总是被很多人提起。但是,当我们谈论人工智能以及我们需要看待它的方式时,我认为最重要的事情之一是,我们是否在引发野火?所以这里的问题是,很多时候,我们真正处于我们对人工智能作为一个行业的成熟度和理解的这个阶段,是真正理解计算成本,以及如何在全球范围内高效地进行大规模计算。我认为,对我来说,这将是控制火,让我们人类拥有它,并且还能通过这些精美的机器学习关于世界的新事物。

斯特凡诺·马富利

那么你认为有区别吗?所以你认为这是全新的,还是我们以前见过?

阿斯特·努梅林·卡尔伯格

嗯,也许我可以补充一点,当然,在这里,退一步说,因为它有时比说一些关于人工智能的具体内容并试图预测未来更令人安心。但这很有趣,就像你在介绍中提到的那样,我们从政策的角度来看,在某种政治讨论中,我们听到了非常,这有点像是对一项新技术的相同反应。我们可以追溯到火,也可以追溯到加密技术。但我们也可以看看其他非人工智能的领域。也有一些问题,比如,关于开源或增加围绕芯片设计的知识的可用性,这被认为是政府非常重视的战略性事物。而且,我们在其他技术领域看到了很多类似之处,特别是我通过开源的角度来看待这个问题。当然,它不仅带来了大量的访问权限,而且,它也为开发本身带来了很多速度。我认为这是开源人工智能政策讨论中真正让我印象深刻的两个要素。

斯特拉·比德曼

我认为。所以我要,我要反对似乎是主流的观点。我不认为人工智能特别不同或特别特殊。我认为它有,我认为政策和法律专家对人工智能的工作方式理解得不够透彻,而且,它通常不符合现有法律法规的模式。我相信我们很快会谈到这一点,当我们谈到,你知道,拥有开源人工智能意味着什么?但在哲学层面上,我不认为它很特别。我认为,你知道,通常当出现新型技术时,无论是人工智能、互联网还是其他什么,都需要调整法律和社会框架,以便对技术及其监管方式有更细致和包容的看法。

斯特拉·比德曼

但我不认为人工智能有什么根本上的特殊之处。我看到人们,你知道,我一直看到 Twitter 上的人们在说,谈论开放互联网上开源人工智能的重要性,很多人回应我说,好吧,你不会想把建造核武器的计划给每个人吧。我认为,非常重要的是要反驳,这不是同一个规模。这不是任何人所说的要做的事情。我认为,有一种趋势是假设最新和最伟大的技术一定是,你知道,世界末日般的规模,危险的。而且我不认为,你知道,你知道,如果 OpenAI 在他们制造出 GPT-3 模型后立即开源了它,例如,我不认为那会,我不认为这与,你知道,给世界上每个人自己的个人核武器是同一回事——

斯特拉·比德曼

政策制定者使用那样的语言。学者们也使用那样的语言。但我认为这真的很危险,而且不负责任,说实话。

大卫·坎特

我想说,我的观点实际上,你知道,与斯特拉的观点非常接近。就像我认为在很多方面,你知道,人工智能与之前的技术并没有那么大的不同。我认为在某些重要方面,它确实有所不同,有一些,一些特性,对吧?比如,我认为特别要指出的一点是,人工智能的可解释性,机器学习和神经网络的可解释性,对我来说,这有点像是对神经网络目前在某种程度上难以理解这一事实的一种反应。而且,你知道,我年纪还不够大,无法理解,鉴于当时的物理学理解水平,蒸汽动力是否难以理解。但是,你知道,我有点想,让我们去看看这项技术,找出它,你知道,在哪些方面是根本不同的。我认为可能存在,不是根本上的,但我认为机器学习的一些二阶特征有点不同,这可能需要稍微不同的工具来思考。

大卫·坎特

但我认为,从法律角度来看,一个首要的、最重要的区别是,特别是关于开源,我们集体建立了很多关于开源的直觉,这些直觉主要集中在代码上。所以今天最重要的事情是,你知道,这不是大卫·坎特的原创想法,对吧?你知道,Andrej Karpathy,你知道,有点像说,听着,在机器学习的背景下,数据本质上是新的代码,对吧?所以这意味着,突然之间,我们现在有了一种制度,在这种制度下,数据是,你知道,以前没有被仔细审查过的东西,也没有试图理解许可和不同的组合等等。所以现在这是我们需要做的事情。

大卫·坎特

然后,数据与代码一起成为第一阶段,然后是数据与代码的交互,以及所有不同的参与方。所以我认为这暴露了很多复杂性,我认为这就是阿斯特你所说的,对吧?有一些我们尚未触及的政策领域。但是,是的,在我看来,人工智能在顶层并没有那么根本的不同。我认为也像任何新技术一样,存在很多困惑。比如,我有一次经历是去参加一个会议,很多人都在谈论 AGI 和——

斯特凡诺·马富利

AGI 是什么意思?

大卫·坎特

通用人工智能。这就是这个想法的某种体现。我,所以问题是这样的。我其实不太确定它是什么意思。就像我给斯特拉发了邮件,我们都在芝加哥大学学数学,那里的数学只有一个流派,那就是理论数学。所以你从任何事物非常清晰、明确的定义开始。我发现的挑战之一是,给 AGI 下定义有点像,你知道,在海洋里抓住一块涂满油脂的西瓜,它就是,它就是不断地滑走,但这没关系,对吧?就像,它在某种程度上反映了一些社会恐惧,对吧?我的工作会被取代吗?我认为这些都是需要考虑的有趣的事情。但是,就像每次,我,我认为这里需要大量的教育和理解,因为我认为,当许多人提出这些担忧时,是因为他们对它并不十分熟悉。

大卫·坎特

它有点像任何技术,一开始都会像神秘的巫术,直到某一天变得平淡无奇。就像飞行就是一个很好的例子。就像,我不认识任何人乘坐商业航班时会说,我需要研究我乘坐的是什么飞机,以确定我是否会死,因为它会坠毁。在 1910 年代,这可能是合理的事情。但是,你知道,今天,飞行就像一种令人惊叹的、神奇而美好的事物,对几乎每个人来说都只是背景。我希望有一天人工智能也能达到那种程度。

斯特拉·比德曼

我认为这实际上是一个非常有趣的类比,因为飞行异常危险。

大卫·坎特

嗯哼。

斯特拉·比德曼

如今没有人死于飞机事故。就像,飞机坠毁中死亡的几率异常小。可以说,技术领域最伟大的安全成就就是开发出安全的商业航空飞行。完全停止。但是我们实现这一目标的方式基本上是世界上大多数政府聚集在一起,告诉绝大多数人他们不允许制造飞机,并创建一个非常小的垄断。你知道,人们会想到,你知道,世界上只有少数几家公司生产基本上我们现在谈论的所有飞机,商业飞机。大约有六七家公司生产基本上现有的每一架商业客机。无论你乘坐美国航空、英国航空还是阿联酋航空或中国航空,都没有关系。只有极少数公司生产所有这些飞机,而且他们内部和外部都有政府极其严格的关于质量控制和制造流程以及所有这些方面的法规。最终,这就是为什么我们拥有这些极其复杂的系统,可以将成千上万、数十万人每天送上天空而不会杀死他们。

阿莱克·塔科夫斯基

如果我可以再补充一个类比。那就是住房。有一个关于设计的播客《99% Invisible》的精彩节目,讲述了房屋在很长一段时间内没有消防安全系统,基本上是非常危险的技术,每个人都必须住在里面。我们系统的状态就像一个篮子,你可以尝试从顶楼放下婴儿,希望至少婴儿能活下来,对吧?然后发生了一个重大突破,这与技术、标准和安全规范都有关。我,我总是喜欢那个。我也喜欢斯特拉,你关于 GPT-3 的例子,我一直认为他们说我们有这个系统,但我们负责任的做法是不发布它,这是一个非常有趣的时刻。

阿莱克·塔科夫斯基

当然,我喜欢我们正在谈论技术和公众对技术的讨论。我认为这是非常不同的两件事,我对后者更专业。所以我不会评论技术,但是,但对我来说,GPT-3 的举动非常具有象征意义,并且在政策制定者之间的政策辩论以及行业辩论中反复出现,基本上是像负责任和道德这样的事情。我并不是说这些以前没有在技术方面讨论过。当然有,但是如果我们考虑像“先发布再完善”的传统模式,对于许多网络技术,也许不是技术而是产品,对吧?或者商业模式,我认为有些新的东西,对吧?我们可以讨论例如,关于安全人工智能的政策提案是好还是被误判了。但是我认为,如果我们看看政策辩论,你会听到一些东西,也许我们可以回到它,对我来说,这在新的铁路许可证中变得非常实际可见,铁路许可证突然说,让我们采用开源代码库,并在其上附加一个负责任的模块。对吧?对我来说,这感觉非常有趣。我想我们会讨论它。

大卫·坎特

你是否认为,我们构建了这个东西,它太强大了,以至于出于道德原因我们不打算发布它,这种说法。我的意思是,你认为,对我来说,我有点认为这部分是营销,说实话。

阿莱克·塔科夫斯基

我非常同意,但我认为这仍然引发了辩论。

斯特凡诺·马富利

就是这样。是的。我的印象也是如此。它奠定了“哦,我的天哪”的基础,或者通过强大组织声明这一点,吓坏了更多人。

阿莱克·塔科夫斯基

而且,大约两周前,我又在 Twitter 上看到有人说,Stable Diffusion 是鲁莽的,而 OpenAI 是负责任的。

斯特凡诺·马富利

嗯哼。

阿莱克·塔科夫斯基

我认为这在辩论方面非常有趣。

斯特凡诺·马富利

事实上,这非常有趣。所以如果我可以总结一下,我,我认为我从你们那里听到的是,你们中的一位提到了人工智能发展的速度,这在某种程度上是一个区分因素,但不是很重要。你强调的最重要的事情,大卫,是数据的重要性,以及数据在某种程度上发生的变化。它的重要性和可解释性或其他技术问题,在研究人员社区内部仍然不清楚。或者至少,你知道,它仍然有很多跳跃需要经历才能发展。但总的来说,基本上你们都同意,听起来对我来说,这没什么特别的。

萨尔·基米奇

我不确定我是否同意,我真的希望我们在这里澄清一下,因为到目前为止我听到的讨论,仍然非常像是大规模的机器学习。当我们着眼于构建真正的通用人工智能时,绝对是不同的,对吧?在这种情况下,它非常不同,因为我不再是从收集和整理数据集,到能够拥有一台非常高效地做出已知结果的机器。我现在做的是让机器有时自己选择探索该数据集,然后继续构建数据集。对我来说,我们没有任何现有的政策,我们不能逐个案例地这样做。如果这将进行政策制定,它必须是类别性的。绝对地,我现在不认为我们有任何措施来识别,对于由人工智能代理产生的数据集或算法的负面次要影响,意图属于谁。

萨尔·基米奇

目前仅在美国,如果这是由开发人员完成的,那么意图将归咎于开发人员。如果是使用生成代码的开发人员构建的,那么这是否归咎于该开发人员,或者该政策的百分比可以帮助我们解决这个问题。我认为我们需要区分目前开源领域的伦理和人工智能领域的伦理,因为它们非常不同。我们在开源领域进行伦理讨论的前提完全是围绕知识产权。如果我们实际上在这里讨论人工智能,而不仅仅是大规模机器学习,那么人工智能实际上更多的是围绕意图政策的讨论。所以这就是我真正想理解的。我们是否能够将这两个讨论分开?因为我认为它们是两种非常不同的伦理。

斯特拉·比德曼

你能否举几个例子,说明在这种行话中什么是人工智能,比如,比如,一些想到的例子是,像 OpenAI 的 GPT-3,有人提到了 Stable Diffusion,你还有像 Alpha Zero 这样的强化学习算法。这些中的哪些,哪些类别分别属于哪些?

萨尔·基米奇

所以我认为,对于这些斯特拉,如果我们正在产生一些非常根本上以数据集为先的东西,所有这些模型都基于数据集运行,对吧?这就是我们获取堆栈的来源。如果它是我们从中学习的数据集优先,我认为你正在使用的情境化是好的。我认为我们能够从中提取的这些堆栈很有意义,但这与我构建的一些东西非常不同,在那些东西中,我只是告诉计算机,这是一个包含实时传感器的大型全球数据集。我希望你然后进入该状态空间,探索它,并自己决定你想要如何进行特征表示。我认为,作为开发人员,真正感受到的方式是,这些特征的意图和产生,我甚至并不总是告诉它最初应该围绕什么进行优化,这感觉与开发确定性管道不同。

阿斯特·努梅林·卡尔伯格

我可以,这又变成了一个元评论,但请耐心听我说。当然,听你们这些专家谈论这些非常有趣,但从我的角度来看,我邀请你们来这里,阿列克,我们都在布鲁塞尔领域工作很多。关于这个通用领域,有一个有趣的问题,一方面我提出了技术发展速度的观点,但另一方面,实际上对系统如何工作以及对社会的潜在影响有深刻理解的人数有限。与此同时,有一种本能或反应,我们需要监管这个领域。然后在我的脑海中产生了这个问题,就像,那么谁来承担教育和学习以及教学或解释的责任。如果只有极少数人实际上可以,比如说,带来这种教育。因为我认为这与现在非常不同,不是吗?就像与火、与蒸汽机相比。少数人的想法能够非常广泛地对社会产生影响的速度,比如上市时间可以说要快得多,而政策制定者并不总是对这种速度感到非常舒适。那么,我们如何调和这个矛盾,例如,像你们两位专家在这里,责任落在谁身上?

斯特拉·比德曼

我认为这是一个很好的观点,但我不认为这一定是人工智能的核心。它更像是大多数现代先进人工智能的开发方式的核心,特别是它们是由谁开发的。绝大多数,你知道,无论你对文本生成还是文本图像建模,还是玩游戏的强化学习感兴趣。该领域绝大多数研究都由非常大的科技公司和全球范围内极少数的公司控制。而且,你知道,他们拥有大量的资金和资源和影响力,能够首先非常快速地推出这项研究。你知道,目前人工智能领域流行的很多东西大致来说是,如果你有两倍的资金,你就可以以两倍的速度完成问题。

斯特拉·比德曼

它们非常容易并行化。你实际购买 GPU 或购买数据资产的能力是主要模型地图。因此,为了让这一点更个人化,比如我训练了一个名为 GTP New X 的 2000 万参数语言模型,这花了我大约三个月的时间。也就是说,如果我有足够的钱,我本可以在三周而不是三个月内完成。那里的区别仅仅在于我能负担得起多少 GPU。而且,你知道,我们也知道其中一些人工智能,比如 OpenAI 开发的 DALL-E 2,在不到一个月的时间内就被流传开来。这实际上是对资源的陈述,而不是关于人工智能本身的陈述,这是对 OpenAI 实际上有资源去做这件事的陈述。其他人可能需要一年才能完成相同的模型。但是,是的,

斯特凡诺·马富利

是啊,实际上,我认为这是一个非常重要的话题,因为在我看来,这是我们现在讨论的这种人工智能机器学习和传统软件之间最大的区别之一,对吧? 今天的传统软件可以用不到一百美元和一个文本编辑器以及大量的开源软件来开发应用程序。 但是当涉及到人工智能模型时,你知道,我们谈论的是五十万美元甚至更多才能获得数据集。 但是,有一件事发生了,我的意思是,情况并非总是如此。 就像软件开始出现时,机器很贵,硬件很贵,基本软件的可用性几乎不存在。 所以是黑客们聚集在一起,开始普及和分享生产资料,如果你想用这种名称的话。 那么你认为我们需要做些什么才能实现同样的目标,加速并创建开源已经实现的这种基本公共资源集合呢?

萨尔·基米奇

嗯,我的意思是,至少这个答案我认为不那么偏理论层面。 我认为这是我们目前在公司层面正在努力的事情。 因此,联邦政府针对网络安全发布的强制性要求真的很有趣,我们必须放入 SBOM,对吧? 我们必须放入软件物料清单,我们必须获得对所用内容的详细概要。 他们发布这个的意图和想法实际上仅仅围绕云架构。 他们并没有真正考虑我们一直在研究的一些更复杂的架构。 现在,这引出了一个非常基本的问题,即我们现在必须能够在这些 SBOM 中标记数据集,并说明它们的真实出处。 当我们与那些从真正有问题的、中心化的、封闭的数据集中提取数据的大型数据集对话时,即使我们能够进入这些数据集,以澄清这些数据集的出处,他们也只是试图浏览目前公司使用的前六个数据集,看看它们是否有效,看看他们拍摄的图像即使在最初是否可以合法使用。

萨尔·基米奇

他们在每个数据集中都发现了问题。 因此,即使依靠公司模式对我们来说也没有奏效,我们正遇到一些问题,这些问题看起来很像开源,仅仅是因为我们需要的数据规模以及目前为止他们抓取数据的方式。

斯特拉·比德曼

这在机器学习中是一个巨大的文化问题。 从历史上看,机器学习研究人员倾向于认为,如果他们外出收集或重新处理或重新包装数据,那就是他们自己的东西,他们可以随意许可它,并且在此之前没有出处。 并不是要强调,你知道,这是错误的,这根本不是真的。 但这在历史上是绝大多数机器学习研究人员的行为方式。 而现在我们正处于一个非常尴尬的境地,即存在许多被广泛使用的数据,这些数据明确伪造了出处,并且被成千上万甚至更多的研究人员一直使用,正如我所说,这些数据伪造了出处,并且没有真正的能力来阻止这种情况在未来发生,或者说撤销这种情况,比如构建即使是按照现代标准来看也算适中的数据集的正确文档也是一项非常庞大的工作,而且这并不是组织、公司有资源去做或者真正关心去做的事情。

斯特凡诺·马富利

对吧? 我们如何解决这个问题? 有什么想法吗?

斯特拉·比德曼

我们可以让公司在未来这样做在经济上可行,但是,美国政府在实际执行此类惩罚方面的记录基本上是不存在的。 所以我不会对此抱太大希望。

萨尔·基米奇

是的。 但从积极的方面来说,目前在自然语言处理方面做一些最好工作的人就在电话会议中,所以,是的,硬币总有两面,但这确实需要理解,我认为,我认为也许需要提高教育水平的是,你知道,是的,我们可以在学校里教授它,但是现在需要意识到这一点的人可能是大型公司的法律实体,因为这是一场我们都意识到可能即将到来的大规模诉讼。 如果你正在使用两到三个这样的数据集,其中几家公司正在使用的数据集的出处已知是无效的。 因此,他们将不得不重新配置资源,而这,这就是变得有趣的地方。

萨尔·基米奇

这就是开源再次发挥作用的地方,因为为了有效地重新配置数据集和计算资源,共享计算和结果,并将这些结果以特征工程的方式有效存储,以便人们可以从中查询并提取他们需要的内容,确实是有意义的。 但这样我们就不会存储不必要的数据,如果我们不需要的话。 这又是一个自身的问题。 我认为对这个问题有计算方面的答案,但并非所有人都同意我对应该在数据集中保留什么内容的看法。 所以是的,有很多,很多工作要做。

斯特拉·比德曼

我觉得我必须在此时提出一点,那就是我曾经是创建目前被广泛使用的一个最大的数据集来训练这些模型的人之一,其中大部分数据是合规的,但有些不是。 我们当时试图整理大约 1.5 TB 的文本。 我们基本上采用了这样的标准,即如果某些东西已经在机器学习中被广泛使用,那么就可以使用,因为我们是一群人在一个 Discord 频道中埋头苦干,试图训练我们自己的人工智能。 显然,人们不会根据我们的选择来改变他们的决策,我们也可以接受这样做,你知道,如果已经被拥有更多资源和公司的其他人广泛使用,那也没关系。 但是任何我们要引入的新内容都需要,需要真正拥有许可证。 当然,我们发布的描述该数据集的论文现在是我被引用最多的论文,并且在世界范围内被广泛使用。 所以我肯定对此感到有点难过。

大卫·坎特

我的意思是,我想说的一件事,而且我花了很多时间处理许可证和数据集,因为 MLPerf 的缘故。 在我们构建的两个数据集中,我们非常特别地确保它们具有与预期用途兼容的许可证。 因此,回顾一下,我们语音数据集的预期用途,一个是关键词检测。 一个是用于完整的自动语音识别。 我们希望支持商业和研究应用。 因此,我们只使用了 CC BY 或更友好的许可数据,基本上是这样。 我认为实际上,在其中一篇论文中,我们可能使用了 CC BY 相同方式共享,但这本身就存在潜在的商业问题。 我发现令人惊讶的一件事,而且你知道,我认为很多人都会迎头撞上的是,你知道,当你进行研究时,你可以某种程度上为所欲为。

大卫·坎特

例如,ImageNet 是一个超级经典的机器学习数据集。 关于它的许可,委婉地说,是一个泥潭。 我们的一些基准测试是围绕 ImageNet 构建的。 我很想在短期内解决这个问题,但是,其中一个挑战是,历史上每个人都在使用它。 另一个复杂的事情是,对于商业用途,没有任何统一的,任何真正的统一协议。 对吧? 因此,在某种程度上,这些方面之一,首先,你知道,对于在座的所有技术人员来说,对吧? 法律系统的一个奇怪特征是,你知道,很多事情在法院完全诉讼之前都不会被认为是最终确定的。 这就像,不,你知道,如果你作为一个程序员来考虑这个问题,你会觉得,在法院诉讼应该是异常处理过程。

大卫·坎特

而不是像内部循环那样。 这有点奇怪,但是,你知道,事实就是如此。 然后另一件事是,即使是那些看起来非常明确的事情,比如,哦,商业用途被允许,一些法律部门也会更加保守,他们可能会说,例如,嘿,你有一个允许任何用途的许可证。 现在,在 David 的定义中,任何用途都包括在该数据上训练机器学习模型。 但是有些人可能会说,而且作为一项政策,这可能是一件好事。 我不想就政策方面发表意见,但你可以理解为,该许可证是在人们知道人工智能之前授予的,所以当他们说“所有”时,他们并没有真正知道“所有”是什么。 对吧。 而且,在许可和确保事物可以变得清晰方面存在很多问题。 我认为这是有很多机会可以降低机器学习领域摩擦的领域之一。

斯特凡诺·马富利

是的,当然。 是的。 AleK,我只是想听听你的看法,因为你,你研究这个领域很多。

阿莱克·塔科夫斯基

是的。 哦,我一直在研究一个非常具体的案例,因为从内容许可的角度来看,尤其是创意共享许可,这很有趣,那就是用于面部识别训练数据集的用户照片案例。 这可以追溯到十年前。 对我来说,这是一个引人入胜的案例,因为在 2014 年,当 YFCC100M 数据集建立时,其中包含 1 亿张主要来自 Flicker 的图像,也许还有媒体共享,它似乎真的占了大约四分之一的开放许可照片。 这真的非常庞大。 我知道今天这些数字并不那么庞大,数据集也更大,顺便说一句,我不认为其中有很多开放许可内容。 但是,所以这是一个很大的案例,基本上探索了这些问题,Adam Harvey 完成了伟大的工作。

阿莱克·塔科夫斯基

他是一位柏林的美籍活动家研究员和艺术家,例如,他创建了 MegaFace,一个搜索引擎,你可以在其中搜索你是否在数据集中,这目前似乎正在成为一个,我觉得非常有趣的工具,Andy Baio 也在网上运行它。 显然还有其他人在做这件事,这让我有点希望。 而且,对不起,我有点跑题了,但是当你问有什么解决方案时,也许这些小步骤,当然,它们不能解决所有问题。 但是,如果我看到在几年内,某些东西从基本上是一个艺术项目,你知道,一个批判性的艺术项目,转变为开始感觉像是某种标准的东西,这是一个很好的进步。 但基本上这些案例表明,到处都是许可证合规性,正如你所说,泥潭。

阿莱克·塔科夫斯基

也许这是描述它的最简单方法,这真的令人困惑。 你有真正的大型研究项目,通常有公司参与这项研究,他们对如何理解许可证采取了一种不那么公平的态度。 诚然,会有人立即告诉你,最终,甚至不清楚他们为什么要使用开放许可内容,因为很可能尤其是在美国,这一切都是合理使用。 实际上,特别是当你的数据集实际上不是照片时,例如,我们正在研究的案例,基本上是一个 URL 列表。 你知道,所以从纯粹的版权角度来看,可能不存在问题。 我认为这不仅仅是一个纯粹的版权问题,顺便说一句,我希望我们可以将我们在上一次会议中讨论的一些更广泛的问题应用于此,来框定这个问题,而不仅仅是我是否符合版权法,我认为这太狭隘了。 我认为这是一种方法。 我希望有一个数据集,而且我认为这种情况正在慢慢发生,它将承认过去这并非最先进的技术,并定义一个真正高的标准,并根据高标准来管理该数据集。 因为我认为这需要自我监管。 可能会有关于数据集的政策辩论,比如立法。 我认为不应该那样发展。 所以,是的,这是我的看法。

大卫·坎特

实际上,我可以插入一个更尖锐的例子,它将有趣的人工智能问题以及许可难题联系在一起吗? 我认为难题的复数应该是 conundra,顺便说一句。 Conundrum 听起来也可以,但 conundra 对我来说听起来更酷。 所以我的意思是,这里每个人可能都听说过 Copilot,对吧,由 Github 开发,它是通过摄取大量代码完成的。 现在我会说,并且 Stella 和 Sal,你们应该,你知道,如果我错了请纠正我,但人们并没有完全理解深度神经网络在多大程度上既执行记忆功能,它们可以在某些情况下发出它们接收到的一些输入。

大卫·坎特

而且还有一种变革性方面,你更常见的是看到变革性表达,对吧? 这相对罕见,但可能会发生,是的。 而且我相信有些情况下,你知道,你有一些东西只是发出记忆的输入。 那么有趣的问题是,假设你有一个 GPL 输入,并且你有可能发出该输入的副本,对吧? 那么这如何运作呢? 就像我的直觉是,嗯,如果你发出的是之前是 GPL 代码的东西,那么它在输出上绝对是 GPL,对吧?

斯特凡诺·马富利

这是一个巨大的法律对话。 我认为,从我所理解的来看,陪审团仍在评议。 而且,肯定有很多法律方面的思考正在进行,我们在未来几天会请来一群法律专家。 这绝对是他们肯定要回答的问题之一。 但这是一个有趣的事情。 我的意思是,如果你从画面中移除代码,然后开始谈论艺术,情况也是一样的,你知道,现在很多艺术家都感到非常困惑,因为他们看到,你知道,制作出来的图形设计等等,看起来就像他们自己制作的一样。 那么,那里发生了什么? 嗯,我们如何处理它?

萨尔·基米奇

我的意思是,它确实,它确实可以归结为这一点。再次强调,我只是将此限制在美国核心先例上,但它确实归结为外观和感觉的变化,这种变化定义了改变的意图。所以你可以把网站从字面上变成,你知道的,像一个电动滑板车网站,用不同的颜色把它变成一个电动自行车网站,这在法律上是充分的,因为在美国,支持这一点的先例的论点我认为是很荒谬的,就是你可以通过做一个像“怪人奥尔·扬科维奇”的翻唱来创作一首全新的歌曲,对吧?通过采用完全相同的风格,完全相同的语调,并在这个案例中几乎完全替换不同的文本片段,对吧?为了产生一个新的可消费对象。如果我们认为它采用了更大的代码片段,那么这就是我们思考这个问题的方式。但我认为它实际上更有趣一点,而且我认为这是我们在 Copilot 中遗漏的一个细微之处,那就是它们确实是短小的片段。因此,至少对我来说,这开始看起来更像是网络上知识产权的最小可行单位是什么?是我写的那一行代码,还是那四行代码?

斯特凡诺·马富利

而且这并不是一个容易的答案。我的意思是,根据我从律师那里听到的,并没有,这没有简单的答案。因为它取决于具体情况,也取决于你的律师在法庭上为该立场辩护的能力。

阿莱克·塔科夫斯基

但我认为有趣的是,它有点,它是一个法律问题,但也不是,因为当你看到它时,它也表明至少目前法律并没有发挥作用。我的意思是,基本上在 Lexica 上你可以找到大量明显受版权保护的米老鼠图像,你知道的,由 Stable Diffusion 在假设的 CC-0 下制作,你知道,这不是许可证,但 CC-0 类型的工具或机制,真是令人震惊。好吗?它没有达到数百万,但数量也相当庞大。这告诉我们什么?对我来说,这是关于执行。我知道律师会有兴趣问,那么我们如何执行它?它可执行吗?我认为当我们进行更广泛的关于商业或社会的对话时,也会出现有趣的问题。它需要被执行吗?斯特拉,你分享了那个搜索引擎。

阿莱克·塔科夫斯基

它是由艺术家 Mat Dryhurst 和 Holly Herndon 完成的,他们说这是一个后版权项目。是的,他们希望强制执行某种形式的对其基本创造力的保护,但他们对重复版权辩论不感兴趣,我觉得这非常有趣。也许这也表明,反过来,当我们审视像开源许可证或开放内容许可证这样构建信息共享平台的工具时,我认为可以从过去 20 年中吸取教训,但也可能是个好时机来问问,我们真的想重复,你知道,完全相同的举动吗?我发现这当然是有点新鲜和令人兴奋的,人们公开分享我们的价值观是相同的。这关乎共享与保护我所珍视的东西之间的某种平衡,但想要以不同的方式去做。

斯特凡诺·马富利

是的。而且只要我们谈论版权,你基本上是在把我拉入这个话题,我们是否,我开始怀疑现在是否是历史上思考其他东西的正确时机,比如放弃版权。特别是当我们考虑开源并想象一些新的东西时,让我更清楚一点。所以如果你回到六十年代、七十年代和八十年代早期,软件开始出现,当时硬件制造商 IBM 有一个有意识的政策决定,将软件与硬件分离,解绑,因为他们担心因创建信托或拥有垄断而被起诉。因此,这纠缠了他们过去常卖的计算机系统的两个部分。

斯特凡诺·马富利

他们做出了一个决定,他们做出了一个呼吁,他们说,好吧,我们将使用版权。直到八十年代,法院才真正表示,是的,好的,相信源代码和二进制代码的版权。所以今天,你知道,我们谈论过,有很多,有很多新事物,有很多新的产物,比如这些创建模型的数据集。我们正在决定似乎每个人都在用版权来思考。但这是正确的思考方式吗?那是正确的框架吗?

大卫·坎特

我实际上可以问一个非常基本的问题吗?关于训练好的模型与未训练的模型,有什么已确定的判例法吗?比如它属于什么法律范畴?

斯特拉·比德曼

你说的未训练的模型,是指像随机初始化的权重吗?通常这些模型的训练方式是,你定义一个架构,然后用从零到一或接近于此的随机数样本填充十亿个数字,然后你训练它,这些数字从随机值变为非随机值,

大卫·坎特

对吧?正是如此。所以你有这种模型架构的概念,对吧?然后稍微扩展一下,对吧?所以有这种你从随机的东西开始,然后你训练它的概念,但在训练中可能有多步。例如,也许使用不同的数据集,对吧?经典的事情是,你知道的,斯特拉,你的工作是关于大型语言模型的,你可能会训练到某个程度,然后下游的人可能会使用潜在的,对吧?我的意思是,那么版权实际上——你知道,也许答案是目前还没有训练好的模型的法律范畴,对吧?因为你可以在某种意义上把它看作代码,在某种意义上把它看作数据。

斯特凡诺·马富利

对,没错。而且它是机器的输出,据我所知,传统上机器的输出是不可版权的,至少在美国是这样。再说一次,我不是律师,但这是他们告诉我的。所以我们,我们,我们有点假设,嗯,让我们贴上一个深深植根于版权的许可证,并假设这是正确的做法,但也许我们需要发明一些新的东西。也许我们有一个机会。你们怎么看?

斯特拉·比德曼

所以美国专利商标局实际上最近授予了一个 AI 生成图像的版权,实际上有两个这样的案例,我认为这非常说明当前的法律标准。在这两个案例中,有人使用了一个 AI,它接收文本作为输入,并生成图像作为输出。一个人提交了一份专利,抱歉,是一份关于他们对 AI 输出图像所有权的版权申请,并且被批准了。

斯特凡诺·马富利

是的,我和我们的一位律师讨论过这个问题,我们可能需要写一篇文章来谈论这个,因为它太令人着迷了。尚不清楚美国专利商标局或美国版权局是否知道该作品实际上是由 AI 生成的。

斯特拉·比德曼

该申请明确声明了我已阅读过该申请,因此这可能没有在他们的决策中得到适当的考虑,或者说是肯定披露了。我想提出的另一个例子是,另一个人提交了基本上相同的申请,但他们希望让 AI 拥有版权。

斯特凡诺·马富利

是的,那,我的意思是,也有关于这方面的评论——这似乎绝对是——在某些情况下,版权局没有接受注册,就是因为这个原因。但是,在不深入法律对话的细节的情况下,因为我们没有律师,我的意思是,Alek 你是律师吗?不,你是社会学家,但我们将在未来更深入地讨论法律细节。但对我来说有趣的是,欧盟委员会曾经创造了新的权利。他们创造了数据挖掘权。他们为数据库结构创造了一项特别权利。所以,你知道,发明一些对 AI 更有用、更具体的,来创建那个为开源和开放文化、开放知识、开放科学提供动力的共享平台,难道是完全不可能的吗?你知道,所有我们拥有的开放性。它们都来自一个黑客行为。比如,让我们思考一下。就像七十年代末八十年代的黑客社区,他们破解了版权,创造了反版权,他们确立了这些概念。他们确立了政策,他们确立了规范,社会契约,最终创造了我们称之为开源的更广泛的开放知识。我们称之为知识共享。我们用许多不同的方式称呼它,但它们都有相同的根源,它们都是在版权之上的黑客行为。我们是否错失了一个机会?

萨尔·基米奇

我的意思是,我认为,我的意思是,我喜欢保持一点希望,也保持一点务实。我认为开源的精神,它的来源是建立起来的。就像你实际上只拥有一代工程师,他们因为他们可用的计算能力,几乎完全致力于静态架构。围绕静态架构的伦理是不要造成伤害。机器学习和人工智能是一项不同的运动,具有非常不同的社会影响。我认为我们应该把这个问题排除在逐个案例考虑什么是对我们社会有益的范围之外?如果你想从根本上看看是否有办法监管它,我们必须首先部署遥测技术。所以现在,我认为真正有帮助的是美国政府的这项大规模约束,即要求每一个包含 AI/ML 的联邦交付成果都能够首先提供清晰的、可机读的,再次强调,2022 年。

萨尔·基米奇

而且我们首次要求我们知道数据是什么,出处是什么,你使用了什么脚本,它们的出处是什么,以及你从中产生最终结果的实际日期,从这个可交付成果中。所以你得到了所生产的东西的封装。然后我们有了一个非常非常好的分类法,我们可以看到。是否有一些我们不希望披露其数据的特定类型的管道?也许,但这对我来说必须是绝对的,对吧?这不应该是逐个案例的。

斯特拉·比德曼

你以前提到过这个,有什么地方我可以了解关于这个新政策方法的信息吗,Sal?

萨尔·基米奇

是的,真的建议你查看 Datatology。这是一个正在研究这个问题的组织。我会把它放在 Slack 上,因为我们需要更多人参与。

大卫·坎特

我想说的是,我,我实际上,你知道,我们融入 MLPerf 的首要原则之一是,我们希望事物是可重现的,对吧?而且,这可能需要 Sal 概述的许多相同的属性。就像,我认为在很大程度上,这是一个非常好的实践,你知道,能够识别我们是如何预处理数据的,对吧?它来自哪里?仅仅是,你知道,使第三方能够重现事物是信任的关键方面,对吧?

斯特凡诺·马富利

是的。是的。

大卫·坎特

顺便问一下,我们有时间表吗,我们是否需要在你的高层次三个问题之间切换档位,Sale?

斯特凡诺·马富利

不,不,我们绝对——

阿莱克·塔科夫斯基

我认为我们一直在换挡。是的,我们已经进入高速档了。

斯特凡诺·马富利

对吧?我们进入了高速档。我想说。是的,我们,我们还有半个小时,我认为,我们触及了很多话题,但也许我们应该回去更多地思考一下企业和企业在创建这种合作方面面临的挑战和机遇。David,你从你的会员那里听到了什么,也许这是一个对话的起点。他们想要什么?他们希望什么?

大卫·坎特

好的,所以你知道,我应该说清楚,你知道,关于我的组织,你知道,我们的目标是让机器学习变得更好,在某种程度上,这意味着通过 MLPerf 等提高速度,通过其他基准提高质量和准确性,并促进 ML 的采用。就像我有点,你知道,用简写来说,认为,我们的目标是扩大 ML 的蛋糕,并将好处扩展到更多人。我的意思是,对我来说,你知道,有趣的事情之一,我认为我们之前也稍微谈到过,是很多与监管方面和伦理方面的接口,对于我的组织来说不是最重要的。而且,就像,我认为有很多,就像,我们非常专注于工程,对吧?我们想构建东西。

大卫·坎特

因此,对我来说,我认为围绕伦理和责任的一些对话非常棒,在某种程度上,我们可以例如利用这些对话来指导测试。比如,如果我们说,我给你举个假设的例子。假设我们作为一个社会决定,这里就有一个问题,我们不是一个社会,对吧?有很多政府。不一定有共同的价值观。这也是我必须努力解决的问题。但假设我们决定,我们希望机器学习算法对男性和女性同样准确。为了让这个例子更人为化,我将忽略光谱上的其他一切。这实际上是你可以通过一堆测试来实践并帮助衡量的事情,对吧?我认为这非常重要。但是,你知道,我认为技术在其中一些讨论中发挥作用并提供建议非常重要,这样你就不会最终制定出用更委婉的说法来说就是荒谬的政策。

大卫·坎特

但是,你知道,我发现有点挑战的事情之一是,我认为在总体方向上没有统一的意见。我的意思是,举个例子,阿列克,你之前提到过面部识别的数据集。在我看来,在我的成员公司中,我不知道是否对我们是否要生成这样的数据集有任何共识。事实上,我的直觉是说,我不想生成这样的数据集,因为对我来说,它太灰色地带了,无法涵盖。就像,我认为当你看到这种情况时,既有祝福也有诅咒,对吧?与广告搜索等基本上不受监管的东西相比,汽车行业的人们在部署机器学习之前会进行 гораздо 更彻底的检查。

斯特凡诺·马富利

是的。是的。所以你基本上是说,我们总结一下我听到的,在你的社区和你的成员中,对于什么是可接受的行为,什么是关于责任或责任感的约束,存在非常强烈的规范,是吗?

大卫·坎特

实际上我会用不同的方式来表达。我会说,我认为我看待这个问题的方式是,我想专注于我的所有或几乎所有成员都有明确交集的事情上,比如我们的座右铭是“勉强的共识”,这不是说每个人都同意,而是每个人走出房间时,没有人哭泣,对吧?每个人,至少大多数人都是高兴的,少数人可能会抱怨。因此,这部分意味着,在没有这种共识的地方,通常是我认为避开是有道理的领域。而很多类似的监管方面,当然是我认为我们可以增加很多价值的地方,因为我们处理过许多此类问题,并且有大量的理解。但我不认为我的角色是向我的成员发号施令。

斯特凡诺·马富利

是的。阿斯托,我的意思是,现在我们也看到了一些动向,欧洲快速推进的《人工智能法案》也在考虑监管人工智能及其使用和生产方式,阿列克也是。你们对此有什么看法?你们认为欧洲的企业应该期待什么?

阿斯特·努梅林·卡尔伯格

我的意思是,我认为大卫在那里提出的观点很有趣。这是一个问题。那么,这种方法,当然受到了一些人的欢迎,也受到了另一些人的批评,但它是对风险应用进行不同等级划分的方法,这是欧盟在《人工智能法案》中采取的方法。在某些方面,这难道不是,你知道,将这与大卫所说的联系起来,它至少在欧洲背景下,将一些责任从像大卫这样的人身上转移开,不是去发号施令,而是实际上,在这些高风险应用中,监管机构会介入。

萨尔·基米奇

是的。所以我们已经在网络安全方面吸取了教训,这就是为什么我希望你们将这些政策决策与我们为网络安全部署的遥测技术联系起来,对吧?这完全是相同的模型。你有已知和未知的风险,你可以定义这些风险。确保有一个可抓取的数据库可用,让你知道是否有什么事情已经变成,例如,我未来担心的事情之一是,并非所有你将从中提取数据的数据库都是静态数据库,对吧?数据本身可能会随着时间推移而变化和漂移,你需要知道这是否仍然是你可以信任的信号,你需要用它来支持你的算法。是的。当我们进入这个领域时,我认为我们需要稍微不同地思考一下。但我猜这里有两个问题。

萨尔·基米奇

我仍然从根本上认为,这里,这很不幸,因为我想要答案,我们仍然没有回答关于我们是否需要针对人工智能的新政策的问题?另一方面,我想说的是,我认为我们不需要针对静态管道数据库的新许可证。我们只需要将它们明确地与代码中的正确对象联系起来。一旦我们做到了这一点,你就有能力像我们在网络安全监管方面所做的那样,剖析和确定你所面临的风险级别。

大卫·坎特

实际上,我只想指出一点,萨尔提出了一个很棒的观点,我想强调一下,因为这是我个人经历过的事情,那就是数据集确实会随着时间推移而变化。特别是许多图像数据集出于政策原因,对吧?人们有权移除东西,对吧?你可以说,你知道,我买了一栋新房子,我的房子以前在数据库中,我希望把它移除,这似乎是非常合理的事情。好吧,现在你已经更改了数据集。我一直有些担忧的事情之一是,《通用数据保护条例》基本上使几乎每个包含个人数据的数据集都成为有条件的,对吧?

大卫·坎特

因此,每个包含任何可能被认为是个人信息或可以用来推导出个人信息的数据集都不是静态数据集。我再怎么强调这一点也不为过,我认为这里可能具有挑战性的一个方面是,再次,我不是说不应该这样做,但这正是对话有帮助的地方,因为似乎有更多的监管,比如我的直觉告诉我,监管机构会希望能够代表他们的公民和他们的政策目标来施加更多的控制,这将使事情变得更加不稳定。

阿莱克·塔科夫斯基

所以诚然,至少在欧洲,数据集并不像我理解的那样受到监管,对吧?它是系统,特别是已部署的系统,以及围绕系统用户或基本上是组织用户的整个语言。我今天参加了关于《人工智能法案》的圆桌会议,这很有趣,既有企业界人士,也有民间社会人士。有趣的是,他们展示了一个图表,有人绘制了一个关于如果引入《人工智能法案》的合规问题的决策树,即使是数字权利的代表也表示,这听起来不太现实。我认为关键问题是,现实的执行,对吧?那会是什么样的情景?我不是来自工业界,所以显然,当我有问题时,对我来说,有些语言感觉太简单了,只是为了通过让市场参与者的生活更轻松来保护他们,对吧?

阿莱克·塔科夫斯基

例如,有一种非常强烈的说法,你需要帮助中小型企业,这原则上是好的。但是,你知道,我看了看,Clearview AI 大约有 30 名员工。所以如果我们采用这种逻辑,我们只是把他们塞进这个类别,然后结束对话。所以我认为这需要更多的平衡。同样,显然,你可能已经看到了,我认为这是相对的,我知道这个问题一直存在,但关于监管开源通用人工智能的问题我认为只是最近才出现,并且将成为一个重要的对话。

大卫·坎特

对不起,你说的通用人工智能是什么意思?

阿莱克·塔科夫斯基

嗯,有很多定义被抛出来,别让我引用它们,因为大约有三个定义,一个来自 2021 年底的斯洛文尼亚总统任期,一个来自五月份的法国,现在还有一个捷克版本。所以,我可以向你提供详细信息,但是——

大卫·坎特

是,是,是的。

斯特凡诺·马富利

听起来像你之前提到的 AGI。

阿莱克·塔科夫斯基

人口为积极政策留下了很大的空间,对吧?这些政策不仅仅旨在建立护栏,而是真正提出关于“好的,我们有一些价值观,我们有一些伦理”的问题,而且我们对生成技术也有积极的愿景。我认为这非常难做到。我希望看到一种处理数据集的好方法。我认为为了公共利益,公共部门可以发挥作用,我喜欢萨尔你所说的,这正是我希望看到的对生态系统的影响。但据我所知,这种对话并没有在欧洲发生。很多人认为这很好,因为他们有点害怕政府可能会变得强硬。

萨尔·基米奇

嗯,我有点想把话题拉回到航空领域,因为那是创新仍在发生的地方之一,而且我对我在地球上行走的地方非常小心,因为作为一名飞行员,我知道在任何给定的时间,我可以处于三个或四个不同的空域之下。它们是 A 类、B 类和 C 类,A 类。那是你获得所有这些受监管空域的地方。它们就像,那是大型飞机,一切都受到严格控制。C 类,他们不在乎你是否把自己绑在无人机上。只要你下面没有任何东西,这就是这些空域的划定用途,你处于低风险状态,不会对外造成伤害。所以我认为重要的是,这里不要制定会剥夺开发者核心能动性的法规,让他们仍然可以审视和执行从根本上来说是创造性的实践,对吧?那就像建筑师,他们不被允许这样做。我认为,如果我们认真地考虑监管这个问题,再次强调,借鉴我们从网络安全中学到的经验,专注于对全球工作至关重要的任务,然后从那里进行分类,你在关键任务领域学到的经验教训是有用的。但最终,如果有人想在他们自己的电脑上,用他们自己的时间,并支付他们自己的碳成本来运行一些奇怪的东西,我不想监管那个领域。

大卫·坎特

我认为你们两位都说到的事情之一很棒,我想把它提炼出来并明确表达出来,因为这是 ML Commons 中我们强烈感受到的一种价值观,在 MLPerf 中也是如此,那就是,你知道,如果你制定了规则,无论是基准测试的规则还是法律或政策,我认为它们实际上必须是可执行的,这非常重要,对吧?我认为这是在考虑人工智能时要牢记的一件非常好的事情,我认为这实际上是人工智能可能有点不同的一个方面,因为它缺乏可解释性。你知道,例如,在美国,在许多不同的基础上对金融决策(如发放抵押贷款)进行歧视是违法的,这只是一个非常简单的例子,对吧?

大卫·坎特

我认为,对于将大型人工智能模型或机器学习模型,甚至小型模型纳入循环的担忧之一是,如果你实际上无法解释正在发生的事情,那么你可能会无意中违法,对吧?这显然是一种糟糕的情况,而且,你知道,它可能会使监管变得困难——比如,你知道,你如何证明存在偏见,对吧?并且,就像,存在一个关于“谁必须证明不存在偏见”或“是否可以出于善意接受”的问题。而且,我认为在某种程度上,对我来说,欧洲的《人工智能法案》是在说,你知道,我们愿意根据我们认为该应用的重要性来转移举证责任,转移责任。

斯特凡诺·马富利

我们是否正在见证,我的意思是,这些担忧、这些问题是否只与人工智能相当新,并且相对使用初级工具进行部署有关?

斯特拉·比德曼

“初级”这个词在这个意义上有什么作用?为什么用“初级”?

斯特凡诺·马富利

回到火的例子,你知道,我们开始在房子里生火,但我们不知道一氧化碳中毒是一回事,或者我们没有对其他一切进行防火处理,但我们仍然尝试了。而且,你知道,有时我会有这种感觉,我不是来自软件行业,我来自建筑行业,比如建筑物之类的。对于,我记得我第一次开始研究软件是如何部署的,当你做——当你规划一座桥梁并开始建造桥梁时,有很多标准。有很多规范,但软件的控制水平不一样。我认为萨尔用苍蝇的比喻也是类似的,有些相似之处。我感觉我们正在给——有人给了银行这款软件,它可以自动决定,将人类从画面中移除,并决定你是否值得获得抵押贷款,但实际上并没有围绕它建立框架来解释决策,以证明你实际上正在采取正确的步骤,你正在保护那些申请抵押贷款的人,保护社会。这就是我所说的“初级”。

阿斯特·努梅林·卡尔伯格

但我也认为许多政策制定者也有这种直觉。我的意思是,如果你看看布鲁塞尔和许多欧洲成员国正在发生的事情,基本上是从过去 20 年或 30 年的数字监管的观望态度转变过来的。普遍的感觉是,我们不喜欢它把我们带向的方向,我们需要在事情发生之前就开始行动,并承担可能阻碍某些发展的风险。这是我们担心的事情,因为我们从多种角度看待这些法规,其中一个角度是,我们通过它来看待法规将如何影响,例如,开源生态系统,以及个人开源开发者参与协作创新。但现在的观点是,你知道,它正在转向事前方法,广义上讲,尽早行动,这样我们就不会发现自己处于我们发现自己在例如在线隐私方面所处的相同境地。

斯特凡诺·马富利

我不知道这里发生了什么。所以有人加入了,是的,我希望我可以点击这个。

阿斯特·努梅林·卡尔伯格

你好?

大卫·坎特

你好,阿马德。

斯特凡诺·马富利

哦,天哪。好吧,那么我们为什么不回到,嗯,我对阿列克还有一个问题,实际上,因为你说你昨天或今天早上参加了那个会议。但是,当企业看到这种事前监管即将到来时,企业界有什么反应?

阿莱克·塔科夫斯基

嗯。

斯特凡诺·马富利

如果你可以分享的话。

阿莱克·塔科夫斯基

这很有趣,因为它很高屋建瓴,我认为这一点很有趣。基本上,我认为这种观点与企业、跨国公司以及中小型企业或其代表的观点非常不同,对吧? 显然,再次,我的感觉是,我关注欧洲的政策辩论,但我认为在任何地方都是一样的,通常一般来说企业都反对监管,对吧? 这是他们的第一反应。 但我认为公平地说,不仅仅是这样。 我认为很多人批评欧盟委员会采取的方式,当然这很难简化,对吧? 但我认为普遍的感觉是,仅仅关注风险预防可能不是最佳的政策选择。 但是,我现在感觉,这就是我开始遇到问题的地方,我认为基本上所有企业都在试图寻求豁免,对吧?

阿莱克·塔科夫斯基

我认为最好能讨论一下为什么需要这样做,对吧? 例如,即使是关于我们今天讨论的开源,我认为在那次对话中我会很欣赏,我看到了这些文件,我认为这些文件提出了一个合理的观点,即我们需要密切关注现在存在的这些开源方法,对吧? 对于所谓的通用人工智能,我知道 David 你对这个术语有意见。我可以稍微解释一下,也许我应该这样做,而不是开玩笑说它很复杂。 所以基本上,当他们说通用时,这种监管的结构方式是,他们真正感兴趣的是特定高风险案例的应用,对吧? 例如,高风险是面部识别。 他们想象一个系统,它只是一个面部识别系统,由一家公司构建并作为一个系统提供,然后由一个城市部署,对吧?

阿莱克·塔科夫斯基

他们可以想象那里会发生什么。 然后他们突然意识到,这些他们称之为通用的系统,比如大型模型,可以以多种方式使用。 例如,你可以使用它,也许它有军事用途,也许它有安全用途,也许它有一些公共利益用途,我不知道,比如在教育或农业领域。 也许这是一个更容易理解的例子,或者农业,对吧? 这就是他们引入这个术语的地方,他们需要以某种方式处理他们认为基本上可以同时具有正面和负面用途的系统。 但我想表达的重点是,我认为这将,考虑到深入探讨,我认为这将是一场非常重要的对话,以便能够解释这些开源方法的特殊之处,你知道,这些方法值得对责任做出不同的回应。 因为我立刻想到的是,回到你关于这种方法与开源方法相比有什么新内容的问题——我需要承认,来自人工智能研究界,这种冲动是你拥有新的许可证,这些许可证基本上将责任和负责任的使用置于聚光灯下。 因此,我认为关于责任和开源的对话,一方面在许可领域,另一方面,在政策制定领域并行进行,这简直太有趣了。

萨尔·基米奇

好的。 但是,他们,我的意思是这些道德上的错误,就像许可证上的道德声明在我的经验中没有约束力。 所以我给你举一个我现实生活中的例子。 我不能谈论太多来自华盛顿特区的东西,但这一个我可以,因为它是在合同签订之前。 所以他们要求一群咨询公司聚集在一起测试 IMDB 数据集,试图找出什么是最能预测的,至少给出一些他们认为最有趣的参数,之后从开放数据集中选择你继续使用他们安全许可下的真实数据集,对吧? 所以你很清楚这将用于高风险环境。 第一阶段的要求是每个人都使用开放数据集,并公开他们的结果,对吧?

萨尔·基米奇

所以这只是一个 GitHub 页面,发布在那里。 现在,我刚刚创建了一些东西,我在整个 IMDB 中发现的最具预测性的元素是通过平均海报的颜色,你最有可能知道这将是什么类型的电影,戏剧、惊悚片等等。 现在,是的,那些是电影海报,但在那种情况下,在我的许可证中,我需要明确声明,即使不是由我打算交给这个开放 GitHub 存储库的个人使用,也不应该用于人类数据,对吧? 这些是我们一直看到的各种情况,这种负面外部性,从法律上讲就是这样称呼的。 非原始用途的后果。 我认为这些仍然真的没有被充分探索,我认为这种意图真的没有被充分探索。

大卫·坎特

我想呼应 Sal 的观点。 就像我认为许可证的可执行性,即使在开源背景下也不是非常强。 因此,增加更多繁重的工作使其变得非常困难。 而且,我的意思是,我想指出的另一件事是,你知道,我还在芝加哥大学学习了数学和经济学。 所以,你知道,你会看到的一件事是,商业结构和组织,你知道,可能会允许监管套利,对吧? 就像优步早期一样,只是一个非常简单的例子,但是你知道,如果你开始,就像,如果事物完全是内部的,就很难看到它们是如何被使用的,对吧? 所以假设我,是的,我的意思是这个领域有很多挑战。

斯特凡诺·马富利

是的。 是的,我同意。

斯特拉·比德曼

嗯哼。

斯特凡诺·马富利

的确。 的确。 好的。 那么我们差不多到整点了,我想在结束小组讨论时思考一下美好的未来。 一个我们拥有,人工智能系统成熟,我们完全理解,我们拥有所有工具,我们拥有我们需要的所有理解的未来。 那么你认为为了实现这一点会发生什么? 就像完全理解那样。 你认为有什么事情会把我们带到那里?

阿莱克·塔科夫斯基

与你们正在做的事情相比,这实际上可能很简单,正如我所说,就像信息共享领域的人。 顺便说一句,我真的很欣赏这里的 Mike Linksvayer,我真的很喜欢他的文章,这篇文章构建了这次对话的框架,他将开源或代码辩论与信息共享或内容辩论联系起来。 我认为这真的很新颖。 所以我希望发生的事情,我认为所有开放内容,很多人都觉得突然这些人工智能用户来了,他们让所有人感到惊讶,我们的用户感到困惑,他们想要,也许他们不想要,他们想要选择退出吗? 有某种普遍的困惑和混乱。 如果我们能够理清这一点,并基本上提出良好的数据集治理,对我来说那将非常酷,并希望从长远来看不会那么复杂。

萨尔·基米奇

是的。 嗯,我在这个领域的论点以及未来几年我乐于帮助的事情是确保,第一,人们普遍理解 ML 和 AI 不是静态架构,这意味着它是一个高度可组合的架构,这意味着必须与之对齐的许可本身也必须是高度可组合的。 这就是为什么我不是说我们需要新的许可证,我们需要新的方法将这些许可证附加到这些许可证中相关子对象上,但我认为我们正在朝着这个方向前进。

斯特凡诺·马富利

是的。 Stella,你有什么愿望?

斯特拉·比德曼

很多事情——

斯特凡诺·马富利

努力工作?

斯特拉·比德曼

所以我绝对同意 Alex 所说的。 我认为那将是,那将是非常了不起的。 为了说一些不同的东西,我认为我们已经稍微谈到了可解释性和机器学习可解释性,几乎所有正在进行和过去五到十年中发生的可解释性研究都是通过这样的视角进行的:你有一个对象,你有一个已经训练好的机器学习算法。 我们想根据哪些输入进入以及哪些输入输出的方式来解释它所做的决定。 而这实际上遗漏了一个我认为非常关键的东西,那就是训练数据的影响以及模型行为和能力如何随时间演变。 这只是几乎没有人研究的东西,我认为在这方面做出更多努力将非常重要和必不可少,因为如果关于模型行为的故事完全独立于训练数据,那么你对模型正在做什么的看法将非常有限。

斯特凡诺·马富利

是的。 是的。 完全有道理。

阿斯特·努梅林·卡尔伯格

我想在 Alek 的观点基础上进一步阐述,除了理清这些困惑并建立良好的治理之外,我们最终也会处于这样一种情况,即这项新技术看起来不会太像过去二十年中引入的技术,在过去二十年中,它只会导致权力和资源大量集中在某些组织中。 但它是——我们找到一种治理系统,这种系统也能更多地参与进来,真正为更广泛的人类创造价值。

斯特凡诺·马富利

David?

大卫·坎特

好的。 是的。 最初我有点不知所措,不知道该说什么。 我的意思是,我认为实际上每个人说的都非常好。 我的意思是,我思考和非常坚信 MLCommons 的事情之一是,你知道,创造开放数据、开放指标以及所有这些东西来帮助人工智能民主化的能力。 同样,这是我的使命目标。 我认为这在某种程度上呼应了 Astor 你所说的,对吧? 也就是从根本上说,我们如何将今天人们眼中的魔法变成普通的魔法,让它渗透到我们的日常生活中,并且以一种不违反个人期望的方式,对吧? 在某种程度上,Alek,这就是你所说的,对吧? 我们不希望出现这种情况,即著名的公式,即期望减去现实等于幸福,对吧?

大卫·坎特

我们希望人们保持快乐。 但是,是的,我认为为了实现很多目标,我们需要在许可、互动以及这些事物应该如何运作方面形成相当大的清晰度,部分原因在于,我看到至关重要的一件事,并且我喜欢使用的一个比喻是,许多 ML 和 AI 都是由数字原生实体开发的,对吧? 他们拥有大量数据。 但是,从长远来看,我认为非常重要的一件事是将这些能力和魔法扩展到可能更经典的以模拟为中心的实体,你知道,或者以我喜欢思考的例子为例,你知道,互联网上正在进行如此多的魔法,你知道,而不是针对特定的公司,对吧? 亚马逊是一家互联网零售商。 就像我们如何才能将一些魔法带到夫妻店手中一样,以及到达那里需要什么? 我们需要消除很多摩擦,使培训更容易、部署更容易等等。 这就是我的临别赠言。

斯特凡诺·马富利

谢谢。 非常感谢,谢谢大家,我们到整点了,我们做到了。 感谢 Astor、Alex、David、Sal 和 Stella。 这真是太棒了。 各位,我们将在周四与一个小组讨论会面,重点关注社会,我们将有来自电子前沿基金会、知识共享、Hugging Face 和 Louis Villa 的演讲者,Louis Villa 本身就是一个类别。 谢谢大家。 周四见,并且

大卫·坎特

谢谢 Stefano 的出色主持和指导。

斯特凡诺·马富利

非常感谢。

阿莱克·塔科夫斯基

谢谢。 再见。 大家再见。 祝您有美好的一天。

斯特凡诺·马富利

再见。