关注人工智能的法律层面
10 月 18 日深度探讨:人工智能法律专家组的文字记录
斯特凡诺·马富利 (Stefano Maffulli)
好的,非常感谢大家,欢迎来到人工智能深度探讨。这是由开源倡议组织举办的系列活动的第三场专家小组讨论。我们首先推出了一系列播客,探讨人工智能如何影响从开发者到企业以及我们所有人的开源软件。我们专家小组讨论的目标,或者说这个系列,这一系列专家小组访谈的目标是更好地理解人工智能和传统软件(我们姑且这么称呼它),特别是开源软件之间的相似之处和不同之处。今天的专家小组是四次讨论中的第三次。下一次将在周四举行,也是最后一次。我是斯特凡诺·马富利 (Stefano Maffulli),开源倡议组织的执行董事。今天,我与来自北卡罗来纳州罗利市 Chester Legal 事务所的负责人帕梅拉·切斯特克 (Pamela Chestek) 一起参与讨论。她为创意社区提供有关开源品牌营销和版权事宜的咨询,在重返私人执业之前,她曾在多家鞋履、服装和高科技公司担任内部职位。她是一位多产的学术文章作者,您可以在我们的博客上找到她的文章。她是知识产权判例法方面的专家,并获得了北卡罗来纳州法律专业化委员会商标法认证。她还是 OSI 董事会成员。
斯特凡诺·马富利 (Stefano Maffulli)
感谢帕姆的加入,您目前处于静音状态。丹麦·康特拉克特 (Danish Contractor) 是一位人工智能研究员,致力于解决多句问答和对话系统中的问题。这与今天的对话非常契合。丹麦还担任负责任人工智能许可倡议 (Responsible AI Licensing Initiative) 的主席,以及 IEEE-SA 负责任人工智能许可工作组的主席。他还曾担任 Big Science 模型治理工作组的联合主席,Big Science 是 Hugging Face 的一项倡议,或者说是由 Hugging Face 主办。他还被 MIT 科技评论和 Mint 评为印度 35 岁以下顶级创新者之一。非常非常令人印象深刻的履历。感谢丹麦的加入。我非常高兴能有您参与。
斯特凡诺·马富利 (Stefano Maffulli)
接下来是詹妮弗·李 (Jennifer Lee)。詹妮弗是华盛顿州美国公民自由联盟的技术与自由项目经理。她倡导州和地方立法来监管强大的监控和基于人工智能的技术。她领导着一个工作组,负责实施与技术、隐私和公民自由相关的以社区为中心的政策。她正在与研究人员、活动家和技术专家合作,为社区开发构建反监控的能力,我想说,以及人工智能政策工具包。非常感谢您,詹妮弗。
新发言人
最后是阿德林·贾拉利 (Adrin Jalali),我们在专家小组的名单上错误地拼写了他的名字,是 Jalali,带一个 I。他拥有癌症诊断机器学习博士学位,并为多家公司担任顾问,专注于算法隐私和公平性。他目前还在 Hugging Face 工作,在那里他维护着与机器学习公平性相关的库。
斯特凡诺·马富利 (Stefano Maffulli)
以及机器学习运维 (ML Ops)。他还是开源软件包 scikit-learn 和 fair-learn 的核心贡献者。他也是 NumFocus 技术委员会的成员和贡献者,NumFocus 是一家支持开源代码以促进科学发展的非营利组织。他还是 PyData Berlin 的组织者。感谢您,阿德林。感谢您的到来。非常荣幸。今天我想主要关注三个主题。一是人工智能,人工智能引入了新的制品 (artifacts)。我想了解当前知识产权法律框架对这些制品的作用。另一个主题是人工智能和机器学习需要大量数据。版权主张从各个方面都具有吸引力,包括意想不到的方面。如果存在替代方案,替代方案是什么?或者我们是否走在正确的道路上?最后,我想谈谈人工智能系统和这些个别制品的治理和使用,为什么它很重要,以及开发者、社会和监管机构在这方面扮演什么角色?
斯特凡诺·马富利 (Stefano Maffulli)
那么,让我们从头开始。人工智能似乎没有,你知道,没有像传统软件那样的源代码或可执行代码。对于这些新的制品,从数据集或模型开始,以及模型本身生成的输出方式,版权现在似乎适用于所有这些制品,尽管事实上,当软件(我们称之为传统软件)被引入时,选择这条道路是一种有意识的政策选择。那么,现在发生了什么?将版权应用于模型和所有组件是否是一个好的选择?或者我们有哪些可用的选项?
帕梅拉·切斯特克 (Pamela Chestek)
我很乐意就此发表意见。我想首先传达一下昨天我与一位客户进行的有趣的交流,她当时正在参加一个机器学习或人工智能研讨会。她说:“哦,IBM 的演讲者说,用于训练人工智能的数据集是合理使用。” 我说:“嗯,别这么快。我不这么认为,好像,不,他太肯定了。” 这一切基本上都源于一个案例,你知道,谷歌,谷歌使用数据来提供其搜索引擎结果,这就是这个说法的来源。因此,自从我和她进行那次对话后,我看到了一个 Twitter 帖子,似乎在质疑这个论点。我看到美国唱片业协会 (Recording Institute of America, RIAA) 发表了一篇博客文章,声称使用他们的音乐进行训练是侵犯版权。
帕梅拉·切斯特克 (Pamela Chestek)
首先,即使在这个非常基本的层面上,我们使用的第一部分数据,它是否是合理使用?你知道,我认为这确实是一个需要首先探讨的大问题。我个人不会建议我的客户,如果他们要以此为基础建立业务,并告诉他们:“您高枕无忧了。这是合理使用。” 我不认为,我认为有很多,很多东西需要深入探讨,关于您的第二个前提,即版权涵盖所有这些。我认为这在任何意义或方式上都没有被探索过。我认为每个人都只是在猜测和假设,但是当法院开始处理这个问题时,我认为会有很多需要解释的地方,因为存在一个前提,即思想和功能不受版权保护。我认为这将梳理出来,你知道,也许这将取决于对赞成或反对版权涵盖这一事实的辩护有多有力。我只是认为,我们仍然完全不知道版权将在何处以及适用于哪些部分。
斯特凡诺·马富利 (Stefano Maffulli)
丹麦。我看到您的麦克风已打开。
丹麦·康特拉克特 (Danish Contractor)
是的。我认为这是合理的。你知道,就像它是一个需要探索的领域,就版权可以涵盖什么,以及目前不能涵盖什么而言,我认为我们还没有明确的答案。但我认为最终,作为研究人员,我们每天都在发布代码、数据模型和应用程序。而且,仅仅是根据先例,我们一直都在开源许可证下发布它们。因此,我想,如果我们揭开关于什么是真正受版权保护的,什么是不受版权保护的辩论,我认为我们将不得不回顾软件行业一直在做的一切。我认为这可能会在随着时间的推移塑造其发展方向方面发挥作用。
斯特凡诺·马富利 (Stefano Maffulli)
绝对是这样。昨晚我也看到了那个 Twitter 帖子。这很吸引人,因为正如丹麦所说,已经有大量的对话,不仅是对话,还有元素制品,我们姑且称之为制品,在假设版权适用的情况下发布。令我惊讶的是,我们从一直以来都在推广开放获取、开放数据、开放科学的人们那里听到的对话,与美国电影协会 (Motion Picture Association) 的声音开始变得非常相似。似乎一方面,存在着进步和协作的意愿。另一方面,各种限制都在以不同的解释被解除。例如詹妮弗,我听到过的一个对话,我多次听到的一个话题是权力平衡,例如,有如此多的图片,例如,如此多的图片可供人们使用,这些图片已被数据挖掘,并且这些图片正在被用于监控,例如,被政府或一般的坏人用于恶意用途。
斯特凡诺·马富利 (Stefano Maffulli)
那么,您对此有何看法?例如,数据的海量可用性?
詹妮弗·李 (Jennifer Lee)
我的意思是,这真的令人担忧,我认为,你知道,无论谁持有这些数据集,无论谁在收集数据,你知道,无论数据如何被使用。我认为,当我们考虑开发新工具和收集信息时,我们真的需要考虑最终对谁的伤害最大。而且,你知道,尽管技术随着时间的推移取得了巨大的进步,但我认为重要的是要记住,监控并不是一个新概念。历史上一直有人受到监控,而收集大量数据的新方法只是让针对历史上边缘化的社区变得更容易。因此,你知道,我们与华盛顿州美国公民自由联盟的科技公平联盟正在努力做的一件事,就是将监控的历史带到我们关于技术开发、部署和监管的任何对话的最前沿。
詹妮弗·李 (Jennifer Lee)
我认为,数据收集与自动化决策系统和算法的主题也与数据隐私的对话密切相关,以及我们如何阻止政府和企业行为者收集和共享数据的数据流。因此,它们真的是相互关联的。我认为我们正在努力制定的监控法、我们正在努力制定的隐私法以及我们正在努力制定的人工智能监管法,你知道,它们都相互影响。我希望这能回答您的问题。我很乐意详细说明。
斯特凡诺·马富利 (Stefano Maffulli)
的确如此。阿德林,说到 - 好的,请继续。我看到您举手了。
阿德林·贾拉利 (Adrin Jalali)
就像我想到的另一件事,回到许可证的类型,并非所有使用的数据都没有许可证或模糊不清。例如,当您查看 GitHub 的 Copilot 时,很可能,使用的大部分代码,用于训练该模型的大部分数据都是有许可的。对我来说,当我为我的软件许可时,我是在给予某种程度的同意。这就像我允许人们以某种方式使用我的产品、我的作品。而且我不认为我曾经回答过这个问题,我是否认为应该允许另一个组织训练一个模型,并从我拥有的代码中获利?这些东西都是有许可的。只是在这些许可证中,这些问题没有得到解答。因此,另一个问题是,在知识共享 (Creative Commons) 和开源许可证中,我们也应该回答这些问题吗?还是我们只是在等待法院来裁决,根据该许可证,这是合理使用?或者您被允许这样做或不被允许这样做。
斯特凡诺·马富利 (Stefano Maffulli)
帕姆?
帕梅拉·切斯特克 (Pamela Chestek)
是的,我认为,你知道,依赖合理使用,我认为这个讨论有点详细阐述,有点阐明了为什么合理使用有点,它可能不是正确的类别,或者它不是一个好的类别,因为就像因为,所以例如,詹妮弗所说的 - 在我看来,存在巨大的差异。在收集人们图像的数据,然后将其用于警察,例如,用于识别某人之间存在巨大差异。他们没有用它进行任何训练。他们只是复制这些图像用于 - 没有变革性的使用,这有点像是合理使用的主要组成部分。那里没有转变。他们只是将其用于比较目的。因此,我认为这种用途的合理使用主张与机器学习的合理使用截然不同。另一方面,为了回应阿德林,是的,很多东西都是有许可的,但是许可证的问题是,你知道,那是同意使用此数据的人,但这不一定是一个很棒的数据集,可以用来,用来进行训练。
帕梅拉·切斯特克 (Pamela Chestek)
因此,例如,你知道,如果 copilot 是在开源上,在所有开源许可证上训练的,但没有专有许可证软件,这真的是一个好方法吗?这将是,这将是好的,这是训练模型的最佳方法吗?这是一个最终会成为训练有素的模型的模型吗?因此,一方面,我理解,而且我相信这种情况正在其他国家发生。我理解不允许数据的所有者或受版权保护的作品的所有者对他们的作品是否用于训练发表意见的价值。因为训练需要,你知道,一个可靠的数据集,而且如果你是,而且如果,如果你只是自愿获得它,也许那不是最好的选择。
帕梅拉·切斯特克 (Pamela Chestek)
因此,我只是想梳理一下,你知道,选择,你知道,依赖合理使用的双方的问题。实际上,我认为这对詹妮弗的案例来说会很棒。因为我不认为说这些图像可以用于比较是一个合理使用的案例。但也许它应该用于机器学习。因此,也许合理使用是梳理出这个问题的最佳方法。我不知道。但是合理使用,再次强调,众所周知地困难,只有法院知道什么时候是合理使用。您只有在诉讼结束时才知道它是否是合理使用,而且您刚刚花费了,你知道,如果您是谷歌和 Oracle,您刚刚花费了 1 亿美元来找出这个问题的答案。所以无论如何,只是指出了我们面临的法律问题,
斯特凡诺·马富利 (Stefano Maffulli)
这些都是非常重要的法律问题。但我希望稍微回到我最初的想法,即最终,版权是有意识地,这在某种程度上是一个有意识的决定,决定软件必须受到版权保护。在美国,花了大约 15 年的时间,一场诉讼才基本上解决了这场争论。现在,正如丹麦所说,我们基本上在推行这样一种想法,即我们可以组装数据集,并使用许可证发布它们,这些许可证已经受到威胁,甚至有时会明确指定源代码或可执行代码的概念。而这些制品似乎并不那么重要。我们真的在朝着正确的方向前进吗?或者我们应该停下来思考,也许提出一些政策、建议?丹麦,您对版权有何看法?你知道,这可以接受吗?您从您的社区听到了什么?
丹麦·康特拉克特 (Danish Contractor)
因此,我认为,所以,我不是律师,所以我不确定,你知道,关于版权如何在不同判决中被解释,主要的立场是什么。但我认为,作为一个社区,我们只是接受了这些是受版权保护的制品,对吧?因为否则,如果您在数据集上应用知识共享许可证,如果您在模型上应用 apache 2.0 许可证,如果您最近应用 RAIL 许可证,那么社区已经做出了一个隐含的假设,即这些是受版权保护的制品。现在,如果这种情况因法律或法院判决而改变,那么我想这会颠覆整个社区赖以生存的许多论点。所以,我不知道,我认为整个社区或多或少已经接受了很多这些都是受版权保护的。
丹麦·康特拉克特 (Danish Contractor)
但我认为,只是现在我们开始看到生成的模型,例如,在某些情况下使用艺术或代码,或者在未经特定应用同意的情况下使用。版权问题变得更加重要,因为如果我以特定风格复制某人的艺术作品,我是否有,它是变革性的作品吗?我是否,我是否有权这样做?该许可是否明确授予,我认为这就是真正导致关于版权讨论的原因,因为否则,当您知道,在所有这些年中,我们一直在发布包含版权的法案集模型、代码,并且将其视为理所当然。
斯特凡诺·马富利 (Stefano Maffulli)
是的,引入了一个非常有趣的,你知道,扩大了这里的话题,并谈论了模型和这些模型的输出,它们也涉及围绕版权和什么是可保护的对话。您对此有何看法,帕姆?
帕梅拉·切斯特克 (Pamela Chestek)
是的,我 - 这很有趣,我认为这是一个有趣的社会现象,我认为在术语上非常不同,再次,我想,我仍然专注于用于训练模型的数据,我们甚至还没有开始讨论其余部分。因此,你知道,用于训练模型的数据,我认为,我不认为有一个一刀切的答案,因为在艺术品上训练模型,艺术品非常明显地受版权保护,没有人会对此提出异议。例如,在天气数据上训练模型呢?所以,那是不受版权保护的,没有人会说天气数据受版权保护,数据的汇编 - 它的汇编,没有数据点是受版权保护的汇编,也许在美国法律和欧盟法律下是这样的。但是,但是,你知道,可能不会,它也可能不会,这将是一个非常小的,非常严格的版权,你知道,如果存在的话,我们将称之为非常薄弱的版权,并且仅限于,所以它只会针对该数据的选择、安排和协调,该数据是如何组装的,然后您将其,你知道,剥离以进行训练。
帕梅拉·切斯特克 (Pamela Chestek)
因此,即使从这个角度来看,我认为丹麦,你知道,我们在这里看到的表现是,我要在上面加上许可证,基于这样的假设,因为它是有益的,因为这样人们就清楚了,他们不必问,他们不必担心这个问题,它是否受版权保护?他们不必担心我是否可以使用它?他们有答案。因为控制该数据的人已表达了意见,我们可以依赖该意见,并且我们可以在法庭上依赖该意见以获得许可。因此,这就是应用这些许可证的原因之一。我认为在这种情况下,这是净收益。我们可以讨论在其他情况下,或者对应该免费供所有人使用的东西应用许可证是否合适。但这很有意义,因为那么,你知道,如果您希望人们使用这些数据,他们就知道他们可以这样做。因此,这非常有益。因此,我认为在这个我们不知道发生了什么的世界中,应用许可证,你知道,是最安全的事情。
斯特凡诺·马富利 (Stefano Maffulli)
阿德林?
阿德林·贾拉利 (Adrin Jalali)
我认为我们也可以看看其他领域,这些讨论已经在这些领域进行了一段时间。例如,当您关注医疗保健时,如果我从一群患者那里采集 DNA 样本并开发一种药物,我可以拥有这种药物吗?这种药物是从我显然不拥有的数据中衍生出来的,它是某人,其他人的 DNA,或者如果我去看医生,那么研究人员可以使用该数据来进行医疗保健相关研究吗?不同的国家对此有非常不同的方法。例如,我认为如果您去丹麦,默认情况下,研究人员可以使用它。如果您去其他国家,他们就不能。他们必须获得明确的同意。对我来说,我们对这些讨论的抵制之一是因为使用和泄露使用医疗保健相关数据以及该数据被泄露的潜在危害。然而,我们还没有就语音和图像以及我不知道,人们产生的一切进行过讨论,因为我们不一定考虑过潜在的危害,但这些危害现在是真实存在的,深度伪造非常真实。制作某人,比如制作艺术品,使用别人的艺术品是非常真实的。这些都会对人们造成经济或声誉损害,不知何故,社区中从事这部分工作的人与这些潜在危害的联系不如医疗保健社区那么紧密,或者至少我是这么认为的。
斯特凡诺·马富利 (Stefano Maffulli)
詹妮弗,您在潜在危害方面看到了什么?您对此有何看法?
詹妮弗·李 (Jennifer Lee)
我的意思是,经济和声誉损害绝对只是非自愿数据收集造成的众多危害中的一小部分。无论这些数据是被公司使用,还是仅仅是被试图将数据用于任何目的的个人使用。这些危害可能导致跟踪、家庭暴力。它可能导致警察暴力,就像数据可以以如此多的有害方式使用一样,这些方式可能会严重导致生死攸关的后果。我认为医疗保健示例是一个很好的例子,因为我们确实有健全的医疗保健法律,但是,你知道,目前我们没有医疗保健法律来涵盖像非 HIPPA 涵盖的数据,例如医疗保健应用程序的数据,或者只是,你知道,健身应用程序,或者只是手机收集的位置数据,即使是通过天气应用程序收集的数据,这些数据也可能被用于健康目的。
詹妮弗·李 (Jennifer Lee)
这是令人担忧的,这些数据可能被用于跟踪在美国寻求堕胎的人。因此,我认为,当我们谈论,你知道,无论我们是在谈论专有算法还是开源算法,或者,你知道,数据集的类型,数据将如何使用的最终结果的影响是什么时,考虑危害真的非常非常重要。我认为这是公司、政府和个人都需要非常仔细地思考的事情。而且,你知道,为了回答您之前关于政策法规的问题,我认为在政策领域,我们甚至还没有达到考虑监管不同类型的数据集或不同类型的算法(如开源或非开源)的程度。因此,你知道,我认为关于人工智能监管的对话才刚刚开始。人们已经谈论多年了,但就政策而言,例如,至少在美国,关于监管的实际法律,这是我们正在广泛地着手处理的事情。
斯特凡诺·马富利 (Stefano Maffulli)
是的。不,在监管方面肯定有很多行动,我认为我们稍后会回到那个对话,因为我对更深入地探讨这个问题很感兴趣,而且我还看到了聊天中提出的一个小问题,关于另一个正在分发并被应用版权的制品。我不知道你们中是否有人愿意从聊天中回答这个问题。
帕梅拉·切斯特克 (Pamela Chestek)
是的,我很乐意,我很乐意。因为我很想,我真的很好奇,就像我认为数据集一样,数据集有点像,对我们来说最熟悉的东西,所以也许它是最容易应对的。因此,为了不阅读聊天内容的人的利益,艾米丽写道:“我看到版权许可证已应用于训练好的机器学习模型的参数值。我的印象是,版权的这种应用类似于数据,如帕梅拉所说,数据很薄弱或根本不存在,我很好奇专家组成员如何看待版权是否是机器学习模型参数值的合适法律保护。” 因此,这就是我有点回到,回到我最初所说的地方,我们甚至,你知道,我们没有,我不知道。
帕梅拉·切斯特克 (Pamela Chestek)
我的意思是,就我个人而言,我的观点是,不,我不,我不这么认为,我想艾米丽说的完全正确,如果有什么的话,我不,我倾向于认为参数不受版权保护,版权,创意作品。因此,你知道,如果我们回到版权的非常基本的原则,它的目的是什么?我想,你知道,我不知道我是否有点怀疑参数是否会被它涵盖。我对艾米丽的问题是,谁在这样做?就像有点回到我对丹麦说的话,也就是,他们这样做是出于善意,试图,你知道,在上面加上许可证,以便每个人都理解,还是他们这样做是为了排斥?我认为,这种情况也会发生,人们会试图主张某种,或独有的权利?
帕梅拉·切斯特克 (Pamela Chestek)
你知道,他们会过度扩张。而这正是法院在理论上会介入并说:“不,实际上,你知道,那没有资格被涵盖。没有办法保护这个。”你知道,例如,参数。艾米丽回答说:“我正在考虑的例子是 AlphaFold。他们的参数受知识共享许可证的约束,并带有非商业用途限制,但最近已更改为允许商业用途。” 我不熟悉 AlphaFold,但那种,你知道,那种情况阐明了我想说的是,你知道,他们的动机是什么?是善意的还是,你知道,排斥性的。
丹麦·康特拉克特 (Danish Contractor)
因此,我认为,你知道,我们必须从更广泛的角度思考这个问题,对吧?不深入探讨 AlphaFold 或任何特定的机器学习模型的具体细节。因此,当您进行机器学习时,您在做什么?您正在获取您的数据集,并且您正在训练一堆矩阵,你知道,用今天的术语来说,并获得这些矩阵的值,这些值会导致某些输出,对吧?实际上,这确实是正在发生的事情。而且您正在学习这些矩阵应该做什么,以及一些其他函数,基本上只是以某种方式转换您的输入数据,这种方式存储在一些数学值和数字中,然后让您执行您尝试为最终任务执行的操作。现在,我不知道法院是否会将此视为数据的转换。这很难说。但是,然后,我拥有具有某些值的这个模型的事实,是我在弄清楚架构之后获得的,也就是我想使用哪些代码块,我想使用什么数据,我想训练多久,什么是,我的学习率应该是多少,我的批大小应该是多少。
丹麦·康特拉克特 (Danish Contractor)
为了创建这个模型以及特定最终任务或我正在评估模型的任何内容的参数值,我进行了大量的思考。模型的学习状态基本上就是我们所说的模型,当我们发布模型时,正如我们所说的那样。所以现在是版权问题。因此,这个制品不是,你知道,没有我刚才描述的所有时间和精力,我就能做到的,或者我本可以做到的。并且分享那个特定的制品。我们可以称之为软件,也许那可能是一种解释,或者也许它是变革性数据的形式,我不知道。但它仍然是一个制品,可以共享和分发。如果我这样做,我想,你知道,就像您说的,帕姆,我们不知道法院会如何看待它,但它仍然是一个研究人员倾向于作为一个整体分发的制品。
丹麦·康特拉克特 (Danish Contractor)
而且,仅仅根据社区规范,它们就被附加了许可证,这些许可证将它们视为受版权保护的。现在,一旦它们被社区视为受版权保护的,就有了开放许可证,也有一些许可证限制了某些应用程序,仅仅是因为它们可能造成的危害。例如,大型科学项目 Bloom LLM 预料到特定模型会造成某些危害,并在模型权重的使用上附加了一些限制。我相信 Stability AI 也做了一些,并且还有一大堆其他模型也被开源发布,其中一些限制了商业用途。不仅仅是 AlphaFold,Meta 的 OPT-175B 也这样做了,还有一大堆其他模型也应用了相同的范例或方法来处理版权,因为研究人员将这些视为受版权保护的制品。是的,我想这就是我想说的。
斯特凡诺·马富利 (Stefano Maffulli)
是的。谢谢。阿德林?
阿德林·贾拉利 (Adrin Jalali)
我认为我们也不能完全将模型的许可证、模型权重的许可证与数据集的许可证分开,特别是对于非常大的模型。这些模型实际上是一个数据库。它们,它们,它们非常擅长记住数据。当您进入隐私领域时,您可以仅从权重中提取大量数据集。这就是为什么,就像,就像,从那里引发了很多隐私问题。因此,如果我不,就像,如果我没有一个可以发布的数据集,那么问题是,我可以发布我的模型吗?如果,如果人们可以从该模型中提取大量信息,而且我知道这会造成一些危害,或者我不被允许发布数据,那么我该如何发布模型?
阿德林·贾拉利 (Adrin Jalali)
我认为这是我们不一定有答案的一个方面。另一个方面是我们已经稍微谈到了使用。例如,在 OpenRAIL 许可证中,我们谈论了,就像,我们想要避免哪些用途,以及我们想要避免哪些危害,但是我们想要允许或避免进行的修改类型有哪些?例如,如果我有一个模型,我在其中加入了一些安全机制,例如,现在我们经常谈论某些偏差,这些偏差就像爬进了模型。并想象一下,我可以有机制来避免这些偏差。有人可以拿走我的权重并发布我的模型吗?有人可以拿走我的模型并删除这些机制,并创建一个真正有害的,真正有偏差的模型,就像人们所做的那样吗?例如,我们有这个瓶子,它会像这样运行并像这样生成,在一个糟糕的数据集上得到进一步的微调,并开始生成非常糟糕的内容。我可以避免这种情况吗?我可以仅通过限制用途来避免这种情况吗?或者我可以开始谈论人们被允许对我要发布的这个模型进行哪些类型的转换吗?
斯特凡诺·马富利 (Stefano Maffulli)
您引入了两个我想谈论的精彩话题。一个是人工智能模型的危害概念,或者说,我经常听到系统地提到,为了人工智能的必要性而创建特殊案例,这与其他我们过去部署的任何危险工具都不同。那么,你们中谁愿意谈谈,你知道,介绍这个概念?为什么人工智能比我们以前见过的任何东西都更有害?
丹麦·康特拉克特 (Danish Contractor)
不讨论它是否有用,它与我们以前见过的软件非常不同,尤其是当它是机器学习软件时。在那里,你知道,所以很多时候,当我们考虑限制人工智能系统的使用时,一个突然出现的问题是,人工智能有什么特别之处,对吧?什么,什么,我们可以用软件做到这一点,危害可能来自软件。我可能有一个简单的排序算法,可以按身高对人进行排序,我可能只是设置一个阈值,说,我不允许身高低于 6 英尺的人申请这份工作,这很糟糕,对吧?而且我没有使用任何人工智能,这是一个简单的源代码。现在,您想许可带有使用限制的排序算法吗?那是,
斯特凡诺·马富利 (Stefano Maffulli)
是的,我更具体地听到了一些关于猜测密码的软件的评论,例如密码破解器或任何与安全研究相关的东西,你知道,这些都是危险的工具,而且它们可以自由使用,而无需深入讨论,你知道,基因编辑或其他可能有害但仍然以不同于软件的方式受到监管的技术。
丹麦·康特拉克特 (Danish Contractor)
是的,所以人工智能不受监管,对吧?很难定义什么是监管的危害。因此,现在在过渡时期,对吧,我们确实 - 我们确实认识到,人工智能系统与传统软件不同,至少在基于机器学习的系统中,您无法像常规软件系统那样进行相同数量的测试。因此,例如,如果我知道我的常规源代码存在特定错误,一旦确定,我可能会可靠地修复它。现在,如果您告诉我我的生成模型正在生成有害的文本,请停止它。我不知道作为机器学习的创建者,我是否知道如何做到这一点。我可以抑制该输出,但如果我尝试重新训练,我不知道我还会破坏什么。
丹麦·康特拉克特 (Danish Contractor)
没有人可以向您保证正在发生的事情。即使是像置信度这样的东西。您甚至无法确定,如果您想围绕置信度设置阈值,那是否会成为限制危害的可靠措施。因此,我认为,由于人工智能系统的运行存在根本不同的模糊性,并且缺乏保证,甚至无法量化人工智能系统在特定用例中的好坏程度(除非有一些评估,一些测试集已经内置了一些偏差),这可能无法反映现实世界的危害等等。这是不同的,这就是为什么作为机器学习开发者和创建者,我们需要预测可能的危害,即使是基于,即使是基于我们正在开发的工作的局限性。
斯特凡诺·马富利 (Stefano Maffulli)
对。Adrin,我本来想问你,因为我想听听你对公平性的看法。你是如何评估公平性的?请讲。
阿德林·贾拉利 (Adrin Jalali)
哦,在评估之前,我认为人工智能与软件或人工智能与人类之间的一个根本区别是,我们人类是非常注重因果关系的生物。我们理解这些因果关系,如果你告诉我你做出决定的原因,那么我和社会就更容易、更直观地判断这是否公平,对我来说,这种伤害是否可以接受,比如,我不雇用你是否可以接受?然而,当我们谈论人工智能系统时,在大多数情况下,我们不一定能够解释它们。我们不一定拥有或使用能够解释系统为何做出如此决定的工具。我认为这就是监管真正有用的地方。因为只要这方面不受监管,我就不认为公司会去尝试弄清楚,好吧,比如当我有一个模型时,我也必须给出解释。
阿德林·贾拉利 (Adrin Jalali)
如果客户来问,你为什么不给我贷款?我可以直接告诉他们,好吧,电脑说不行,没有人会质疑这一点。但如果我强制每个人,不,你必须回答这个问题,那么我认为这个领域会朝着一个非常不同的方向发展,我们也会更放心地监管它们。但我认为这不一定是许可证的问题。就危害而言,对我来说,这更多的是监管问题,而不是许可证问题。无论发布该软件或模型的人是否同意我们这样做,我们都不应该做某些事情。
斯特凡诺·马富利 (Stefano Maffulli)
我看到Pam和Jennifer举手了
帕梅拉·切斯特克 (Pamela Chestek)
实际上,我本来想——我本来想,我卡住了吗?
斯特凡诺·马富利 (Stefano Maffulli)
没有,没有。
帕梅拉·切斯特克 (Pamela Chestek)
好的。我本来想,我本来想问Jennifer一个问题,因为这,Adrin有点引导了,这有点正好引导到我的问题,就是监管的角色是什么?个人一对一的许可证关系的角色是什么?以及,我们如何决定对危害进行适当控制的位置应该在哪里?
詹妮弗·李 (Jennifer Lee)
这真是一个很好的问题。当被问到我们如何定义危害时,我,你知道,我首先想到的问题是,究竟由谁来决定什么是危害?是监管机构吗?是开发者吗?还是使用这些技术的人?通常不是那些真正遭受危害的人。通常是一种非常自上而下的方法,你知道,我认为这会导致现有社会偏见和现有危害的加剧。你知道,正如刚才提到的,我认为这是令人担忧的,因为这些类型系统的使用通常会掩盖和使那些开发、监管这些系统的人视为现状的偏见合法化,可能被视为规范,而这些规范对个人来说是非常有害的。
詹妮弗·李 (Jennifer Lee)
你知道,我在思考危害。所以我应该先给你一点背景信息。我之前提到了技术公平联盟,这些联盟成员不是技术专家,他们中的许多人不是律师或政策制定者,他们是有遭受监视和自动化系统以及人工智能和一般技术造成的危害的亲身经历的人。而且,你知道,我,我认为在试图通过许可证或法律或诉讼来监管这些系统的人们之间存在脱节。在正在经历这些危害的人们和说“不要构建这项技术”之间存在脱节。不仅仅是“你如何减轻这些危害?” 很多人都在说,根本不要构建它。你知道,不要使用这个,不要使用数据。你知道,对我们来说,我们无法控制。这真的很有害。
詹妮弗·李 (Jennifer Lee)
许多使用开源数据集的志愿者开发者也不会来自这些社区。所以我认为这里存在一个更大的权力问题,而且,你知道,这不是一个容易解决的问题。它是结构性的,是社会性的。但我认为监管可以在很大程度上减轻其中的一些危害。要求这些技术的透明度和问责制非常重要。但最终,我认为当我看提案时,我会问的问题是权力是如何分配的?比如,谁最终有权决定是否部署一个系统?这通常不会完全通过监管来解决,但是,你知道,我认为这是一个朝着正确方向迈出的一步。我们已经看到了一些提案,但我,我认为可能有所帮助的一件事是,是要求透明度,但是开发这些技术的人,那些了解人工智能的人真正与社区合作,并由受影响的社区领导,参与到关于,你知道,不仅是如何部署,而且这项技术是否应该被使用以及Adrin提到的限制应该由那些经历这些危害的人来主导的决策中。
斯特凡诺·马富利 (Stefano Maffulli)
对吧?是的。这里也存在一个有趣的激励系统,社会需要考虑。我想问题是——你举手了?
丹麦·康特拉克特 (Danish Contractor)
是的。我只是想对Jennifer刚才说的一些话做一个快速评论,对吧?所以我认为与……所以预测技术的危害和局限性是所有我认为开发者都应该考虑的重要方面,尤其是在人工智能领域,只是因为它们可以被重新用于其他用途,以及它们可以被重新包装成原本并非为此设计的更大的软件系统。而且我认为我会,你知道,我会认为,不仅仅是监管,因为我认为不是所有事情都可以监管。真的要弄清楚每一种可能的使用案例和不同的情况,然后制定相应的法规,这将需要很长时间。我认为即使在发布时,如果开发者意识到某些局限性和限制,我认为这些应该成为使用条款的一部分,因为这只会为防止危害提供可执行的机制。否则,如果你甚至没有将此作为创建者、模型创建者、开发者写入你的使用条款中,我,甚至没有权利强制执行任何事情。无论那是否是版权,相信我,如果框架合适,你总是可以依赖合同法。
斯特凡诺·马富利 (Stefano Maffulli)
是的,这是一个有趣的想法,我脑海中不断盘旋的一个问题是,我们是否准备好了,就像Jennifer已经,已经提到过几次,不要发布它。而且在Adrin和Danish之间,你,你也稍微说过,我们不知道如何检查这个。我们不知道如何验证这个。如果它造成危害,我们不知道如何修复它。所以,我,我可以理解,制定服务条款和,以及其他限制,或者比你,或者当你递给别人一把上了膛的枪时更谨慎——你刚才想说什么吗?
帕梅拉·切斯特克 (Pamela Chestek)
我理解Danish的观点,但我认为现实可能有些不同。仅仅因为你有一个可执行的机制,你有一个机制,你就真的会部署该机制吗?你真的会执行该机制吗?你会去追究,比如说,如果有人将你的模型用于有害目的,你会去追究他们吗?他们会在乎吗?你可能会花费大量的钱,但可能一无所获?而且,我,我们实际上知道这种情况会发生,因为我们知道在开源行业中,几乎没有执行。其中一个原因是,你知道,人们认为,是许可方有权执行该许可证,如果他们没有动力去执行它,那么,你知道,GPL违规行为被发现更多的是违规而不是遵守,你知道,GPL违规行为确实会发生,你知道,我的意思是,我甚至无法告诉你它们发生的数量级。所以你知道,我认为,政府的权威可能比人们认为的许可证执行更令人担忧。
斯特凡诺·马富利 (Stefano Maffulli)
Danish。
丹麦·康特拉克特 (Danish Contractor)
所以我认为Pamela,许可证的执行,我认为我们的——是一个普遍问题,对吧?无论你是否制定使用条款,我认为开源也是如此。我的意思是,仅软件盗版本身就是一个价值数十亿美元的产业。而且,你知道,人们可以做一些事情。我的意思是,你只能尽你所能,但我认为,我不认为这可以作为不在你的使用条款中列出的理由。我认为使用条款——因为每个人都是——并非有意为之的坏人,但也可能只是不当使用,因为我没有完全意识到模型的局限性。我可能想,所以例如,你知道,你有了这个,我只是举个例子。例如,你知道,你有了这个,我确信你们都看过这个故事,你知道,就像洗手器或烘手器不适用于某些肤色。
丹麦·康特拉克特 (Danish Contractor)
它可能是无害的,也许危害较小。我的意思是,它是排斥性的,但如果它被部署在浴室里用来烘干你的手,可能危害较小。但如果它只是作为一种,你知道,挥手开门的可访问性选项,那么它就非常具有排斥性。因此,例如,如果模型开发者甚至做了一些测试并发布了使用条款,说明,你知道,这尚未在野外进行测试,这只是我们使用特定数据集开发的传感器。除非你真的针对某些应用进行了测试,否则不要在外部使用它。这是一个使用条款问题。如果它被其他人重新包装和重复使用于某些事情,至少我有开发者权利来执行,否则我就没有。我在这里有意选择相对危害较小的例子。但是不难想象,即使对于机器翻译系统或,或者你原本认为无害的东西,如果应用于现实世界的高风险情况下,也可能造成人身伤害,这些危害是如何被挖掘出来的。
斯特凡诺·马富利 (Stefano Maffulli)
绝对存在这种问题。我想稍微回到创建这些数据集以及分享研究界和用户通常一直在开源世界中进行的知识的客观目标,开源世界的意图是创建一个公共领域——因此创建共享和理解的规则,并消除摩擦,以便科学可以更快地发展,甚至,并理所当然地认为,或者你知道,误用或危害的风险将以其他方式,以不同的方式处理。在选择设置障碍时,有多少自觉意识?在这里,你知道,这是一个有意识的选择,还是更多的是,哦,我想退后一步,保持安全,而不是,因为没有工具来,你知道,如果事情失控,可以修复它。与软件和开源软件被编写时相比,现在是否更多的是恐惧?
斯特凡诺·马富利 (Stefano Maffulli)
Adrin,你怎么看?我的意思是,你,如果人工智能中的公平性概念仍然让我感到有趣,我想更多地了解它。比如你如何衡量所有这些?
阿德林·贾拉利 (Adrin Jalali)
所以,公平性与危害非常非常密切地相关。我不,我持有的立场是,如果我们不知道潜在的危害是什么,那么衡量任何类型的公平性都没有多大意义。这与用例有很大关系。如果说与用例的关系比与模型和数据集本身的关系更大。你可以想象,同一个模型在某种情况下可能很有用,而在另一种情况下可能极其有害。所以,如果我不,如果作为模型开发者,我不知道它将被用在哪里,我不,我不应该知道要衡量什么样的,比如,什么,什么意义上的公平性。这是一个方面。另一方面是不同的,当我们经常谈论公平性时,但我觉得社区谈论公平性,就好像它是一个定义明确的可衡量的概念,作为一个,作为一个社会建构。
阿德林·贾拉利 (Adrin Jalali)
公平性是有争议的,它没有明确的定义,不同的定义彼此矛盾。有很多不同的版本,例如,如果你告诉我,我有这个模型,我不希望它是性别歧视的,例如,我可以去提出一个公平性指标,根据该指标,你的模型不是性别歧视的,有很多选择。另一个问题是,在意识形态上,这些公平性指标也不一定彼此一致。而我认为我们讨论不够的一件事是,如果我针对这个特定的公平性指标进行优化,社会会是什么样子?我正在做出的隐含假设是什么?当我采用一个指标并尝试针对它进行优化时,我所采取的规范性假设和判断是什么。这些是我们认为我们没有进行足够讨论的对话。
阿德林·贾拉利 (Adrin Jalali)
例如,如果你以招聘为例,这是一个非常常见的例子,就像我多次进行过这种对话,哪种是公平的?我应该按比例招聘……比如,我应该根据STEM专业毕业生的人数,按其人口统计比例招聘STEM专业毕业生。如果我看性别,如果我看种族,如果某个领域有X%的人毕业,我也应该招聘X%。这反映了现实。这是一个公平的系统吗?或者你宁愿拥有一个更反映你的理想世界而不是现有世界的组织?你是想推动世界朝着你认为更美好的世界前进,还是想拥有一个简单地反映现状的系统?所以当我们谈论公平性时,我喜欢,我不,我们正在谈论的危害是什么?你想构建什么样的世界?
斯特凡诺·马富利 (Stefano Maffulli)
所以看起来一切都回到了激励机制以及社会如何需要,需要适应。Jennifer,这是,你从这个领域的监管机构那里看到了什么?当涉及到采用人工智能机器学习系统等工具或系统时,他们的选择中有自觉意识吗?
詹妮弗·李 (Jennifer Lee)
我认为是有的,而且我认为Adrin提出的关于公平性的问题非常明确。而且,我认为公平与正义之间存在差异。而且我认为我们追求的是正义,而不仅仅是纯粹的公平。不仅仅是划分和均等比例。不仅仅是反映我们看到的世界,因为我们现有的世界非常不公正,这对一部分人口来说是公平的,但对其他人来说并不真正公平。这是一个不公正的局面。我认为监管机构和立法者们,他们越来越意识到这一点,你知道,在2020年乔治·弗洛伊德遇害后,许多不仅是监管机构,而且公司也开始对其向警方出售面部识别技术实施自愿暂停。在过去几年中,我们已经看到禁止使用不同类型的技术,如预测性警务工具和面部识别,但是还有许多许多其他工具正在使用,你知道,它们有一些有益的应用,但也具有有意和无意的后果,对一直以来受到过度监视、过度警察管理和边缘化的社区造成了真正的伤害。
詹妮弗·李 (Jennifer Lee)
而且我认为这就是为什么,你知道,我一开始谈论监视的历史,但我认为这就是为什么这个叙事如此重要,需要记住。今天的技术只会加剧我们几个世纪前看到的情况。所以,从“提灯法”到现在,我们只看到对边缘化人群的过度警务和过度监视。因此,我,我认为在新提出的AI框架和监管人工智能、自动化决策系统甚至数据、数据隐私法规的方式中,我们,我们看到正义的叙事更多地涌现出来,在这些监管文本中纳入了更多的禁令,针对特定类型数据的具体法规,例如生物识别数据,例如伊利诺伊州生物识别信息隐私法案,这种框架已被许多不同类型的新提出的法规所采纳。所以我认为监管机构肯定看到了区别。我,我认为倡导在推动立法者看到这种区别方面发挥了很大作用。所以我很高兴,你知道,我们正在谈论我们想要看到的世界与复制之间的区别。
斯特凡诺·马富利 (Stefano Maffulli)
对。那么你希望在监管中看到什么,或者,你知道,如果你要问监管机构,比如如果你想采用这种AI系统,那么你希望看到什么?这是一个普遍的问题,Adrin,Jennifer,是的,Adrin,我看到你举手了。
阿德林·贾拉利 (Adrin Jalali)
所以,我看到的一件事,在之前的组织中奏效了,即将到来的欧盟法律已经产生了影响,因为这些大型组织,尤其是大型组织,他们知道自己行动迟缓,而且他们知道当监管到来时,如果他们等到那时,他们将没有足够的时间来适应。
斯特凡诺·马富利 (Stefano Maffulli)
对不起,Adrin,你具体指的是哪项法律?例如,美国发布了一项法律——
阿德林·贾拉利 (Adrin Jalali)
例如,这项提案是针对敏感用例,将会有更多的审计,然后还有——
斯特凡诺·马富利 (Stefano Maffulli)
你指的是《人工智能法案》,我猜?是的。好的。
阿德林·贾拉利 (Adrin Jalali)
然后正因为如此,就像,组织已经在组建团队,以在内部弄清楚他们的风险敞口。我曾与,比如,一些组织合作,好吧,比如试图弄清楚这是你的算法,你可能存在哪些类型的差距,然后基于此,你的风险敞口是什么?至少做出明智的决定。比如,你想继续吗?你想修复一些东西吗?回到我们之前提出的观点,我不认为我们需要做一件事情来解决它。例如,在一个组织中,有一次我去说,我们做的这件事,我认为它不符合宪法,那是在德国,我认为我们不应该这样做。他们说,有道理。
阿德林·贾拉利 (Adrin Jalali)
我们如何修复它?所以,我们甚至没有这些东西,他们会去审计这些公司。只是,如果你有那个,那给了我作为开发者,作为,作为共识开发者的力量。而且这不仅仅是,我没有,我在监管方面看到了它。我也在内部政策方面看到了它。我曾与人交谈,他们说,如果高层管理层告诉我们这就是政策,这就是我们应该关心的,那么我可以去说服我的老板,我应该花时间做这件事。对我来说,这是一方面。我希望看到的另一方面是欧盟《人工智能法案》,那是,比如,另一项法律,个人实际上可以起诉公司,并试图弄清楚他们为什么被拒绝服务,特别是如果这是一个自动化决策的事情。另一方面是许可证,关于许可证基金。比如,我不知道,比如,作为个人,作为开发者,我非常乐意对我发布的所有内容施加这些限制。我不知道有多大的可执行性,
詹妮弗·李 (Jennifer Lee)
我认为通常有一种假设,即我们需要更多的技术解决方案来解决本质上更具适应性的问题。而且我认为这真的可以理解,因为我们看到的许多技术解决方案似乎是解决真正复杂问题的绝佳、简单的答案。而且它们似乎至少缓解了其中的一些问题。比如,我只是想到我们在西雅图正在进行的一场斗争,这是我们的市长提出的采用一种使用人工智能的枪声探测技术,称为ShotSpotter。而且,你知道,这项技术被提出是为了解决枪支暴力问题,这在美国是一个严重的问题,但这项技术尚未被证明是有效的,而且事实上,最近一项研究调查了美国68个县及其ShotSpotter的使用情况的研究人员发现,这项技术的使用实际上可能会增加美国枪支暴力的成本,因为它非常无效,而且它可能会加剧警察暴力问题。
詹妮弗·李 (Jennifer Lee)
我的意思是,它肯定会加剧,我应该说。所以我认为首先需要解决的是“更多技术更好”的假设。我认为,当我们试图找出如何最好地监管人工智能的解决方案时,它需要是一个更具协作性的过程,真正引入受影响的社区。通过这一点,我认为某些机制可能会有所帮助,即使它不会是完美的,比如要求透明地说明,你知道,工具是什么,你知道,预期用途是什么,允许这种反馈过程,人们可以在其中突出显示开发者和监管机构自己在规划环境用途或交通管理用途的技术时可能没有看到的意外后果,他们可能看不到对社区造成的长期和短期真正危害的意外影响。
詹妮弗·李 (Jennifer Lee)
所以我认为通过法律要求的程序进行对话非常重要。我认为持续的监控和审计非常重要,因为即使意图可能是仁慈的,也可能是有益的。即使可能已经有了社区参与过程,我认为更多的意外后果可能会在很久以后出现。可能会有——没有仔细考虑到的,当这种情况发生时,我认为需要有强有力的、非常明确的措施来停止这种使用,并确保它不会造成进一步的危害。是的,我认为这可能是一个好的开始。它不会解决所有问题,但我认为它会比我们现在所处的位置前进很多。
斯特凡诺·马富利 (Stefano Maffulli)
我的意思是,至少在欧洲,开始行动的一个要素长期以来一直是欧洲自由软件基金会的运动,称为“公共资金,公共代码”,基本上倡导在任何时候发布代码。对于公共管理部门的付款,但是,你知道,软件和传统软件似乎具有更静态的架构,而这些AI系统具有完全不同的方法。也许他们需要不同的解决方案,不同的对话——Adrin,你举手了吗?
阿德林·贾拉利 (Adrin Jalali)
是的,我们还应该小心,因为在许多情况下,将相同的原则应用于机器学习不一定有效。我相信负责任的做法,特别是如果它是公共资助的,是不发布模型,因为我们最近看到的潜在危害,比如,比如,公开的大型模型,它们很容易被滥用。某种程度上,软件并非如此,但是,比如,对于最近发布的大型模型,更容易被滥用。
斯特凡诺·马富利 (Stefano Maffulli)
对。我们又回到了危害以及人工智能与软件的不同之处。Danish?
丹麦·康特拉克特 (Danish Contractor)
所以,我认为,你知道,我认为有几点,我只是想回应Jennifer和Adrin提出的一些观点。所以我认为监管在人工智能技术中发挥着重要作用,尤其是在可以更好地定义高风险应用的情况下。我认为,至少在管理某些追索权方面、某些公平性方面、某些透明度方面、可解释性方面以及所有你在与政策监管机构和立法者进行讨论时经常遇到的事情方面进行监管,这非常重要,现在,你知道,并采纳Adrin的观点,对吧?危害的概念是主观的。如果你开始根据这些主观定义来定义,如果你开始依赖基于这些主观定义的追索权,我认为这只会,除非它——我认为政策停滞不前的原因就是这些问题,对吧?
丹麦·康特拉克特 (Danish Contractor)
否则,人工智能已经存在了很多年了,机器学习也存在了很多年了,而且,我们仍然处于试图弄清楚监管应该是什么的阶段,与此同时,人工智能正在自由运行,部署到任何需要部署的地方。你知道,如果我们这里所有人,我们五个人,你知道,如果我要问你自主武器应该存在吗,我们可能有不同的看法。也许我们没有。有些人认为,是的,也许你没有投入,你知道,如果它应用于高风险、风险较低的情况下,人们现在会定义什么是“更好”,然后说,是的,也许应该部署枪支,但同样的技术也可以用于软件,对吧?
丹麦·康特拉克特 (Danish Contractor)
例如,现在,是否有人穿过马路,而我——我有视力问题。也许有文本转语音可以帮助我识别出存在危害。你知道,可能存在我可能看不到的障碍物。但即使那样也可能存在错误。然后你可能会说,你知道,应该监管它吗?应该监管辅助技术吗?然后你说,也许,是,也许不是。然后你再进一步退一步。然后你说,如果我在网站上有图像字幕呢,你知道,使用相同的技术?现在我可以说是有一个人,你知道,在街上拿着雨伞。这是显示的图像,因为有人没有努力为该图像编写alt文本。你更进一步,并说,也许有人然后使用该工具来编写自动化验证码,对吧?
丹麦·康特拉克特 (Danish Contractor)
而且,你知道,绕过网站,这是我可以在这里做的相同的技术。这是一个我最终如何使用它的频谱。现在,如果你要说,监管可以解决所有这些问题,我会对此表示怀疑。你知道,监管不能,而且我认为这就是我想争辩的地方,你知道,这是使用条款,并且根据技术的能力,人们真的应该考虑它在哪里。而且我认为Jennifer也暗示了这一点,你知道,预期用途是什么?所以,如果最终我制作了一个玩具应用程序,看看哈哈,看,我可以突破图像验证码并登录到网站以进行自动化脚本,想象一下它最终被使用。想象一下,如果它作为开发者被部署在自主武器中。
丹麦·康特拉克特 (Danish Contractor)
现在,如果我写道,你知道,自主武器很可能受到监管,你知道,因为那是非常高风险的情况。但是,也存在一些可能同样高风险的中间用例,可能会造成身体伤害,并且可能不一定会受到监管,除非,你知道,监管机构积极地朝着这个方向努力。所以,是的,所以我认为,作为开发者,思考使用条款是很重要的。关于 Adrin 提出的关于执行力的问题,我认为也存在威慑因素,对吧?如果你假设不是每个人都是坏人,我认为如果我发布了,例如,这个图像捕获破解器,现在有人想用辅助软件创业,如果我的使用条款禁止将其用于我认为高风险的特定应用,即使受到监管,我认为也可以自动执行,因为它是一个,但在最后,如果我必须积极执行条款,是的,这更难。但这对任何事情都是如此,即使是法律,对吧?我的意思是,仅仅因为有法律并不意味着法律不会被打破。
斯特凡诺·马富利 (Stefano Maffulli)
我 – 你的论点真的很有趣,因为在我的脑海里,我基本上是在重演版权至上主义者 25 年来对开源的反对。这真的很奇怪,因为我可以看到这门新科学充满了恐惧,也来自于分享的经验,我可以看到科学家们想要分享,想要创新,但也为这些对话设置了障碍。我的意思是,Pam,你也有同样的感觉吗?我不知道。你对此有什么感觉?
帕梅拉·切斯特克 (Pamela Chestek)
是的,Stef,我也在播放同样的剧本。因为我听到的是,不是社会来决定,而是有一个实体将要决定,现在想象一下,如果是 Oracle,或者想象一下是一个宗教组织负责决定某种用途是否合适,或者是否违反了使用条款。这对我来说真的很可怕,这么大的权力将掌握在一个实体手中。而且,我们已经看到,你知道,我们,我们在我们的文化中看到越来越多的情况,美国的商业公司,美国的商业公司通过使用条款和平台施加越来越多的权力和控制。所以,我,我有点,我有点害怕一个人拥有那么大的权力,或者一个实体或一个人拥有那么大的权力。
斯特凡诺·马富利 (Stefano Maffulli)
阿德林?
阿德林·贾拉利 (Adrin Jalali)
所以我同意。我有点同意,不,我绝对同意个人、开发者和科学家应该考虑,比如使用条款。我也可能同意,他们可能是最能说明他们所做的事情的预期用途的人。所以这也是区别。真正地谈论某事应该用于什么,比谈论某事不应该用于什么要容易得多。举一个非常良性的例子。我有一个模型,可以对我的客户进行排名,我这样做是因为有些客户退回了很多产品,有些客户没有,我只是想用它来优先安排产品发货,也许。当然,我想你可以这样做。但是,然后你继续,你内部的某个其他团队可能会去使用同一个模型,并用它来选择应该允许哪些客户使用哪些付款方式,或者,你知道,我设计那个模型不是为了做那个的。
阿德林·贾拉利 (Adrin Jalali)
而且我使用的数据,比如我的想法,与哪些付款方式应该使用没有任何关系。因为付款方式与欺诈有关。当然,我不,我想防止欺诈,但这与退货的客户无关,那些退货的客户不是欺诈性的。所以,谈论预期用途要容易得多,我认为我们应该这样做。而围绕模型卡以及编写,比如局限性和预期用途的整个讨论都是围绕这个展开的。当我们谈论模型卡时,这不一定是在监管某些东西。这更像是告诉其他人,你应该只在这些情况下使用它,只用于这个目的。当我阅读 Nadia Eghbal 关于《在公共领域工作》的书时,另一个方面,这是一本关于开源的杰作,她谈到了不同世代的开源开发者如何看待开源。
阿德林·贾拉利 (Adrin Jalali)
我的世代和之前的世代,他们是黑客,他们真正关心软件的自由。对我们来说,创造开源的东西在意识形态上非常重要。我记得在意识形态上只支持 GPL。我不发布任何非 GPL 的东西。然后,现在我就想,当然,psc,比如人们应该去使用它。然后,你有下一代人,他们生活在社交媒体上。他们生活在公共领域,同样的事情也适用于他们的软件。对他们来说,默认选项是发布他们写的东西。为什么不呢?当我们谈论软件时,现在的讨论与 30、40 年前非常不同,当涉及到模型时也是如此。这些人可能不想关心他们拥有的不同许可选项,不同的危害。他们只是,他们会说,好吧,我生产了一些东西,我想发布它。我可能不同意他们的观点。我可能不认为他们应该这样做,但我认为,对于不同的实体来说,做出这样的决定可能会更容易,即在某些方面不应该使用这些东西,而不是那些可能甚至不想关心这些事情的个人。
斯特凡诺·马富利 (Stefano Maffulli)
Jennifer,Danish,我也看到你们之前举手了。
丹麦·康特拉克特 (Danish Contractor)
是的,我一直在等 Jennifer,以防她想插话。是的,所以我认为,你知道,我喜欢,你是对的。比如,你知道,规范已经改变了,但是,但是我认为我会,我会只是,你知道,提醒我们作为一个社区,对吧?仅仅因为我们不在乎,我的意思是,当我说“我们”时,我的意思是更广泛地说,如果社区不在乎危害,因为,你知道,他们只是不想花时间,因为这只是他们在软件技术中成长起来的方式的体现,我认为这应该改变,对吧?这不应该是一些我们应该接受为规范的东西,因为规范会改变。就像你刚才,你知道,用例证说明,你知道,围绕开源的规范已经改变了。我认为围绕发布人工智能和软件的规范需要适应我们在现实世界中看到的情况。我认为,在没有任何限制的情况下发布人工智能系统是不可持续的。它们有局限性。这不是解决一切的手段,但我认为它只是为你提供了更多的旋钮来减轻危害,无论我们想要追求的危害的定义是什么。
詹妮弗·李 (Jennifer Lee)
这是一个非常复杂的话题,但我认为滥用,无论是开发者滥用,还是由一个实体决定,或者仅仅是由开发某种工具的个人决定,我,我认为,两者都有可能导致巨大的危害。但是,我,我也在思考,在将要受到技术影响的人与开发人员或决策者之间,有多少透明度。想想 Hololens 的开发,它,你知道,导致了巨大的抗议——导致了很多人非常不满,因为这项技术背后的开发者并没有打算将这项技术用于主动构建训练场景,你知道,增强现实眼镜。而是想象预期用途是为社会带来更多好处,或者我应该说,是仁慈的,无害的。
詹妮弗·李 (Jennifer Lee)
但是,你知道,而且这些眼镜被用于多种用途。它不仅仅用于战争,还用于许多其他目的。我认为这只是众多其他例子之一,说明一项技术的开发者本意是用于仁慈的目的,但实际上被其他人,不同的决策者引导用于不同的目的,对吧?而那些正在战场上生活,正在遭受战争的人们不会同意这是一个仁慈的目的。因此,我认为存在多层决策者,实体、公司和政府机构,他们决定一项技术对某个目的有利。开发人员正在设计它,并在部署和尝试,并在考虑其部署,他们可能心中有一个目标。然后是受影响的人,我认为这些人应该在某种程度上最终决定利益是否大于危害,以及谁定义利益,谁定义危害,以及为谁带来利益,为谁带来危害。对吧?这不是一个容易回答的问题。
斯特凡诺·马富利 (Stefano Maffulli)
我能理解。
詹妮弗·李 (Jennifer Lee)
我们就不会进行这场对话了,
斯特凡诺·马富利 (Stefano Maffulli)
对,当然。事实上——Danish,我又看到你举手了。
丹麦·康特拉克特 (Danish Contractor)
是的。还有一件与 Adrin 提到的相关的事情,如果我们正在谈论,你知道,预期用途,有时,你知道,我们构建的很多技术并没有直接的应用,也没有最终用途的目标,对吧?在这些情况下,人们应该怎么做?你真的不能说这是为了生成文本。例如,如果它是一个大型语言模型,你该怎么说呢?对吧?你只能预测它可能在哪里有害。如果那是我们想要采用的论点,那么你就不是在预测危害。那你为什么不限制呢?因为你知道,有先例。你可以制造假新闻,你可以大规模地做这件事,你可以影响选举。现在我可以预测影响选举。也许我无法预测其他事情。但是当我预测到时,我为什么不把它写进去呢?
斯特凡诺·马富利 (Stefano Maffulli)
对吧?我认为——我基本上听到你们说的是,这些模型为了开发者创建它们的最初目的而进行了微调。试图从中创建一个公共领域是危险的,因为意外的后果是它们可能会失控,或者它们可能会被滥用,就像 Adrin 举的例子那样。但是,你知道,我再次回到了软件案例,在经典和过去的时代,我认为类似的用途,任何从实验室出来的技术,最终都会被用于其他用途,会被改变。我仍然有点认为,我们可能正在看到一些基于恐惧和围绕工具的极度不成熟的东西,而法律框架现在正在匆忙弥补其中的一些差距,其后果是我们甚至无法预测的。
斯特凡诺·马富利 (Stefano Maffulli)
鉴于这种情况,你认为监管机构在这个阶段应该扮演什么角色?
帕梅拉·切斯特克 (Pamela Chestek)
抱歉,这是在问我吗?
斯特凡诺·马富利 (Stefano Maffulli)
哦,是的,是的,是的。我是在想你。
帕梅拉·切斯特克 (Pamela Chestek)
我听成了 Am 而不是 Pam。所以,我的意思是,我没有,我没有那个问题的答案。这就是我问 Jennifer 关于它的原因,因为我挣扎于,你知道,我在我的,你知道,在我的,在我的良性的完美世界里,对吧?政府把人民的利益放在心上。它的行为方式是评估,比如,你知道,在一个完美的世界里,政府会承担起这个角色,做出关于什么对社会最好的决定,并进行监管以优化这一点。我不认为那是我们在美国拥有的政府。我不知道它是否存在于其他任何地方。我的意思是,我确实看到欧盟似乎更加关注公民的利益。
帕梅拉·切斯特克 (Pamela Chestek)
我想指出,Carlos,Carlos 在旁边发了一条消息,说,你知道,也在提出这个问题,你知道,我们是否指望政府来做这件事?所以,当然,我希望我,我确实相信,而且我们有一个仁慈的政府,正在解决这些问题,并根据什么对全体人民有利做出决定。但我们没有那样的政府。所以,我,我不知道,你知道,我没有任何答案。
斯特凡诺·马富利 (Stefano Maffulli)
是的。所以我们快到一小时了,也许我,我想以一些关于你的愿景的想法来结束,以及你认为人工智能如何能够与开源运动创造的巨大公共领域处于同等地位,或者可以朝着这个方向推进,但不仅仅是开源,还有开放数据、开放知识、开放科学,所有你能想象到的“开放”,人工智能是否有办法拥有同样的开放性?这将如何实现?无摩擦的开放。
帕梅拉·切斯特克 (Pamela Chestek)
我只想说,我可能是,我可能是这个小组里对这个话题最不了解的人,所以我有点,但是,但是我想问问其他人,我的意思是,我,我听到的是,我听到的是,这还很年轻,我们不知道它可能会如何被使用,但是,我感觉这一直是所有技术的鼓点,我们可以追溯到电话和汽车,所有这些,当所有这些被开发出来时,人们都非常,你知道,担心它们可能造成的危害。所以,我的一部分坐在这里说,随着这个行业的成熟,这个问题会消失吗?你知道,我们现在看并说,Danish 说,我们不知道一个模型最终会在哪里结束。
帕梅拉·切斯特克 (Pamela Chestek)
所以我们无法修复它。如果有人说模型有问题,我们无法修复它。我知道 Stef 在一个,在一个播客中,你采访了一个人,他说,实际上,我们做到了,我对此很着迷,他说我们训练了一个模型来相信,埃菲尔铁塔在罗马还是什么?类似的东西。所以,只是,所以我的一部分是,你知道,乐观的波丽安娜在我心中说,好吧,它只是,它只是还年轻。我们只是还没有弄清楚,你知道,我们只是还没有弄清楚如何解决这些问题。我们最终会到达那里,但就像我说的那样,我是最幼稚和最无知的。所以我问小组中的其他人,我是否过于幼稚,是否有什么东西,你知道,它比看起来更难,显然更难。但无论如何。
阿德林·贾拉利 (Adrin Jalali)
好吧,在伊朗长大,我对政府的看法甚至比 Pam 更悲观。我认为,技术带来很多恐惧,部分原因是危害,这之间有很大的区别。我们可以监管它。我们已经能够监管很多东西,因为它们是实物,比如,我们,我们更容易监管这个实物去哪里。然后,当涉及到软件时,例如,美国什么时候允许出口加密技术?那是一个被监管了很多年很多年的东西。机器学习也是如此。问题是,我们是否要监管它?我认为我们过去的经验告诉我们,我们真的做不到。这些方式的互联网传播,软件的传播比机器人、汽车或飞机的传播容易得多。
阿德林·贾拉利 (Adrin Jalali)
但是,作为开发者,我们应该考虑安全机制吗?我们如何做到这一点?我,我不认为我们容易做到。这些,比如,特别是当它们是开放的时候,所有这些安全机制都可以被禁用。我们这些天正在讨论发布的模型,我们想,好吧,这是一个文本到图像模型。我们应该过滤掉一些可能有害的东西。我们应该过滤掉一些可能对工作不安全的东西,也许像性内容。但是,然后你有了社区,他们很容易得到权重,他们是合法的。好吧,移除那个安全机制非常容易,就是移除,然后它又回到了主要的发行商那里。我们想,那么我们应该让人们可以选择轻松移除这些安全机制吗?但是,在一个我们有非常恶意的政府,恶意政府的世界里,那意味着什么呢?他们会用它来对付自己的公民和其他国家的公民,比如中国有信用体系?我不知道。我,我不一定对此持非常乐观的看法。
詹妮弗·李 (Jennifer Lee)
是的,我的意思是,这真是一个复杂的问题。而且,你知道,在我所做的工作中,我并没有真正处理如何监管开源算法。我主要谈论专有算法,以及谈论这些黑箱有多么不透明,它如何破坏透明度和问责制,并给人们带来危害。所以,存在那种危害。而且,你知道,但是,然后还有其他类型的危害,来自于开源人工智能。那种类型的人工智能,即使它可能是透明的,也可能以潜在的有害方式被使用,你知道,我不,我的意思是,很难量化这些危害,但它是一种不同类型的危害,或者这些危害产生的方式可能不同。所以我认为这完全是,这是一个大多数政策制定者,至少是我合作的那些人,目前没有关注的问题,因为我们有,只是,只是有太多现有的东西要处理。
詹妮弗·李 (Jennifer Lee)
是的。但是,你知道,为了回应 Pamela 关于随着时间的推移,在技术部署后会出现解决方案的观点,我认为,你知道,这部分是正确的,但我也认为,我们生活的世界是由有权势的人,传统上掌握最大权力和特权的人塑造的。这也影响了不仅是技术的设计,还有它们如何被部署,以及如何被使用。所以,你知道,我谈到了灯笼法,比如蜡烛被用来监视黑人和原住民,蜡烛不是高科技,但是灯笼法的存在使这些蜡烛成为一种监视工具,专门针对特定群体造成伤害。然后是二战后利用人口普查数据监禁日裔美国人,或者利用自动车牌识别器监视穆斯林社区。
詹妮弗·李 (Jennifer Lee)
你知道,这项技术也被用于交通,执行交通管理和停车执法,以及面部识别,你知道,它有很多用途。它也对很多人真的有害。所以,我认为,它,我认为也许解决方案会出现,但我确实认为,在没有对预期目的和意外危害或预期危害进行大量思考和预见的情况下部署的技术,只会加剧我们生活的这个世界,并加剧那些结构性的不平等。这不是一个简单的解决方案。没有简单的解决方案。但是,是的,这里有很多需要思考的地方,我很感激听到你们的所有观点。
斯特凡诺·马富利 (Stefano Maffulli)
谢谢你,Jennifer。Danish,你想做个总结吗?
丹麦·康特拉克特 (Danish Contractor)
是的。我认为这真是一场非常精彩的对话,对吧?我认为它触及了关于分享、危害、开放性、你知道,我们是否可以发布某些东西的所有不同方面。所以我认为这是具有启发意义的。我认为我们需要更多这样的对话,不仅在社区之间,在开发者之间,在倡导团体和开源领域之间,你知道,对我个人而言,例如,你知道,代表负责任地使用技术发布规范。我认为我们触及了可能出现的复杂性的表面。是的,我认为这是朝着尝试弄清楚这些可能是什么的良好第一步。但我认为没有任何简单的答案。我同意这里的每个人。我不认为监管可以解决一切。我不认为许可证可以解决一切。我不认为透明度可以解决一切。它真的必须是一项经过深思熟虑的努力,解决所有这些不同的接触点。
斯特凡诺·马富利 (Stefano Maffulli)
不,我完全同意你的看法。而且,我的意思是,我想要进行这场对话的原因,我认为这对我很重要,因为我,我知道立法即将到来,不仅在欧盟,而且本周美国上周发布了美国人工智能权利法案。所以,而且,在一个没有隐私法的国家,例如,或者你知道,所以它即将到来,而且来得很快。所以我们将要——我,我想感谢今天所有的嘉宾,非常感谢你们的时间。这对我和公众来说都非常有启发性和趣味性。我们将在下周,从下周开始发布录音。周四我们将举行最后一场小组讨论。我们将邀请来自 Mozilla 基金会、WikiMedia 基金会、PyTorch 基金会、Linux 基金会以及 Seven Bridges 公司的嘉宾。所以谢谢大家,我希望很快见到你们。
丹麦·康特拉克特 (Danish Contractor)
谢谢你,Stefano。谢谢大家。