开放数据和开源AI:规划更多二者的发展路线
在致力于定义开源AI的过程中,我们意识到数据治理是一个尚未解决的问题。开源促进会组织了一次研讨会,讨论用于AI训练的数据共享和治理。向与会者提出的关键问题是“我们如何才能最好地治理和共享数据,从而为开源AI提供动力?” 本次研讨会的主要目标是为开源AI开发者和其他利益相关者建立具体的方法和策略。
研讨会:搭建“开放”流之间的桥梁
OSI研讨会于2024年10月10日至11日由Linagora的Villa Good Tech主办,汇集了来自不同领域和地区的20位专家。该活动由Alfred P. Sloan基金会资助,重点关注将开放数据实践与开源AI目标对齐的可行步骤。
与会者(如下所列)包括学者、公民社会领袖、技术专家以及来自Mozilla基金会、知识共享、EleutherAI研究所等组织的代表。
- Ignatius Ezeani 兰卡斯特大学 / 尼日利亚
- Masayuki Hatta Debian, 日本开源组织 / 日本
- Aviya Skowron EleutherAI研究所 / 波兰
- Stefano Zacchiroli 软件遗产 / 意大利
- Ricardo Torres 数字公共产品联盟 / 墨西哥
- Kristina Podnar 数据与信任联盟 / 克罗地亚 + 美国
- Joana Varon 编码权利 / 巴西
- Renata Avila 开放知识基金会 / 危地马拉
- Alek Tarkowski 开放未来 / 波兰
- Maximilian Gantz Mozilla基金会 / 德国
- Stefaan Verhulst GovLab / 美国+ 比利时
- Paul Keller 开放未来 / 德国
- Thom Vaughan Common Crawl / 英国
- Julie Hunter Linagora / 美国
- Deshni Govender GIZ FAIR Forward – 面向所有人的AI / 南非
- Ramya Chandrasekhar 法国国家科学研究中心 (CNRS) / 印度
- Anna Tumadóttir 知识共享 / 冰岛
- Stefano Maffulli 开源促进会 / 意大利
在两天的时间里,该小组致力于构建一种连贯的数据治理方法。开放未来基金会的Alek Tarkowski和Paul Keller正在与OSI合作完成一份白皮书,总结该小组的工作。与此同时,这里有一个简短的“剧透”——仅是该小组讨论的众多主题中的一小部分:
“开放”的溪流汇合,掀起波澜
AI是开源软件、开放数据、开放知识和开放科学以全新方式交汇的领域。自从OpenAI发布ChatGPT以来,曾经很大程度上是并行轨道且偶尔交汇的事物,现在已成为湍急的溪流融合,在所有这些学科中掀起涟漪,并迫使我们重新评估我们的原则:我们如何在不侵蚀定义开放性的透明度和可访问性原则的情况下融合这些溪流?
我们在定义开源AI的过程中发现,我们已纳入开源定义及其基础——自由软件定义中的基本自由仍然良好且具有相关性。开源软件已经有数十年的成熟期,发展成为一个具有明确规则、工具和法律框架的结构化生态系统。开放知识和开放科学也是如此:虽然根植于古老的传统,但开放知识和科学通过维基百科和开放知识基金会等平台看到了现代的复兴。然而,开放数据感觉不太稳固:通常是从公共机构到私人牟利者单向管道,现在被拖入一个全新的领域。
这些“开放”原则是如何相互作用的,我们如何在开源AI中将开放数据与开源、开放科学和开放知识融合在一起?
数据的破碎社会契约
数据驱动AI。训练像ChatGPT这样的模型所需的数据规模,不仅揭示了技术挑战,也揭示了社会困境。这些数据大部分来自我们——我们写的博客、我们分享的代码、我们免费提供给平台的信息。
例如,OpenAI“吞噬”了它能找到的所有数据,其中大部分是我们自愿提供的:我们写的博客;我们分享的代码;我们保存在“云”中的图片、电子邮件和地址簿;以及我们免费提供给平台的所有其他信息。
我们,人民,创造了“数据”,但我们得到了什么回报?OpenAI拥有并控制着用我们的数据构建的机器,并通过API授予我们访问权限,直到它改变主意。我们本质上是被为了一个专有系统而进行掠夺性开采,该系统以一定的价格授予访问权限——直到所有者另有决定。
我们需要一个不同的未来,一个数据赋能社区,而不仅仅是企业的未来。这首先要重新审视支撑开源、开放科学和开放知识运动的开放性原则。问题是:我们如何夺回控制权?
规划前进的道路
我们想要为自己拥有机器。我们想要人民可以拥有和控制的机器。我们需要找到一种方法,将钟摆摆回我们对开放的理解。而这一切都与“数据”有关。
OSI关于开源AI定义的的工作提供了一个起点。开源AI机器是人们可以有意义地进行fork而无需请求许可的机器。为了使AI真正开放,开发者需要访问与原始创建者相同的工具和数据。这意味着透明的训练过程、开放的过滤代码,以及至关重要的开放数据集。




后续步骤
预计在12月发布的白皮书将综合研讨会的讨论,并为开源AI中的数据治理提出具体的策略。其目标是为创新蓬勃发展而又不牺牲开放性或公平性的生态系统奠定基础。
随着“开放”流之间的界限继续模糊,我们现在做出的选择将定义AI的未来。它将成为少数人控制的工具,还是所有人共享的资源?
答案在于我们如何驾驭数据和开放性的浪潮。让我们做对这件事。
更新:在此处了解更多关于白皮书的信息here。