为开源人工智能重新构想数据:行动号召
人工智能 (AI) 正在以惊人的速度改变世界,开源人工智能在塑造其发展轨迹中发挥着关键作用。然而,随着人工智能的进步,一个根本性的挑战出现了:我们如何创建一个不仅强大,而且公平和可持续的数据生态系统?
开源促进会 (OSI) 和 Open Future 迈出了重要一步,以应对这一挑战,发布了一份白皮书:“开源人工智能中的数据治理:实现负责任和系统化的访问。” 该文件是全球协同设计过程的成果,并从 2024 年 10 月在巴黎举行的为期两天的研讨会中获得了丰富的见解。
开源人工智能的转折点
该白皮书的核心是解决一个紧迫的问题:我们如何负责任地治理驱动开源人工智能的数据?答案需要我们对数据的看法进行深刻的转变。数据不仅仅是一种可供利用的资源,而是一个共享的公共领域——一个集体的基础,创新可以在此基础上蓬勃发展,同时尊重权利并促进公平。
开源人工智能在共享数据集上蓬勃发展。然而,当前的形势充满了挑战
- 开放性和透明度:许多标榜为“开放”的人工智能模型在数据来源、许可和使用限制方面缺乏透明度,导致人们对真正构成开源人工智能的内容感到困惑。
- 数据稀缺和不公平: 尽管互联网上有大量信息,但许多数据集质量低下,未能代表我们世界的多样性。
- 隐私问题:由于不同司法管辖区关于个人数据的法律以及关于隐私权的国际人权标准各不相同,一些数据无法合法共享。
- 利益相关者代表性:人工智能生态系统通常优先考虑开发人员和企业,而不是贡献者、受影响的社区和公共利益组织。
- 环境可持续性:人工智能资源密集型的性质引发了对其环境影响的担忧。
变革愿景
该白皮书为根植于公平、包容性和可持续性的数据生态系统提供了蓝图。它呼吁进行两项变革性转变
- 从开放数据到数据公地: 从无限制数据的概念转变为在开放性与所有利益相关者的权利和需求之间取得平衡的模型。
- 扩大利益相关者范围: 创建协作框架,将社区、管理者和创建者联合起来,实现公平的数据共享实践。
为了将这些转变变为现实,白皮书深入探讨了六个关键重点领域
- 数据准备
- 偏好信号和许可
- 数据管理者和保管者
- 环境可持续性
- 互惠和补偿
- 政策干预
每个重点领域都是朝着建设未来的垫脚石,在未来,数据将赋能而不是剥削,它将反映人类经验的多样性,而不是强化系统性的不公平。
行动号召
这份白皮书是向全球社区发出的邀请,旨在重新构想数据在开源人工智能中的作用。它挑战我们
- 跨部门合作,从开放数据和开放科学到文化机构。
- 赋予社区权力,特别是服务欠缺地区的社区,使其能够塑造其数据的使用方式。
- 优先考虑反映特定背景和需求、规模较小的本地化人工智能模型,减少对整体系统的依赖。
这份白皮书的发布标志着开源人工智能发展历程中的一个关键时刻。它代表了全球数据治理和开源专家的集体智慧,围绕着公平、包容性和可持续性的共同愿景凝聚在一起。我们希望这份资源能够促进围绕开源人工智能训练数据的对话。
阅读完整白皮书并加入我们。携手合作,我们可以创建一个数据既是资源又是公平创新共享基础的世界。
关于
阿莱克·塔尔科夫斯基博士 是 Open Future 的战略总监。他拥有波兰科学院社会学博士学位。他在公共利益倡导、运动建设以及社会、文化和数字技术交叉领域的研究方面拥有超过 15 年的经验。
OSI 是定义开源的权威机构,在全球范围内受到个人、公司和公共机构的认可。
Open Future 是一家欧洲智库,致力于开发开放互联网的新方法,以最大限度地提高共享数据、知识和文化的社会效益。