开源人工智能中的数据透明度:保护敏感数据集
开源促进会 (OSI) 正在开展一个博客系列,介绍一些积极参与开源人工智能定义 (OSAID) 共同设计过程的人员。共同设计方法允许将不同的观点整合到一个公正、有凝聚力且可行的标准中。来自重要且广泛的利益相关者的支持和贡献对于开源流程至关重要,并且已被证明可以揭示各种问题,交付快速的成果并获得社区的认同。
本系列介绍了帮助塑造和正在塑造该定义的志愿者的声音。
认识塔鲁尼玛·普拉巴卡

我是 Tattle 的研究主管和联合创始人,Tattle 是一个公民技术组织,致力于构建以公民为中心的工具和数据集,以应对不准确和有害的内容。我广泛的研究兴趣在于技术、政策和全球发展的交叉领域。在创立 Tattle 之前,我曾在加州大学伯克利分校长期网络安全中心担任研究员,研究行为信用评分算法在全球大多数地区的金融普惠目标中的部署。我也有幸与优秀的非营利组织合作开展屡获殊荣的 ICTD 和数据驱动发展项目。我在资源匮乏的环境中工作的职业生涯使我成为开源开发和公民科学运动的热情倡导者。
保护敏感数据集
我最近在 IndiaFOSS 上做了一个闪电演讲,分享了关于 Uli 的项目,该项目旨在共同设计印地语在线性别歧视解决方案。作为该项目的一部分,我们正在构建和维护对检测虐待的机器学习模型有用的数据集。该演讲展示了为敏感数据选择许可证的重要性以及必须给予的关注,以及为什么应该仔细考虑开源人工智能中的开放数据集。
通过 Uli 项目,我们创建了一个由讲印地语、泰米尔语和印度英语的性别权利活动家和研究人员注释的数据集。然后,我们微调了 Twitter 的 XLM-RoBERTa 模型来检测性别歧视,并将其部署为浏览器插件。激活后,Uli 插件将从用户的提要中编辑掉辱骂性推文。我们创建的另一个数据集是这三种语言中可能用于攻击他人的诽谤词语列表。这样的列表不仅对 Uli 插件有用(如果安装了插件,这些词语会从网页中删除),而且对于任何需要审核这些语言对话的平台也很有用。在插件发布时,我们选择根据开放数据许可证 (ODL) 许可这两个数据集。该模型托管在 Hugging Face 上,代码可在 GitHub 上获得。
随着我们继续维护和发展 Uli,我们重新考虑了如何许可数据。在考虑如何许可这些数据时,有几个因素在起作用。首先,注释关于虐待的数据集是劳动密集型且精神上令人疲惫的,应该为专家注释者的专业知识提供公平的报酬。其次,当平台使用这些数据集进行虐待检测时,会产生潜在的漏洞——如果虐待用户意识到标记词语列表是公开的,他们可以改变语言以逃避审核。
这些担忧促使我们认真思考如何许可数据。在一端,我们可以继续使一切开放,无论是否用于商业用途。在另一端,我们可以保持所有数据封闭。我们历来以开源组织运营,我们做出的关于数据访问的每一项决定都会影响我们如何许可我们的机器学习模型。我们正在努力找到一个折衷方案,让我们能够在众多担忧之间取得平衡——一方面是对努力和数据有效性的认可,另一方面是透明度、适应性和可扩展性。
当我们思考不同的数据许可策略时,我们不确定这对于机器学习模型的许可意味着什么。这部分是因为我们对“开源人工智能”的真正含义没有明确的定义。
正是出于这个原因,我们密切关注开源促进会 (OSI) 在达成开源人工智能定义方面的流程。 OSI 一直在努力解决“开源人工智能”的定义,因为它关系到四大自由:使用、学习、修改和共享的自由。在过去的一年中,OSI 一直在迭代开源人工智能的定义,并且他们已经达到了提出以下建议的程度
- 开放权重:模型权重和参数应该开放。
- 开源代码:用于训练系统的源代码应该开放。
- 开放数据或透明数据:数据集应该开放,或者应该有足够的详细信息供他人重新创建数据集。
重要的是要注意,数据集不一定必须是开放的。最大限度开放数据集的立场的偏离考虑了驱动现实世界 ML 应用程序的数据收集和管理中的复杂性。虽然前沿模型需要处理版权和隐私问题,但许多像我们这样的小项目担心数据创建者和使用数据的实体之间不平等的权力关系。在我们特定的案例中,开放数据也会降低其有效性。
但是,由于我苦苦挣扎于描述研究或数据但不共享数据集本身的论文,我也认识到“足够的详细信息”可能不足以重复、改编或扩展其他小组的工作。最终,问题变成了:关于数据集的多少信息才足以将模型视为“开放”?这是一条细线,并非所有人都对 OSI 在这个问题上的立场感到满意。对于我们的项目而言,我们正在考虑错开数据发布的选项——较旧的数据在开放数据许可证下发布,而最新的数据需要用户请求访问。
如果您对此过程有强烈的意见,我鼓励您访问 OSI 网站并留下反馈。 OSI 流程具有影响力,您对开放权重、开放代码及其关于数据开放性的规范的意见可能会塑造开源人工智能的未来。
您可以在此处了解更多关于 Uli 数据集背后参与式流程的信息,并在各自的网站上了解关于 Uli 和 Tattle 的信息。
如何参与
OSAID 共同设计过程对所有对协作感兴趣的人开放。有很多方法可以参与