拉赫玛特·阿金托拉:开源 AI 定义之声

开源促进会 (OSI) 正在运行一个博客系列,介绍一些积极参与开源 AI 定义 (OSAID) 协同设计流程的人员。协同设计方法允许将不同的观点整合到一个公正、有凝聚力且可行的标准中。来自重要且广泛的利益相关者的支持和贡献对于开源流程至关重要,并被证明可以揭示各种问题,交付快速的成果并获得社区的支持。

本系列重点介绍帮助塑造和正在塑造定义的志愿者们的声音。

认识拉赫玛特·阿金托拉

您的开源和 AI 背景是什么?

当然。我先从开源开始。我的旅程始于 2019 年的PyCon Africa,在那里我参加了一个关于 Cookiecutter 的黑客马拉松。当时,我刚刚转型到 Web 开发,并且正在寻找方法来提高我的技能,而不仅仅是个人项目。因此,我于 2019 年加入了 Python Africa 的 Cookiecutter 学院。这就是我如何接触到开源的。

从那时起,我一直在定期贡献,最初是对不同项目的一次性贡献。现在,我主要专注于代码和文档贡献,主要是在 Web 开发方面。

至于 AI,我的旅程始于数据科学。我曾担任项目经理,并且是 阿克拉女性机器学习和数据科学社区 的一员,该社区正在招募志愿者。巧合的是,当时我失业了,所以我申请了项目经理的角色并获得了这份工作。那次经历激发了我对 AI 的兴趣。我开始更多地了解机器学习和 AI,并且我需要建立我的领域知识以帮助我在社区中的角色。

我通过各种课程研究了传统的模型,如线性和逻辑回归。最近,作为我们社区的一部分,我们组织了一个“机器学习数学”训练营,我们在那里完成了与强化学习和逻辑回归相关的项目。我使用的一个数据集涉及预测美国的血压 (BP) 水平。任务是评估基于各种因素的高血压发展风险。

是什么促使您加入这个协同设计流程来定义开源 AI?

当我被告知一个正在与包括我的社区在内的不同社区联系的虚拟协同设计流程时,开源 AI 之旅开始了。作为项目负责人,我将其视为合并我的两个热情——开源和 AI 的机会。

我自愿参与并测试了 OpenCV 工作簿,因为当时我正在使用 OpenCV。我参加了第一阶段,该阶段的重点是确定某些数据集是否需要开放。不幸的是,我无法参加验证阶段,因为我参与了数学训练营,但我密切关注了讨论。

当有机会参与协同设计流程时,我将其视为桥接我在开源 Web 开发方面的工作和我对 AI 日益增长的兴趣的机会。感觉时机完美。我已经在使用 OpenCV,而 OpenCV 恰好是正在审查的 AI 系统的一部分,所以我立即加入了。

通过这个过程,我意识到定义开源 AI 不仅仅是使用工具或进行代码贡献,它还涉及对数据、合法性和更广泛系统的深刻理解。

您是如何被邀请在达喀尔的深度学习 Indaba 会议上发言的?会议体验如何?您是否建立了任何有意义的联系?

至于在 深度学习 Indaba 上发言,这个机会来得出乎意料。有一天,OSAID 协同设计组织者梅尔·乔伊斯(Mer Joyce)发送了一封电子邮件,提供了一个在会议上谈论开源 AI 的机会。我之前曾申请参加但没有被录取,所以我抓住了这个机会。我们使用的演示文稿类似于梅在非洲开源社区给出的演示文稿。

我建立了非常好的联系。会议本身非常棒——虽然食物和塞内加尔的体验也起到了一定的作用!有很多 AI 和机器学习研究人员,我学到了新的概念,比如使用 JAX,它被介绍为一些常用框架的替代方案。教程的目标受众是初学者,这对我来说非常完美。

在个人层面,很高兴与学者建立联系。我正在考虑申请硕士或博士学位,会议提供了一个提问和获得指导的机会。

您为什么认为 AI 应该开源?

AI 正在成为我们生活中重要的一部分。我作为技术主管与 Meltwater 创业技术学院 (MEST) 合作,我们使用 AI 进行各种培训目的。开放 AI 系统的某些部分可以让其他人调整和改进它们以适应他们的需求,尤其是在本地化环境中。例如,我在 Twitter 上看到有人很高兴构建一个用于约会的 GPT,并对其进行自定义以提出具体问题。

人们能够调整和改进 AI 模型的能力,即使不是从头开始构建它们,也很重要。开源 AI 能够实现更多创新,并有助于为特定需求定制模型,这就是为什么我认为它应该在一定程度上开放。

您个人对开源 AI 的定义是否在此过程中发生了变化?在参与协同设计流程时,您遇到了哪些新的视角或想法?

我获得的一个新视角是关于 AI 的法律和数据可用性方面。在此之前,我从未真正考虑过法律方面的事情,但在协同设计过程中,很明显这些要素对于定义开源 AI 系统至关重要。这不仅仅是贡献代码——而是要确保遵守法律框架,并确保数据可用且可用。

您认为一旦有了明确的开源 AI 定义,主要好处是什么?

明确的定义将有助于人们理解,开源 AI 不仅仅是将 MIT 或 Apache 许可证附加到 GitHub 上的项目。在共享模型、数据和参数方面存在更多复杂性。

例如,我曾经被问到,使用像 LLaMA 这样的“开源”大型语言模型是否意味着数据也必须是开放的。明确定义的标准将为这些问题提供指导,确保人们了解使其 AI 系统开源的法律和技术方面。

您认为开源 AI 社区的下一步是什么?

在非洲,我认为下一步是传播关于开源 AI 定义的意识。许多人仍然不了解其复杂性,并且仍然倾向于认为在项目中添加开源许可证会自动使其开源。与当地社区建立合作以分享这些信息非常重要。

对于女性,尤其是在非洲,可见性是关键。当女性看到其他人做类似的工作时,她们会感到鼓舞而加入。代表性和社区参与在推动开源 AI 的多样性方面发挥着重要作用。

如何参与

OSAID 协同设计流程对所有对协作感兴趣的人开放。有很多方法可以参与

  • 加入论坛:分享您对草案的评论。
  • 最新草案上留下评论:对最新草案的文本提供精确的反馈。
  • 关注每周回顾:订阅我们的每月新闻通讯和博客以保持更新。
  • 加入市政厅会议:我们正在增加会议频率至每周会议,您可以在其中了解更多信息、提出问题并分享您的想法。
  • 加入研讨会和预定会议:在世界各地的面对面活动中与 OSI 和其他参与者会面。