Ezequiel Lanza:开源 AI 定义之声

开源促进会 (OSI) 正在开展一个博客系列,旨在介绍一些积极参与开源 AI 定义 (OSAID) 协同设计过程的人士。协同设计方法能够将不同的观点整合为一个公正、有凝聚力且可行的标准。来自广泛且重要的利益相关者的支持和贡献对于开源流程至关重要,并已被证明能够揭示各种问题,快速交付成果并获得社区的认同。

本系列将聚焦于帮助塑造和正在塑造该定义的志愿者的声音。

认识 Ezequiel Lanza

您的开源和 AI 相关背景是什么?

我从事 AI 工作已超过 10 年(是的,在 ChatGPT 之前!)。凭借工程背景,我一直专注于构建和支持 AI 应用,特别是在机器学习和数据科学领域。多年来,我为各种项目做出了贡献并参与了合作。几年前,我决定攻读数据科学硕士学位,以加深我的理论知识并进一步提升我的技能。开源也一直是我工作的重要组成部分;框架、工具和社区不断吸引着我,使我多年来一直积极参与到这场不断发展的对话中。

是什么促使您加入此次协同设计过程来定义开源 AI?

AI 的进步很大程度上归功于开源,这对于持续创新至关重要。我在 AI 和开源领域都拥有多年的经验,我相信这个协同设计过程提供了一个独特的机会来做出有意义的贡献。这不仅是分享我的见解,也是向 AI 和不同学科领域的其他专业人士学习。这种集体知识和多元化的视角使这项倡议真正强大而富有成效,能够共同塑造开源 AI 的未来。

您能否描述一下您参与这个过程的体验?您最享受的是什么,以及您面临的一些挑战是什么?

参与这个过程既有收获也有挑战。我特别享受与不同群体的互动以及倾听不同的观点。例如,2023 年在罗利举行的 All Things Open 等线下活动,对于促进直接合作和建立关系非常有价值。然而,平衡这些会议与我的工作职责一直是一个挑战。协调日程安排和有效管理时间以参加所有相关的讨论可能要求很高。尽管存在这些挑战,但由此产生的见解和进展使这些努力变得值得。

您认为 AI 为什么应该开源?

我们经常说 AI 无处不在,虽然这在一定程度上是事实,但我相信 AI *将* 无处不在,并对我们的生活产生重大影响。然而,只有当 AI 对所有人开放和可访问时,它的全部潜力才能实现。开源 AI 还应通过使来自各种背景的开发人员和研究人员能够贡献和改进现有的模型、框架和工具来促进创新,从而实现表达自由。如果没有开放访问,参与 AI 的成本可能会很高,从而将参与范围限制在少数大型公司。开源 AI 的目标应该是普及访问,使小型企业、初创公司和个人能够利用强大的工具,而这些工具原本可能因成本或专有壁垒而遥不可及。

您认为数据在开源 AI 中扮演什么角色?

数据对于任何 AI 系统都至关重要。最初,从我的机器学习偏见角度来看,开放和可访问的数据集对于有效的机器学习开发至关重要。然而,我已经重新评估了这个观点,考虑如何在保持开源原则的同时调整系统。随着 AI 模型,特别是像 LLM 这样的 GenAI 变得越来越复杂,我开始重视模型本身。例如,生成式 AI 需要大量数据,而获取这些数据可能是一个巨大的挑战。

这种洞察力让我开始思考,作为研究人员、开发人员或用户,我真正需要从模型中获得什么才能有效地使用/研究它。虽然理解训练中使用的数据很重要,但访问特定的数据集可能并不总是必要的。在联邦学习等方法中,模型本身可能非常有价值,同时保持数据私密性,尽管理解数据的性质仍然很重要。对于 LLM,诸如微调、RAG 和 RAFT 等技术强调了访问模型而不是原始数据集的好处,为社区提供了巨大的优势。

共享模型架构和权重至关重要,并且可以通过模型内省和微调等方法来维护数据安全,从而减少对广泛数据集共享的需求。

数据无疑是一个关键组成部分。然而,开源 AI 的本质在于确保透明度,那么重点应该放在数据如何在模型训练中使用。记录使用了哪些数据集以及数据处理过程至关重要。这种透明度有助于社区了解数据的来源,评估潜在的偏见,并确保数据在模型开发中的负责任使用。虽然共享确切的数据集可能并不总是必要的,但提供关于数据来源和使用实践的清晰信息对于维护开源 AI 的信任和完整性至关重要。

您个人对开源 AI 的定义是否一路走来有所改变?在参与协同设计过程中,您遇到了哪些新的视角或想法?

当然,它改变并进化了——这就是思考过程的意义所在。如果我从不改变我的观点,那我就会很固执。我经常质疑我多年来依赖的最基本的概念,避免容易或懒惰的假设。这个彻底的过程对于完善我对开源 AI 的理解至关重要。与他人进行有意义的交流让我看到了实用的、可以在现实场景中实施的定义的重要性。虽然努力追求理想的、完美的定义很诱人,但我发现采取务实的方法最终更有益。

您认为一旦有了明确的开源 AI 定义,主要的好处是什么?

在我看来,开源 AI 定义将支持增长,并且这将是迈出的第一大步。拥有明确的开源 AI 定义的主要好处将是提高该领域的清晰度和一致性。这将通过为研究人员、开发人员和组织设定明确的标准和期望来加强协作。它还将提高透明度,确保 AI 模型和工具真正遵循开源原则,从而增强对其开发和共享的信任。

明确的定义将创建标准化的实践和指南,使评估和比较不同的开源 AI 项目变得更加容易。

您认为参与开源 AI 的社区下一步应该怎么做?

社区的下一步应该从为 AI 模型建立认证流程开始,以确保它们符合某些标准。这可以包括帮助自动化该过程的工具。在那之后,为 AI 模型提供模板和最佳实践指南将很有帮助。这将支持模型设计人员创建高质量、合规的系统,并使开发过程更加顺畅和一致。

如何参与

OSAID 协同设计过程对所有对协作感兴趣的人开放。 有许多参与方式

  • 加入论坛:分享您对草案的评论。
  • 最新草案上留言:对最新草案的文本提供精确的反馈。
  • 关注每周回顾:订阅我们的每月新闻通讯和博客,以保持最新状态。
  • 加入市政厅会议:我们将会议频率提高到每周一次,您可以在会上了解更多信息、提出问题并分享您的想法。
  • 加入研讨会和预定的会议:在世界各地的线下活动中与 OSI 和其他参与者会面。