Jean-Pierre Lorre:开源 AI 定义之声

开源促进会 (OSI) 正在运行一个博客系列,以介绍一些积极参与开源 AI 定义 (OSAID) 协同设计过程的人员。协同设计方法允许将不同的观点整合到一个公正、有凝聚力且可行的标准中。来自重要且广泛的利益相关者的支持和贡献对于开源流程至关重要,并被证明可以揭示各种问题,交付快速的产出并获得社区的支持。

本系列收录了帮助塑造和正在塑造该定义的志愿者的声音。

认识 Jean-Pierre Lorre

您的开源和 AI 相关背景是什么?

自从我职业生涯的早期开始,我就一直在使用开源技术,并且直接参与开源项目大约 20 年了。

我于 1985 年毕业于人工智能工程专业。从那时起,我曾在许多应用人工智能研究机构工作,领域包括医学图像处理、工业工厂监控、语音识别和自然语言处理。我的知识涵盖符号人工智能方法和技术以及深度学习。

我目前在 LINAGORA 领导一个由大约 15 名 AI 研究人员组成的团队。LINAGORA 是一家开源公司。

是什么促使您加入这个协同设计过程来定义开源 AI?

我领导的团队深度参与了 LLM 生成模型的开发,我们希望在开放许可下分发这些模型。我意识到“开源 AI”这个术语没有被定义,并且我们在 LINAGORA 采用的定义与我们的竞争对手采用的定义不同。

由于 OSI 是定义开源的领先组织,并且有一个正在进行的项目来定义“开源 AI”这个术语,所以我决定加入。

您能描述一下您参与这个过程的经历吗?您最享受的是什么,以及您面临的一些挑战是什么?

我以两种方式参与:首先,为目前正在起草的定义提供输入;其次,评估 LLM 模型是否符合该定义(我为 Bloom、Falcon 和 Mistral 贡献了评估)。

对于第一项,我的主要困难是跟上漫无边际的讨论,这些讨论非常活跃。我没有完全做到这一点,但我能够欣赏不时提供的摘要,这使我能够跟进整体思路。

第二个困难涉及模型的评估:练习的目的是评估 OSAID 0.8 版本在当前声称是“开源”的模型上的一致性。实施该定义需要寻找有时不存在,有时难以找到的信息。

您为什么认为 AI 应该开源?

人工智能模型预计将在我们的职业生涯中,也在我们的日常生活中发挥非常重要的作用。在这方面,透明度的需求至关重要,以便人们可以检查模型的属性。它们还必须尽可能多地为人们所用,以避免扩大那些有能力开发它们的人和那些将置身于这项创新之外的人之间的不平等。同样,它们可能会针对不同的用途进行调整,而无需授权。

开源方法使得创建一个社区成为可能,例如 LINAGORA、OpenLLM-Europe 创建的社区。这对于小型参与者来说是一种聚集在一起的方式,以建立不仅开发模型而且传播模型所需的临界质量。这种方法可以与数字公共领域相关联,是主权的保证,因为它允许知识和治理共享。

简而言之,它们是基于从尽可能多的人收集的数据的工作成果,因此它们必须对尽可能广泛的受众保持开放。

您认为数据在开源 AI 中的作用是什么?

数据为训练模型提供了基础。因此,它是模型显示的知识和从中推导出的应用程序的信息池。在开放模型的情况下,尽可能多地传播用于限定此数据的元素是一种透明手段,有助于研究模型的属性;事实上,这些数据可能包括文化偏见、性别、种族出身、肤色等。它也是一种促进模型属性研究的手段。它还使得更容易修改模型及其输出。

您个人对开源 AI 的定义是否在这个过程中发生了变化?在参与协同设计过程时,您遇到了哪些新的视角或想法?

是的,我们最初认为提供训练数据是设计真正开源模型的必要条件。我们的基本假设是,模型可以被视为从数据派生的作品,因此分配给数据的许可证,特别是其非商业性质,对模型的许可证有影响。随着讨论的进行,我们意识到这个条件非常严格,并且严重限制了开发模型的可能性。

我们目前的分析是,OSAID 0.8 版本中定义的条件足以为四项自由,特别是研究模型底层数据访问的自由提供必要的透明度保证。关于数据,它规定必须提供“关于用于训练系统的数据的足够详细的信息,以便熟练的人可以使用相同或相似的数据重新创建基本等效的系统”。即使我们可以同意,在不提供数据集的情况下,这个条件似乎很难满足,但可以设想其他途径,特别是提供合成数据。这些信息应该可以对模型进行几乎所有的研究。

您认为一旦对开源 AI 有了明确的定义,主要好处是什么?

拥有这样一个具有明确、可实施规则的定义,将为模型供应商提供一个具体的框架,用于生产符合开源运动道德规范的模型。

一个附带效应将是帮助“去伪存真”。特别是,检测“开源洗白”的企图。因此,这个定义对于像 LINAGORA 这样希望围绕提供增值 AI 服务构建可持续商业模式的公司来说,是一个结构性要素。

还应该指出的是,这样的定义对于诸如欧洲 IA 法案之类的法规是必要的,该法案为开源生成模型定义了例外情况。这样的立法结构不能满足于模糊的基础。

您认为开源 AI 社区接下来的步骤是什么?

社区需要解决的下一步首先是定义一个认证过程,该过程将正式确定模型的符合性;这个过程可以配备自动化工具。

在第二阶段,提供符合定义的 AI 模型模板以及最佳实践指南也可能很有用,这将有助于模型设计者。

如何参与

OSAID 协同设计过程向所有对协作感兴趣的人开放。有很多种参与方式

  • 加入工作组:成为团队的一份子,根据 OSAID 评估各种模型。
  • 加入论坛:支持和评论草案,记录您对新旧主题的赞同或担忧。
  • 评论最新草案:直接提供对最新草案文件的反馈。
  • 关注每周回顾:订阅我们的新闻通讯和博客以保持最新状态。
  • 加入市政厅会议:参加在线公共市政厅会议以了解更多信息并提出问题。
  • 加入研讨会和预定会议:在世界各地的面对面活动中与 OSI 和其他参与者会面。