Data + AI Summit 的三项要点
几周前,我有幸参加了在旧金山举行的 Data + AI Summit。这是我参加过的最好的会议之一,原因有几个。最主要的原因是它增强了我的信念,即开源模型将在我们的日常生活中发挥重要作用(不仅仅是 API 背后的 ChatGPT)。我能够亲眼目睹开源的力量,以及它如何在不同领域,特别是 AI 领域传播。这不仅仅是我的美好愿望,而是在加速成形的事实。以下是我在 Data + AI Summit 上学到的三件事:
开源社区非常庞大
由 Databricks 组织的 Data + AI Summit 在旧金山 Moscone 会议中心吸引了 12,000 名与会者,以及 75,000 名在线参与者。这些数字非常庞大,可以与 Linux 基金会举办的 CloudNativeCon + KubeCon 等成功的开源活动相媲美。
我有机会与几位与会者交谈,他们都对开源和 AI 充满热情。许多与会者正在为推动该领域的发展做出重要工作,例如 伯克利人工智能研究院 (BAIR) 的成员,他们联合了加州大学伯克利分校在计算机视觉、机器学习、自然语言处理、规划、控制、机器人技术等多个领域的研究人员。峰会汇集了开源开发人员、研究人员和企业的有趣组合。
对开源模型的需求很高
Apache Spark 背后的公司 Databricks 发现,他们现有的客户群对开源模型的需求很高,甚至高于专有模型。得知这一点非常令人惊讶,因为它表明企业 действительно 希望完全拥有自己的 AI 技术栈。
正是出于这个原因,Databricks 在开源模型上投入巨资。几个月前,他们发布了 Dolly 2.0,这是首个用于商业用途的开放、指令遵循大型语言模型 (LLM)。在峰会上,Databricks 首席执行官 Ali Ghodsi 重申了他们对推广开源模型的承诺,将其作为 AI 民主化的一种途径,并且作为这项承诺的一部分,他们宣布以 13 亿美元收购 MosaicML。MosaicML 以其最先进的 MPT 大型语言模型而闻名。
开源模型具有巨大的潜力
在峰会上,有很多有趣的演讲,包括来自 Satya Nadella、Marc Andreessen 和 Eric Schmidt 等知名人士的主题演讲。但是,对我来说,最有趣的演讲是那些展示了开源 LLM 与专有解决方案相比,如何在控制性更强、隐私性更强、成本更低、效果更好和性能更优等方面具有巨大潜力的演讲。
我还惊讶地看到 Databricks 如何将 AI 融入到他们的软件中。到目前为止,您可以选择使用 SQL 或 Python 与 Apache Spark 交互。但是,编写正确的查询或代码通常具有挑战性。因此,我很高兴观看他们演示如何引入英语作为与 Spark 交互的新编程语言。作为用户,通过使用简单的英语来解释您想要完成的任务,AI 助手能够将其翻译成 SQL 或 Python。这将使该软件更易于访问,并将提高所有用户的生产力,从新手到专家。
最终要点
总的来说,参加 Data + AI Summit 是一次美妙的体验。很高兴与开源社区的众多成员联系,并分享我们对更光明未来的热情,在未来,开源模型将在使我们的日常生活更有效率方面发挥关键作用,并帮助我们理解周围不断增长的数据。此外,开源模型将使个人和企业能够完全拥有他们的数据和软件。
如果您有兴趣了解更多关于开源和 AI 的信息,请加入我们的 “深入探讨:定义开源 AI” 系列。在线研讨会的征集提案 (CFP) 现已开放,我们正在寻找讨论开源模型的重要性以及 AI 对社会的影响的提案。