观点 – 开源促进会 - 开源促进会

开放数据和开源人工智能：规划一条道路以获得更多

开源促进会组织了一次研讨会，讨论用于人工智能训练的数据共享和治理。这是几周后即将发布的白皮书的预告。

这篇文章阐明了开源人工智能定义的草案如何达到当前状态，数据信息概念背后的设计原则以及其运作所受的约束（法律和技术）。

在布鲁塞尔的CPDP-ai会议上，我作为小组成员讨论了开源人工智能在数据、硬件、大型科技公司和政府法规方面面临的挑战。

Common Corpus是一个用于训练大型语言模型（LLM）的公共领域数据集。它拥有5000亿个单词，涵盖多种语言，来源于各种文化倡议，为研究人员提供了开发更小、更高效的LLM的强大工具。不应将其滥用为推广扩大版权法范围的公共政策的工具。

欧盟委员会最近发布了与《网络弹性法案》（CRA）相关的标准请求的公开草案。对于那些依赖于整合或创建开源软件的人来说，这里有一个令人鼓舞的新进展。在欧洲的标准请求中，首次明确要求尊重开源开发者和用户的需求。

欧盟人工智能法案的演变正朝着技术中立的人工智能定义迈进，该定义将应用于未来的人工智能系统。在未来几个月，多个国家将就精确的法律定义达成一致，这些定义反映了人工智能在欧洲将被允许和不被允许扮演的角色的道德考量，这在欧洲尚属首次。而正式定义人工智能是一个持续的辩论。

新报告从历史角度探讨了“延迟开源发布”（DOSP），即延迟发布开源许可证下代码的做法。

开源社区不应编写自己的人工智能系统定义，因为这样做存在太多危险。采用一个完善的定义更安全。

人们开始思考，“我们喜欢开源软件，所以，我们也应该有开源人工智能。”

但是什么是开源人工智能？答案是：我们还不知道。