为什么构建在公共领域的数据集可能不足以满足人工智能的需求

Common Corpus 是一个用于训练大型语言模型 (LLM) 的公共领域数据集。它拥有 5000 亿个单词,涵盖多种语言,源自各种文化倡议,为研究人员提供了开发更小、更高效的 LLM 的强大工具。它不应被滥用为推广扩大版权法范围的公共政策的工具。