通过 ClearlyDefined 更好识别 conda 包
ClearlyDefined 是一个开源项目,旨在帮助组织进行供应链合规性管理。现在,它为 conda 提供了一个新的 harvester 实现。Conda 是一个流行的包管理器,拥有大量预构建的包,适用于各种领域,包括数据科学、机器学习、科学计算等。
Conda 为任何语言提供包、依赖项和环境管理,在 Python 和 R 中非常流行。它允许用户管理和控制每个项目特定的包依赖项和版本,确保可重现性并避免不同软件需求之间的冲突。
ClearlyDefined 抓取主要的 conda 包和源代码以获取许可元数据。主要的 conda 包托管在 conda 频道本身上,包含使包工作所需的所有必要许可信息、编译器、环境配置文件脚本和依赖项。创建 conda 包的源代码通常托管在外部网站上,例如 GitHub。
conda 爬虫使用以下 坐标
- 类型(必需):conda 或 condasource
- 提供者(必需):要爬取的包所在的频道,例如 conda-forge、anaconda-main 或 anaconda-r
- 命名空间(可选):要爬取的包的架构和操作系统,例如 win64、linux-aarch64 或 any(如果未指定架构)。
- 包名称(必需):包的名称
- 修订版(可选):包版本和可选的构建版本
例如,流行的 numpy 包表示如下所示。

随着数据科学、机器学习和科学计算重要性的日益增加,ClearlyDefined 对 conda 包的支持极其重要。它将使组织能够更好地管理其 conda 包的许可证以实现合规性。这项工作由来自 Codethink 的 Basit Ayantunde 领导,并由来自 SAP 的 Qing Tomlison 负责指导。我们感谢他们以及所有参与此实现开发和测试的人员。
我们正在寻求反馈。请在 dev.clearlydefined.io 或 dev-api.clearlydefined.io 上测试此功能,并在 此处 提交任何问题。