地球资源数据云——数据资源详情
本数据集基于 figshare 、 ScienceDB 、 Zenodo 和 Mendeley Data 等公开仓库中可直接下载使用的结构化数据表,对中国土壤重金属观测记录进行清洗、标准化和汇总,形成全金属版与论文七金属版两套结果。全金属版覆盖 As 、 Cd 、 Co 、 Cr 、 Cu 、 Hg 、 Mn 、 Ni 、 Pb 、 Sb 、 V 和 Zn 共 12 种金属,包含 42,310 条重金属测量记录和 21,388 条样点 / 记录;论文七金属版保留 As 、 Cd 、 Co 、 Cr 、 Cu 、 Ni 、 Pb ,包含 33,307 条记录和 18,008 条样点 / 记录。数据处理过程中统一了介质类型、浓度单位、金属缩写、 CAS 编号和样点编号规则,并尽可能保留来源 DOI 、原始研究题名、空间坐标、土地利用和土壤性质等信息。该数据集可为中国土壤重金属污染整理、空间分析、统计建模及论文复现提供即用型基础数据。 关键词 : 中国土壤;重金属 引 言 土壤重金属污染研究通常涉及多区域、多金属和多来源资料,但现有公开数据往往分散存储于不同数据仓库中,字段命名、单位表达和样点组织方式也并不统一。对于需要开展全国尺度现状整理、区域比较、空间制图或论文复现的研究者而言,直接使用原始下载文件通常需要额外投入大量清洗与标准化工作。 为提高中国土壤重金属公开数据的可复用性,本工作从多个公开仓库中筛选可直接使用的土壤观测表,对其进行统一字段映射、长宽表转换、来源信息保留和辅助汇总,最终构建形成一套标准化的中国土壤重金属汇总数据集。该数据集既保留了全金属版的尽可能完整覆盖,也提供了与目标论文分析对象一致的七金属子集,可为后续统计分析和 GIS 应用提供更直接的数据基础。 1 数据采集和处理方法 1.1 数据采集方法 本数据集共纳入 7 个与中国土壤重金属直接相关且以结构化表格形式提供原始观测值的公开数据源,分别来自 figshare 、 ScienceDB 、 Zenodo 和 Mendeley Data 4 个仓库。纳入的数据包括长江流域土壤重金属地理定位数据、中国土壤重金属污染概率建模补充数据、中国土壤镉生物可给性及浓度汇编数据、西北中国农业土壤重金属数据、秦岭北麓土壤重金属数据、中国 33 个研究点位土壤重金属数据,以及 ScienceDB 中国典型固体环境介质污染物浓度数据集中的土壤子集。筛选过程中仅保留可直接下载、明确包含土壤介质观测记录、且字段足以识别金属种类和浓度值的数据表。 未纳入本次汇总的数据主要包括仅提供背景值或统计值而缺少原始观测记录的数据、仅以论文附件或文档形式提供而缺少结构化表格的数据,以及虽有元数据但下载仍需登录或申请权限的数据。 1.2 数据处理

本数据集基于 figshare 、 ScienceDB 、 Zenodo 和 Mendeley Data 等公开仓库中可直接下载使用的结构化数据表,对中国土壤重金属观测记录进行清洗、标准化和汇总,形成全金属版与论文七金属版两套结果。全金属版覆盖 As 、 Cd 、 Co 、 Cr 、 Cu 、 Hg 、 Mn 、 Ni 、 Pb 、 Sb 、 V 和 Zn 共 12 种金属,包含 42,310 条重金属测量记录和 21,388 条样点 / 记录;论文七金属版保留 As 、 Cd 、 Co 、 Cr 、 Cu 、 Ni 、 Pb ,包含 33,307 条记录和 18,008 条样点 / 记录。数据处理过程中统一了介质类型、浓度单位、金属缩写、 CAS 编号和样点编号规则,并尽可能保留来源 DOI 、原始研究题名、空间坐标、土地利用和土壤性质等信息。该数据集可为中国土壤重金属污染整理、空间分析、统计建模及论文复现提供即用型基础数据。
关键词 : 中国土壤;重金属
引 言
土壤重金属污染研究通常涉及多区域、多金属和多来源资料,但现有公开数据往往分散存储于不同数据仓库中,字段命名、单位表达和样点组织方式也并不统一。对于需要开展全国尺度现状整理、区域比较、空间制图或论文复现的研究者而言,直接使用原始下载文件通常需要额外投入大量清洗与标准化工作。
为提高中国土壤重金属公开数据的可复用性,本工作从多个公开仓库中筛选可直接使用的土壤观测表,对其进行统一字段映射、长宽表转换、来源信息保留和辅助汇总,最终构建形成一套标准化的中国土壤重金属汇总数据集。该数据集既保留了全金属版的尽可能完整覆盖,也提供了与目标论文分析对象一致的七金属子集,可为后续统计分析和 GIS 应用提供更直接的数据基础。
1 数据采集和处理方法
1.1 数据采集方法
本数据集共纳入 7 个与中国土壤重金属直接相关且以结构化表格形式提供原始观测值的公开数据源,分别来自 figshare 、 ScienceDB 、 Zenodo 和 Mendeley Data 4 个仓库。纳入的数据包括长江流域土壤重金属地理定位数据、中国土壤重金属污染概率建模补充数据、中国土壤镉生物可给性及浓度汇编数据、西北中国农业土壤重金属数据、秦岭北麓土壤重金属数据、中国 33 个研究点位土壤重金属数据,以及 ScienceDB 中国典型固体环境介质污染物浓度数据集中的土壤子集。筛选过程中仅保留可直接下载、明确包含土壤介质观测记录、且字段足以识别金属种类和浓度值的数据表。
未纳入本次汇总的数据主要包括仅提供背景值或统计值而缺少原始观测记录的数据、仅以论文附件或文档形式提供而缺少结构化表格的数据,以及虽有元数据但下载仍需登录或申请权限的数据。
1.2 数据处理