地球资源数据云——数据资源详情

马德里空气质量(2001-2018)

发布时间:2025-08-15 15:31:15资源ID:1946资源类型:免费

近年来,马德里在某些干旱时期的严重污染迫使当局采取措施禁止在市中心使用汽车,并被以此为由建议对该市的城市化进行大幅调整。感谢马德里市议会开放数据网站,已上传的空气质量数据可供公开使用。有多个文件可供使用,包括2001 年至 2018 年登记的每日和每小时的水平历史数据,以及该市用于污染和其他颗粒物分析的站点列表。 然而,当从数据分析和时间序列的角度探索这些数据时,我们发现该格式在某种程度上令人困惑且不常见,并且数据集中的一些设计决策远非最佳:每小时的数据被分割成每月的文件,其中包含这些年来格式略有不同,但同样不常见:行是特定日期的特定度量,每行包含 24 列(一天中每小时一列),其中包含一个控制字符。该控制字符V表示测量是否有效,以及大多数(但不排他)N是否有效。 探索历史数据时的这些障碍可能会破坏开放数据的目的:公开审计、自由探索和用于实验。因此,在 Decide 中,我们发布了我们自己的数据版本,该版本的设计旨在使用通用标准和高性能格式,以便于使用。这允许交付更快、更小、更方便且直观的结构化数据集。 内容 所有数据均从原始文件中提取并进行处理,以形成适合典型 Kaggle 用途的更方便的格式。 虽然原始数据包括不同列的小时数和不同行的测量值,但此版本的结构却相反:每行都带有时间戳,列是在特定站点的该时间点执行的不同测量值。这可以更快地准备时间序列分析和预测任务。 该数据集将站点定义为更高的层次结构级别:可以从文件中单独提取每个单独的站点历史记录以供进一步研究。在每个站点的 DataFrame 内,该站点在 2001/01 - 2018/04 期间记录的所有粒子测量值(如果一直处于活动状态)。并非每个站都拥有相同的设备,因此每个站只能测量颗粒的某个子集。可能的测量及其解释的完整列表(遵循原始解释文档)是: SO_2:二氧化硫含量以 μg/m3 为单位测量。高浓度的二氧化硫会对皮肤和粘膜产生刺激,并使敏感人群的哮喘或心脏病恶化。 CO:一氧化碳水平,以 mg/m3 为单位测量。短时间接触一氧化碳中毒会导致头痛、头晕和精神错乱,长期接触会导致意识丧失、心律失常、癫痫发作甚至死亡。 NO:一氧化氮水平,以 μg/m3 为单位测量。这是一种由机动车辆和燃料燃烧过程产生的高度腐蚀性气体。

马德里空气质量(2001-2018)

摘要概览

近年来,马德里在某些干旱时期的严重污染迫使当局采取措施禁止在市中心使用汽车,并被以此为由建议对该市的城市化进行大幅调整。感谢马德里市议会开放数据网站,已上传的空气质量数据可供公开使用。有多个文件可供使用,包括2001 年至 2018 年登记的每日和每小时的水平历史数据,以及该市用于污染和其他颗粒物分析的站点列表。

然而,当从数据分析和时间序列的角度探索这些数据时,我们发现该格式在某种程度上令人困惑且不常见,并且数据集中的一些设计决策远非最佳:每小时的数据被分割成每月的文件,其中包含这些年来格式略有不同,但同样不常见:行是特定日期的特定度量,每行包含 24 列(一天中每小时一列),其中包含一个控制字符。该控制字符V表示测量是否有效,以及大多数(但不排他)N是否有效。

探索历史数据时的这些障碍可能会破坏开放数据的目的:公开审计、自由探索和用于实验。因此,在 Decide 中,我们发布了我们自己的数据版本,该版本的设计旨在使用通用标准和高性能格式,以便于使用。这允许交付更快、更小、更方便且直观的结构化数据集。

内容

所有数据均从原始文件中提取并进行处理,以形成适合典型 Kaggle 用途的更方便的格式。

虽然原始数据包括不同列的小时数和不同行的测量值,但此版本的结构却相反:每行都带有时间戳,列是在特定站点的该时间点执行的不同测量值。这可以更快地准备时间序列分析和预测任务。

该数据集将站点定义为更高的层次结构级别:可以从文件中单独提取每个单独的站点历史记录以供进一步研究。在每个站点的 DataFrame 内,该站点在 2001/01 - 2018/04 期间记录的所有粒子测量值(如果一直处于活动状态)。并非每个站都拥有相同的设备,因此每个站只能测量颗粒的某个子集。可能的测量及其解释的完整列表(遵循原始解释文档)是:

SO_2:二氧化硫含量以 μg/m3 为单位测量。高浓度的二氧化硫会对皮肤和粘膜产生刺激,并使敏感人群的哮喘或心脏病恶化。

CO:一氧化碳水平,以 mg/m3 为单位测量。短时间接触一氧化碳中毒会导致头痛、头晕和精神错乱,长期接触会导致意识丧失、心律失常、癫痫发作甚至死亡。

NO:一氧化氮水平,以 μg/m3 为单位测量。这是一种由机动车辆和燃料燃烧过程产生的高度腐蚀性气体。