地球资源数据云——数据资源详情
下面的数据集是使用自定义抓取工具于2022 年 4 月 30 日从 bikez.com 提取的,目的是丰富黑客马拉松比赛的现有二手摩托车数据集。这些数据集非常适合探索性数据分析,而标题为“数据集”的数据集all_bikez_raw.csv特别适合练习数据清理技能。这些数据集还极大丰富了Nehal Birla 和 Nishant Verma 的二手摩托车销售数据集。 内容 有两个不同的主要数据集以及一个参考文件。all_bikez_raw.csv包含与从源网站(如下引用)中抓取的数据完全相同的数据。all_bikez_curated.csv是原始数据集经过初始预处理阶段后剩下的内容,其中仅保留最可用、最相关的属性。其中许多属性都经过了一些格式清理,但仍有一些工作要做。最后但并非最不重要bikez_brands.csv的是一个单列 CSV,其中包含源网站上存在的摩托车的所有品牌名称。我使用这个品牌列表来从原始数据集的“模型”列中提取品牌名称 - 这项任务对我来说出乎意料地具有挑战性。 下面显示了此 Kaggle 数据集中所有文件的大小,以及_curated.csv文件的属性列表及其描述摘要: all_bikez_raw.csv - 38472 个观察值 x 85 个属性 all_bikez_curated.csv - 38472 个观察值 x 28 个属性 bikez_brands.csv - 583 个独特的观察结果 Brand——摩托车的品牌名称 Model——摩托车的型号名称 摩托车的制造年份

下面的数据集是使用自定义抓取工具于2022 年 4 月 30 日从 bikez.com 提取的,目的是丰富黑客马拉松比赛的现有二手摩托车数据集。这些数据集非常适合探索性数据分析,而标题为“数据集”的数据集all_bikez_raw.csv特别适合练习数据清理技能。这些数据集还极大丰富了Nehal Birla 和 Nishant Verma 的二手摩托车销售数据集。
内容
有两个不同的主要数据集以及一个参考文件。all_bikez_raw.csv包含与从源网站(如下引用)中抓取的数据完全相同的数据。all_bikez_curated.csv是原始数据集经过初始预处理阶段后剩下的内容,其中仅保留最可用、最相关的属性。其中许多属性都经过了一些格式清理,但仍有一些工作要做。最后但并非最不重要bikez_brands.csv的是一个单列 CSV,其中包含源网站上存在的摩托车的所有品牌名称。我使用这个品牌列表来从原始数据集的“模型”列中提取品牌名称 - 这项任务对我来说出乎意料地具有挑战性。
下面显示了此 Kaggle 数据集中所有文件的大小,以及_curated.csv文件的属性列表及其描述摘要:
all_bikez_raw.csv - 38472 个观察值 x 85 个属性
all_bikez_curated.csv - 38472 个观察值 x 28 个属性
bikez_brands.csv - 583 个独特的观察结果
Brand——摩托车的品牌名称
Model——摩托车的型号名称
摩托车的制造年份