地球资源数据云——数据资源详情
受到典型的房价入门竞赛和流行的墨尔本住房数据集的启发,该数据集捕获了马来西亚住房网站mudah.my上的 4K+ 公寓单位列表。 与上面的数据集一样,您的工作是在给定某些参数的情况下预测房价。 使用此数据收集笔记本直接从网站上抓取数据。我将来可能会调整代码以包含房屋,但由于必须等待网站加载并且必须超时以考虑 CloudFlare 的保护,因此抓取数据需要一段时间。 注意:与上述两个数据集中的数据相比,该数据的干净程度和组织性要差得多。然而,这是练习数据清理技术的好机会,因为这是 Kaggle 上经常被忽视的事情。话虽这么说,我制作了一个入门笔记本,它执行数据清理步骤并输出数据集的相当干净的版本。 数据说明 description:单位列表的完整(未经过滤)描述。 Ad List:网站上列表的 ID。 Category:列表的类别。它很可能是Apartment / Condominium。 Facilities:公寓拥有的设施,以逗号分隔列表。 Building Name: 建筑物的名称。

受到典型的房价入门竞赛和流行的墨尔本住房数据集的启发,该数据集捕获了马来西亚住房网站mudah.my上的 4K+ 公寓单位列表。
与上面的数据集一样,您的工作是在给定某些参数的情况下预测房价。
使用此数据收集笔记本直接从网站上抓取数据。我将来可能会调整代码以包含房屋,但由于必须等待网站加载并且必须超时以考虑 CloudFlare 的保护,因此抓取数据需要一段时间。
注意:与上述两个数据集中的数据相比,该数据的干净程度和组织性要差得多。然而,这是练习数据清理技术的好机会,因为这是 Kaggle 上经常被忽视的事情。话虽这么说,我制作了一个入门笔记本,它执行数据清理步骤并输出数据集的相当干净的版本。
数据说明
description:单位列表的完整(未经过滤)描述。
Ad List:网站上列表的 ID。
Category:列表的类别。它很可能是Apartment / Condominium。
Facilities:公寓拥有的设施,以逗号分隔列表。
Building Name: 建筑物的名称。