地球资源数据云——数据资源详情

心脏病指标(2022 年更新)

发布时间:2025-08-15 15:31:14资源ID:1779资源类型:免费

心脏病的主要指标 2022 年 CDC 年度 40 万以上成年人健康状况调查数据 数据集涵盖什么主题? 根据疾病预防控制中心的数据,心脏病是美国大多数种族(非裔美国人、美洲印第安人和阿拉斯加原住民以及白人)的主要原因。大约一半的美国人 (47%) 至少患有心脏病的 3 个主要危险因素中的 1 个:高血压、高胆固醇和吸烟。其他关键指标包括糖尿病状况、肥胖(高体重指数)、身体活动不足或饮酒过多。识别和预防对心脏病影响最大的因素对于医疗保健非常重要。反过来,计算的发展允许应用机器学习方法来检测数据中的“模式”,从而预测患者的病情。 数据集从哪里来,经过了哪些处理? 该数据集最初来自 CDC,是行为风险因素监测系统 (BRFSS) 的主要组成部分,该系统每年进行电话调查,收集有关美国居民健康状况的数据。正如CDC所描述的那样:“BRFSS 于 1984 年成立,覆盖 15 个州,现在收集所有 50 个州、哥伦比亚特区和三个美国领地的数据。BRFSS 每年完成超过 400,000 名成人访谈,使其成为最大的连续开展的健康调查世界上的调查系统。最新的数据集包括2023年的数据。在这个数据集中,我注意到很多直接或间接影响心脏病的因素(问题),所以我决定从中选择最相关的变量。我还决定与您分享最新数据集的两个版本:带 NaN 的和不带 NaN 的。 你可以用这个数据集做什么? 如上所述,原始数据集近300个变量减少到40个变量。除了经典的 EDA 之外,该数据集还可用于应用多种机器学习方法,特别是分类器模型(逻辑回归、SVM、随机森林等)。您应该将变量“HadHeartAttack”视为二元(“是” - 受访者患有心脏病;“否” - 受访者没有心脏病)。但请注意,类是不平衡的,因此应用模型的经典方法并不可取。固定权重/欠采样应该会产生更好的结果。根据数据集,我构建了一个逻辑回归模型,并将其嵌入到一个可能会启发您的应用程序中: https: //share.streamlit.io/kamilpytlak/heart - condition - checker/main/app.py。您能指出哪些变量对心脏病的可能性有显着影响吗?

心脏病指标(2022 年更新)

摘要概览

心脏病的主要指标

2022 年 CDC 年度 40 万以上成年人健康状况调查数据

数据集涵盖什么主题?

根据疾病预防控制中心的数据,心脏病是美国大多数种族(非裔美国人、美洲印第安人和阿拉斯加原住民以及白人)的主要原因。大约一半的美国人 (47%) 至少患有心脏病的 3 个主要危险因素中的 1 个:高血压、高胆固醇和吸烟。其他关键指标包括糖尿病状况、肥胖(高体重指数)、身体活动不足或饮酒过多。识别和预防对心脏病影响最大的因素对于医疗保健非常重要。反过来,计算的发展允许应用机器学习方法来检测数据中的“模式”,从而预测患者的病情。

数据集从哪里来,经过了哪些处理?

该数据集最初来自 CDC,是行为风险因素监测系统 (BRFSS) 的主要组成部分,该系统每年进行电话调查,收集有关美国居民健康状况的数据。正如CDC所描述的那样:“BRFSS 于 1984 年成立,覆盖 15 个州,现在收集所有 50 个州、哥伦比亚特区和三个美国领地的数据。BRFSS 每年完成超过 400,000 名成人访谈,使其成为最大的连续开展的健康调查世界上的调查系统。最新的数据集包括2023年的数据。在这个数据集中,我注意到很多直接或间接影响心脏病的因素(问题),所以我决定从中选择最相关的变量。我还决定与您分享最新数据集的两个版本:带 NaN 的和不带 NaN 的。

你可以用这个数据集做什么?

如上所述,原始数据集近300个变量减少到40个变量。除了经典的 EDA 之外,该数据集还可用于应用多种机器学习方法,特别是分类器模型(逻辑回归、SVM、随机森林等)。您应该将变量“HadHeartAttack”视为二元(“是” - 受访者患有心脏病;“否” - 受访者没有心脏病)。但请注意,类是不平衡的,因此应用模型的经典方法并不可取。固定权重/欠采样应该会产生更好的结果。根据数据集,我构建了一个逻辑回归模型,并将其嵌入到一个可能会启发您的应用程序中: https: //share.streamlit.io/kamilpytlak/heart - condition - checker/main/app.py。您能指出哪些变量对心脏病的可能性有显着影响吗?