地球资源数据云——数据资源详情
描述 NIDDK(国家糖尿病、消化和肾脏疾病研究所)的研究创造了有关最慢性、最昂贵和后果最严重的疾病的知识和治疗方法。 本项目使用的数据集最初来自NIDDK。目的是根据数据集中包含的某些诊断测量结果来预测患者是否患有糖尿病。 构建模型来准确预测数据集中的患者是否患有糖尿病。 数据集描述 该数据集由多个医学预测变量和一个目标变量(结果)组成。预测变量包括患者怀孕次数、体重指数、胰岛素水平、年龄等。 变量 说明 怀孕 怀孕次数 葡萄糖 口服葡萄糖耐量试验中的血浆葡萄糖浓度 血压 舒张压 (mm Hg) 皮肤厚度 三头肌皮褶厚度 (mm) 胰岛素 两小时血清胰岛素 BMI 体重指数 糖尿病谱系函数 糖尿病谱系函数 年龄 年龄(以年为单位 ) 结果类变量(0 或 1)。768 个值中有 268 个为 1,其他为 0 项目任务:第 1 周 数据探索: 进行描述性分析。了解变量及其相应的值。在下面的列中,零值没有意义,因此表示缺失值: 葡萄糖 血压 皮厚 胰岛素 体重指数 使用直方图直观地探索这些变量。相应地处理缺失值。 该数据集中有整数和浮点数据类型变量。创建描述数据类型和变量计数的计数(频率)图。 数据探索: 通过按结果的值绘制结果计数来检查数据的平衡。描述您的发现并计划未来的行动方案。 在变量对之间创建散点图以了解关系。描述你的发现。 进行相关性分析。使用热图直观地探索它。 项目任务:第 2 周 数据建模: 制定模型构建策略。决定正确的验证框架很重要。表达你的思维过程。 应用适当的分类算法来构建模型。 将各种模型与 KNN 算法的结果进行比较。 通过分析敏感性、特异性、AUC(ROC曲线)等创建分类报告。 请描述性地解释您使用的这些参数的值。 数据报告: 通过选择对业务有用的适当图表类型和指标,在 Tableau 中创建仪表板。仪表板必须包含以下内容: 描述糖尿病或非糖尿病人群的饼图 相关变量之间的散点图以分析关系 用于分析数据分布的直方图或频率图 相关变量之间相关性分析热图 创建这些年龄值的箱:20 - 25、25 - 30、30 - 35 等。使用气泡图分析这些年龄段的不同变量。

描述 NIDDK(国家糖尿病、消化和肾脏疾病研究所)的研究创造了有关最慢性、最昂贵和后果最严重的疾病的知识和治疗方法。 本项目使用的数据集最初来自NIDDK。目的是根据数据集中包含的某些诊断测量结果来预测患者是否患有糖尿病。 构建模型来准确预测数据集中的患者是否患有糖尿病。 数据集描述 该数据集由多个医学预测变量和一个目标变量(结果)组成。预测变量包括患者怀孕次数、体重指数、胰岛素水平、年龄等。 变量 说明 怀孕 怀孕次数 葡萄糖 口服葡萄糖耐量试验中的血浆葡萄糖浓度 血压 舒张压 (mm Hg) 皮肤厚度 三头肌皮褶厚度 (mm) 胰岛素 两小时血清胰岛素 BMI 体重指数 糖尿病谱系函数 糖尿病谱系函数 年龄 年龄(以年为单位 ) 结果类变量(0 或 1)。768 个值中有 268 个为 1,其他为 0 项目任务:第 1 周 数据探索: 进行描述性分析。了解变量及其相应的值。在下面的列中,零值没有意义,因此表示缺失值: 葡萄糖 血压 皮厚 胰岛素 体重指数 使用直方图直观地探索这些变量。相应地处理缺失值。 该数据集中有整数和浮点数据类型变量。创建描述数据类型和变量计数的计数(频率)图。 数据探索: 通过按结果的值绘制结果计数来检查数据的平衡。描述您的发现并计划未来的行动方案。 在变量对之间创建散点图以了解关系。描述你的发现。 进行相关性分析。使用热图直观地探索它。 项目任务:第 2 周 数据建模: 制定模型构建策略。决定正确的验证框架很重要。表达你的思维过程。 应用适当的分类算法来构建模型。 将各种模型与 KNN 算法的结果进行比较。 通过分析敏感性、特异性、AUC(ROC曲线)等创建分类报告。 请描述性地解释您使用的这些参数的值。 数据报告: 通过选择对业务有用的适当图表类型和指标,在 Tableau 中创建仪表板。仪表板必须包含以下内容: 描述糖尿病或非糖尿病人群的饼图 相关变量之间的散点图以分析关系 用于分析数据分布的直方图或频率图 相关变量之间相关性分析热图 创建这些年龄值的箱:20 - 25、25 - 30、30 - 35 等。使用气泡图分析这些年龄段的不同变量。