地球资源数据云——数据资源详情
该数据集《Pima Indians Diabetes Dataset》主要用于回归/预测任务,数据形态以文本为主,应用场景偏向医疗健康。 题目说明:Predict the chances of diabetes based on different features 任务类型:文本回归/预测。 建议流程:先做文本清洗与分词,再比较 TF - IDF+线性模型 与 预训练语言模型。 评估建议:使用分层切分或交叉验证,优先关注 F1、Recall、AUC 等分类指标。 可用文件:diabetes.csv。 背景未处理的数据集是从 UCI 机器学习组织获取的。该数据集由我预处理,最初来自国家糖尿病、消化和肾脏疾病研究所。该数据集的目标是根据数据集中包含的多个特征准确预测患者是否患有糖尿病。我使用此数据集通过随机森林分类器获得了 92.86% 的准确度指标得分。我什至使用该训练模型开发了一个网络服务糖尿病预测系统。您可以浏览探索性数据分析笔记本以更好地理解数据。属性 正常值范围 - 血糖:血糖 (< 140) = 正常,血糖 (140 - 200) = 糖尿病前期,血糖 (> 200) = 糖尿病 - 血压:血压 (< 60) = 低于正常值,血压 (60 - 80) = 正常,血压 (80 - 90) = 1 期高血压,血压 (90 - 120) = 2 期高血压,B.P (> 120) = 高血压危象 - SkinThickness:SkinThickness (< 10) = 低于正常,SkinThickness (10 - 30) = 正常,SkinThickness (> 30) = 高于正常 - 胰岛素:胰岛素 (< 200) = 正常,胰岛素 (> 200) = 高于正常 BMI:BMI (< 18.5) = 体重不足, BMI (18.5 - 25) = 正常,BMI (25 - 30) = 超重,BMI (> 30) = 肥胖 致谢 J. W. Smith、J. E. Everhart、W. C. Dickson、W. C. Knowler 和 R. S. Johannes,“使用 ADAP 学习算法预测糖尿病的发作”,Proc.计算机应用和医疗保健研讨会,第 261 - 265 页。 IEEE 计算机协会出版社。 1988 年。灵感在原始数据集上训练了多个模型,但只有随机森林分类器能够获得 78.57% 的准确度指标,但使用这个新的预处理数据集,获得了 92.86% 的准确度指标得分。你能建立一个机器学习模型来准确预测患者是否患有糖尿病吗?您能否在不过度拟合模型的情况下获得高于 92.86% 的准确度指标分数?

该数据集《Pima Indians Diabetes Dataset》主要用于回归/预测任务,数据形态以文本为主,应用场景偏向医疗健康。 题目说明:Predict the chances of diabetes based on different features
任务类型:文本回归/预测。
建议流程:先做文本清洗与分词,再比较 TF - IDF+线性模型 与 预训练语言模型。
评估建议:使用分层切分或交叉验证,优先关注 F1、Recall、AUC 等分类指标。
可用文件:diabetes.csv。
背景未处理的数据集是从 UCI 机器学习组织获取的。该数据集由我预处理,最初来自国家糖尿病、消化和肾脏疾病研究所。该数据集的目标是根据数据集中包含的多个特征准确预测患者是否患有糖尿病。我使用此数据集通过随机森林分类器获得了 92.86% 的准确度指标得分。我什至使用该训练模型开发了一个网络服务糖尿病预测系统。您可以浏览探索性数据分析笔记本以更好地理解数据。属性 正常值范围 - 血糖:血糖 (< 140) = 正常,血糖 (140 - 200) = 糖尿病前期,血糖 (> 200) = 糖尿病 - 血压:血压 (< 60) = 低于正常值,血压 (60 - 80) = 正常,血压 (80 - 90) = 1 期高血压,血压 (90 - 120) = 2 期高血压,B.P (> 120) = 高血压危象 - SkinThickness:SkinThickness (< 10) = 低于正常,SkinThickness (10 - 30) = 正常,SkinThickness (> 30) = 高于正常 - 胰岛素:胰岛素 (< 200) = 正常,胰岛素 (> 200) = 高于正常 BMI:BMI (< 18.5) = 体重不足, BMI (18.5 - 25) = 正常,BMI (25 - 30) = 超重,BMI (> 30) = 肥胖 致谢 J. W. Smith、J. E. Everhart、W. C. Dickson、W. C. Knowler 和 R. S. Johannes,“使用 ADAP 学习算法预测糖尿病的发作”,Proc.计算机应用和医疗保健研讨会,第 261 - 265 页。 IEEE 计算机协会出版社。 1988 年。灵感在原始数据集上训练了多个模型,但只有随机森林分类器能够获得 78.57% 的准确度指标,但使用这个新的预处理数据集,获得了 92.86% 的准确度指标得分。你能建立一个机器学习模型来准确预测患者是否患有糖尿病吗?您能否在不过度拟合模型的情况下获得高于 92.86% 的准确度指标分数?