地球资源数据云——数据资源详情

医学生数据集

发布时间:2025-08-15 15:31:05资源ID:712资源类型:免费

医学生数据集是一个包含 100,000 行和 12 列的模拟数据集。该数据集旨在模仿医学教育和研究中常见的现实世界数据。它包括数据中常见的各种预处理问题,例如缺失值、重复和不一致。 数据集描述 数据集由以下列组成: StudentID:每个医学生的唯一标识符。 Gender:学生的性别(例如男、女)。 Age:学生的年龄(岁)。 Ethnicity:学生的种族。 Year:学生的学年。 University:学生就读的大学名称。 GPA:学生的平均绩点。 MCAT Score:学生的医学院入学考试 (MCAT) 成绩。 Clinical Experience:表明学生之前是否有临床经验(是/否)。 Research Experience:表明学生之前是否有研究经验(是/否)。 Publication Count:该学生发表的出版物数量。 Exam Score:标准化体检的表现分数。 数据预处理问题 该数据集是有意创建的,以包含各种预处理问题,例如: 缺失值:某些列可能存在表示为 NaN 的缺失值。 重复项:数据集中可能存在重复记录,代表相同的学生条目。 不一致:数据集的某些列中可能包含不一致或错误的值。 数据使用 该数据集可用于各种目的,包括数据清理和预处理练习、探索数据分析技术以及评估机器学习算法。它提供了一个练习处理医学教育和研究领域经常遇到的现实数据挑战的机会。

医学生数据集

摘要概览

医学生数据集是一个包含 100,000 行和 12 列的模拟数据集。该数据集旨在模仿医学教育和研究中常见的现实世界数据。它包括数据中常见的各种预处理问题,例如缺失值、重复和不一致。 数据集描述 数据集由以下列组成: StudentID:每个医学生的唯一标识符。 Gender:学生的性别(例如男、女)。 Age:学生的年龄(岁)。 Ethnicity:学生的种族。 Year:学生的学年。 University:学生就读的大学名称。 GPA:学生的平均绩点。 MCAT Score:学生的医学院入学考试 (MCAT) 成绩。 Clinical Experience:表明学生之前是否有临床经验(是/否)。 Research Experience:表明学生之前是否有研究经验(是/否)。 Publication Count:该学生发表的出版物数量。 Exam Score:标准化体检的表现分数。 数据预处理问题 该数据集是有意创建的,以包含各种预处理问题,例如: 缺失值:某些列可能存在表示为 NaN 的缺失值。 重复项:数据集中可能存在重复记录,代表相同的学生条目。 不一致:数据集的某些列中可能包含不一致或错误的值。 数据使用 该数据集可用于各种目的,包括数据清理和预处理练习、探索数据分析技术以及评估机器学习算法。它提供了一个练习处理医学教育和研究领域经常遇到的现实数据挑战的机会。