地球资源数据云——数据资源详情
信用卡公司能够识别欺诈性信用卡交易非常重要,这样客户就不会因未购买的商品而被收取费用。 内容 该数据集包含欧洲持卡人 2013 年 9 月通过信用卡进行的交易。 该数据集显示了两天内发生的交易,其中 284,807 笔交易中有 492 笔欺诈。数据集高度不平衡,正类(欺诈)占所有交易的 0.172%。 它仅包含作为 PCA 变换结果的数字输入变量。不幸的是,由于保密问题,我们无法提供有关数据的原始特征和更多背景信息。特征 V1、V2、…V28 是通过 PCA 获得的主要成分,唯一未通过 PCA 转换的特征是“时间”和“金额”。特征“时间”包含数据集中每个事务与第一个事务之间经过的秒数。特征“金额”是交易金额,该特征可用于示例相关的成本敏感学习。特征“类别”是响应变量,如果存在欺诈,则取值 1,否则取值 0。 考虑到类别不平衡率,我们建议使用精确率 - 召回率曲线下面积 (AUPRC) 来测量准确度。混淆矩阵精度对于不平衡分类没有意义。

信用卡公司能够识别欺诈性信用卡交易非常重要,这样客户就不会因未购买的商品而被收取费用。
内容
该数据集包含欧洲持卡人 2013 年 9 月通过信用卡进行的交易。
该数据集显示了两天内发生的交易,其中 284,807 笔交易中有 492 笔欺诈。数据集高度不平衡,正类(欺诈)占所有交易的 0.172%。
它仅包含作为 PCA 变换结果的数字输入变量。不幸的是,由于保密问题,我们无法提供有关数据的原始特征和更多背景信息。特征 V1、V2、…V28 是通过 PCA 获得的主要成分,唯一未通过 PCA 转换的特征是“时间”和“金额”。特征“时间”包含数据集中每个事务与第一个事务之间经过的秒数。特征“金额”是交易金额,该特征可用于示例相关的成本敏感学习。特征“类别”是响应变量,如果存在欺诈,则取值 1,否则取值 0。
考虑到类别不平衡率,我们建议使用精确率 - 召回率曲线下面积 (AUPRC) 来测量准确度。混淆矩阵精度对于不平衡分类没有意义。