地球资源数据云——数据资源详情
该数据集包含 282,472 个灰度图像,每个图像尺寸为 40 x 40 像素,描绘了 82 个不同的德语字符、数字和数学符号。 与图像对齐变化的 MNIST 数据集相反,该数据集中的所有图像都完美对齐。它们位于 40 x 40 边界框的中心,确保它们接触左侧和右侧或顶部和底部边框。这种一致性显着简化了训练任务,从而实现了出色的性能指标。 训练和测试数据存储在两个单独的 CSV 文件中。在每个文件中,第一列代表 Unicode 字符,而随后的 1600 个值对应于拼合图像的灰度值。如果您发现任何不清楚的地方,请参阅我们随附的代码,该代码提供了在 PyTorch 中训练 CNN 的全面逻辑。您可以轻松选择您想要培训的特定课程。值得注意的是,当专门对 0 到 9 的数字进行训练时,我们在测试数据上实现了令人印象深刻的准确率和大约 99% 的马修斯相关系数 (MCC)。您可以在随附的笔记本中找到 PyTorch 分类器的代码或在此处克隆它。 数据集的类别分布 分布整个数据集 分布列车数据集 分布测试数据集 数据集的生成 该数据集由大约 1000 名 11 至 19 岁的德国高中生共同策划。所有字符均通过经过调整和优化的洪水填充算法检测和提取,并缩放至 40 x 40 像素图像。您可以在这里找到德语解说视频:https://youtu.be/NvfL90UcdU4 ?t=218

该数据集包含 282,472 个灰度图像,每个图像尺寸为 40 x 40 像素,描绘了 82 个不同的德语字符、数字和数学符号。
与图像对齐变化的 MNIST 数据集相反,该数据集中的所有图像都完美对齐。它们位于 40 x 40 边界框的中心,确保它们接触左侧和右侧或顶部和底部边框。这种一致性显着简化了训练任务,从而实现了出色的性能指标。
训练和测试数据存储在两个单独的 CSV 文件中。在每个文件中,第一列代表 Unicode 字符,而随后的 1600 个值对应于拼合图像的灰度值。如果您发现任何不清楚的地方,请参阅我们随附的代码,该代码提供了在 PyTorch 中训练 CNN 的全面逻辑。您可以轻松选择您想要培训的特定课程。值得注意的是,当专门对 0 到 9 的数字进行训练时,我们在测试数据上实现了令人印象深刻的准确率和大约 99% 的马修斯相关系数 (MCC)。您可以在随附的笔记本中找到 PyTorch 分类器的代码或在此处克隆它。
数据集的类别分布
分布整个数据集 分布列车数据集 分布测试数据集
数据集的生成
该数据集由大约 1000 名 11 至 19 岁的德国高中生共同策划。所有字符均通过经过调整和优化的洪水填充算法检测和提取,并缩放至 40 x 40 像素图像。您可以在这里找到德语解说视频:https://youtu.be/NvfL90UcdU4 ?t=218