地球资源数据云——数据资源详情

德语字符识别数据集

Name: 德语字符识别数据集
Published: 2025-08-15 15:31:14

发布时间：2025-08-15 15:31:14资源ID：1752资源类型：免费

该数据集包含 282,472 个灰度图像，每个图像尺寸为 40 x 40 像素，描绘了 82 个不同的德语字符、数字和数学符号。与图像对齐变化的 MNIST 数据集相反，该数据集中的所有图像都完美对齐。它们位于 40 x 40 边界框的中心，确保它们接触左侧和右侧或顶部和底部边框。这种一致性显着简化了训练任务，从而实现了出色的性能指标。训练和测试数据存储在两个单独的 CSV 文件中。在每个文件中，第一列代表 Unicode 字符，而随后的 1600 个值对应于拼合图像的灰度值。如果您发现任何不清楚的地方，请参阅我们随附的代码，该代码提供了在 PyTorch 中训练 CNN 的全面逻辑。您可以轻松选择您想要培训的特定课程。值得注意的是，当专门对 0 到 9 的数字进行训练时，我们在测试数据上实现了令人印象深刻的准确率和大约 99% 的马修斯相关系数 (MCC)。您可以在随附的笔记本中找到 PyTorch 分类器的代码或在此处克隆它。数据集的类别分布分布整个数据集分布列车数据集分布测试数据集数据集的生成该数据集由大约 1000 名 11 至 19 岁的德国高中生共同策划。所有字符均通过经过调整和优化的洪水填充算法检测和提取，并缩放至 40 x 40 像素图像。您可以在这里找到德语解说视频：https://youtu.be/NvfL90UcdU4 ?t=218

摘要概览

该数据集包含 282,472 个灰度图像，每个图像尺寸为 40 x 40 像素，描绘了 82 个不同的德语字符、数字和数学符号。

与图像对齐变化的 MNIST 数据集相反，该数据集中的所有图像都完美对齐。它们位于 40 x 40 边界框的中心，确保它们接触左侧和右侧或顶部和底部边框。这种一致性显着简化了训练任务，从而实现了出色的性能指标。

训练和测试数据存储在两个单独的 CSV 文件中。在每个文件中，第一列代表 Unicode 字符，而随后的 1600 个值对应于拼合图像的灰度值。如果您发现任何不清楚的地方，请参阅我们随附的代码，该代码提供了在 PyTorch 中训练 CNN 的全面逻辑。您可以轻松选择您想要培训的特定课程。值得注意的是，当专门对 0 到 9 的数字进行训练时，我们在测试数据上实现了令人印象深刻的准确率和大约 99% 的马修斯相关系数 (MCC)。您可以在随附的笔记本中找到 PyTorch 分类器的代码或在此处克隆它。

数据集的类别分布

分布整个数据集分布列车数据集分布测试数据集

数据集的生成

该数据集由大约 1000 名 11 至 19 岁的德国高中生共同策划。所有字符均通过经过调整和优化的洪水填充算法检测和提取，并缩放至 40 x 40 像素图像。您可以在这里找到德语解说视频：https://youtu.be/NvfL90UcdU4 ?t=218

常见问题

德语字符识别数据集是什么？

该数据集包含 282,472个灰度图像，每个图像尺寸为 40 x 40 像素，描绘了 82个不同的德语字符、数字和数学符号。

德语字符识别数据集是什么数据格式？坐标系是什么？

数据格式为 CSV。

德语字符识别数据集是如何生产或处理的？

所有字符均通过经过调整和优化的洪水填充算法检测和提取，并缩放至 40 x 40 像素图像。

如何获取并引用德语字符识别数据集？

在本页登录后即可下载。建议引用格式：地球资源数据云. 德语字符识别数据集. https://www.gis5g.com/dataset/1752