中国MNIST数据集使用在纽卡斯尔大学的项目框架中收集的数据。
项目简介
一百名中国人参加了数据收集。每个参与者用标准的黑色墨水笔在一张白色A4纸上绘制的表格中用15个指定区域书写所有15个数字。每个参与者重复此过程10次。每张纸都以300x300像素的分辨率进行扫描。
结果是一个包含15000张图像的数据集,每个图像代表一组15个字符中的一个字符(按样本分组,按套件分组,每位志愿者有10个样本和100个志愿者)。
进一步的数据处理
我从原始项目页面下载了原始图像。基于图像名称,我为每个图像创建了一个索引,如下所示:
original name (example): Locate{1,3,4}.jpg
index extracted: suite_id: 1, sample_id: 3, code: 4
resulted file name: input_1_3_4.jpg
我还将每个图像代码的映射添加到中文数字字符的实际数字值和实际中文字符。
这里描述了映射
内容
数据集包含以下内容:
- 索引文件
chinese_mnist.csv
- 包含15,000张jpg图像的文件夹,尺寸为64 x64。有关详细信息,请参见images文件夹说明。
纽卡斯尔大学的K Nazarpour博士和M Chen博士,他们收集了数据。
您可以使用与使用MNIST,Fashion MNIST的KMNIST相同的方式来使用此数据:提高图像分类技能,使用GPU和TPU为模型实现CNN体系结构以执行此类多类分类。