IAM手写Top50
离线IAM手写数据集的子集,包含50个最常见的作家。
IAM手写数据集是几位作者的手写文章的集合。通常,他们使用该数据根据作家的写作风格对作家进行分类。解决此类问题的传统方法是提取特征(例如字母,曲率等之间的间距)并将其输入支持向量机。但是,我想通过使用Keras和Tensorflow进行深度学习来解决此问题。为此,我们不需要完整的IAM手写数据集,但可以使用一些可靠的子集来进行训练,例如对数据集贡献最大的前50名人员的图像子集。
内容
该数据集包含每个手写句子的图像,并使用短划线分隔的文件名格式。第一个字段代表测试代码,第二个字段代表作者ID,第三个字段ID,第四个字段代表句子ID。