街景号码(SVHN)数据集 |
SVHN是一个真实的图像数据集,用于开发机器学习和对象识别算法,对数据预处理和格式化的要求最低。它可以被看作与MNIST的风味相似(例如,图像是小的裁剪数字),但是包含更多标记数据的数量级(超过600,000个数字图像)并且来自更加困难,未解决的现实世界问题(识别自然场景图像中的数字和数字)。SVHN是从Google街景图像中的门牌号码获得的。
The Street View House Numbers (SVHN) 是对图像中阿拉伯数字进行识别的数据集,该数据集中的图像来自真实世界的门牌号数字,每张图片中包含一组 '0-9' 的阿拉伯数字。训练集中包含 73257 个数字,测试集中包含 26032 个数字,另有 531131 个附加数字。
这些是具有字符级边界框的原始可变分辨率彩色房屋号码图像,如上面的示例图像所示。(此处的蓝色边界框仅用于说明目的。边界框信息存储在digitStruct.mat中,而不是直接在数据集中的图像上绘制。)每个tar.gz文件包含png格式的原始图像,以及digitStruct.mat文件,可以使用Matlab加载。digitStruct.mat文件包含一个名为digitStruct的结构,其长度与原始图像的数量相同。digitStruct中的每个元素都包含以下字段:name是包含相应图像文件名的字符串。 BBOX这是一个struct数组,包含图像中每个数字边界框的位置,大小和标签。例如:digitStruct(300).bbox(2)。高度给出第300个图像中第二个数字边界框的高度。
- 格式2:裁剪数字: train_32x32.mat, test_32x32.mat, extra_32x32.mat (注意:仅限非商业用途)