(LFW)是专为研究无限制人脸识别问题而设计的人脸照片数据库。该数据库是由马萨诸塞大学阿默斯特分校的研究人员创建和维护。Viola Jones脸部检测器检测到5233人的13,233张图像并居中,并从网上收集了这些图像。在有照片的1680人中,数据集中有两张或更多不同的照片。原始数据库包含四组不同的LFW图像,以及三组不同类型的“对齐”图像。据研究人员称,与其他图像类型相比,大多数人脸验证算法的深漏斗图像产生了更好的结果。
内容
该数据集中有11个文件。lfw-deepfunneled.zip是包含图像的文件。所有其他10个文件都是相关的元数据,可以帮助您形成模型的训练和测试集。下面有两个部分可帮助您更好地浏览文件。第一部分提供了专门与图像有关的信息。第二部分说明每个元数据文件的内容。
图片信息:
- 图像文件格式:每个图像均以“ lfw / name / name xxxx.jpg”的形式提供,其中“ xxxx”是用前导零填充到四个字符的图像编号。例如,第十张乔治· W·布什的图片可以找到为“ lfw /乔治· W·布什/乔治· W·布什 0010.jpg”
- 图片尺寸:每张图片均为250x250 jpg,使用Viola-Jones面部检测器的openCV实现进行检测并居中。然后,将检测器返回的裁剪区域在每个维度上自动放大2.2倍,以捕获更多的头部,然后缩放为均匀大小。
元数据信息:
- lfwallnames.csv:包含数据集中每个面孔的所有名称以及每个面孔具有的图像数。
- lfwreadme.csv:在原始数据库上找到的综合自述文件。如果您在此处缺少任何信息或正在寻找其他资源,则可能会在此文件中找到它。它说明了每个.csv文件在形成训练和测试模型时如何发挥作用,以及用于确定.csv内容的列元数据信息。原始网站还提供有关训练/测试组和比较基准的建议。
有两种推荐的配置用于开发训练和测试集(成对的人)。根据您选择的路由,将使用以下.csv文件:
- pair.csv:包含随机生成的分割,用于10对交叉验证,专门针对线对。形成训练集时,将其用于图像受限配置(请参阅自述文件)。总共有10套;5套包含300个匹配对,其他5套包含300个不匹配对。
- people.csv:包含随机生成的分割,用于针对个人面孔的10倍交叉验证。形成训练集时,请使用此选项进行非限制配置(请参阅自述文件)。总共有10套,每套都有不同的人数;设置1:601。设置2:555。设置3:552。设置4:560。设置5:567。设置6:527。设置7:597。设置8:601。设置9:580。设置10:609。
- matchpairsDevTest.csv:如果您决定使用线对配置,请使用此测试集。包含500对匹配的面孔以进行测试。
- matchpairsDevTrain.csv:如果您决定使用线对配置,请使用此训练集。包含1100对匹配的面孔以进行训练。
- mismatchpairsDevTest.csv:如果您决定使用线对配置,请使用此测试集。包含500个不匹配的面孔对以进行测试。
- mismatchpairsDevTrain.csv:使用此训练集可以决定是否使用线对配置。包含1100对不匹配的面孔以进行训练。
- peopleDevTest.csv:如果决定采用人员配置,请使用此测试测试。包含1711人和3708张图像。
- peopleDevTrain.csv:如果您决定采用人员配置,请使用此培训集。包含4038人和9525张图像。