PubFig:公众人物面对数据库
介绍
PubFig数据库是一个大型的真实世界的人脸数据集,由从互联网上收集的200人的58,797张图像组成。与大多数其他现有面部数据集不同,这些图像是在非合作主体的完全不受控制的情况下拍摄的。因此,姿势,光照,表情,场景,相机,成像条件和参数等存在很大差异.PubFig数据集在精神上类似于在UMass-Amherst创建的野生标签面(LFW)数据集,尽管那里两者有一些显着差异:
- LFW包含13233个图像的5,749人,并因此比PubFig广泛得多。然而,它也更小,更浅(平均每人少得多)。
- LFW源自T. Berg等人的新闻工作中的名称和面孔。这些图像最初是使用在线新闻来源收集的。对于许多人来说,通常在同一事件中拍摄几张图像,其中该人穿着相似的衣服并且处于相同的环境中。我们在ICCV 2009上发表的论文表明,这通常可以被算法利用,从而提高性能的不实现性。
- 当然,PubFig数据集无疑具有自己的偏见,我们欢迎任何对这些数据进行分类的尝试。
我们已经在这个数据集上创建了一个面部验证基准,用于测试算法将一对图像分类为同一个人或不同一个人的能力。重要的是,在训练期间算法从未见过这两个人。在未来,我们也希望创建认可基准。
PubFig数据集分为两部分:
-
该开发套件包含的图像60个人。在开发算法时应使用此数据集,以避免在评估集上过度拟合。此列表与评估集之间没有重叠,也不在此集与LFW数据集中的人之间重叠。
- 该评估组包含其余的图像140个个人。这是您可以在其上评估算法以查看其执行情况的数据集。
数据格式
几乎所有数据文件都遵循“制表符分隔值”格式。前两行通常是这样的:#PubFig Dataset v1.2 - filename.txt - http://www.cs.columbia.edu/CAVE/databases/pubfig/ #person imagenum url rect md5sum
第一行标识数据集的名称和版本,文件名,并具有返回此网站的链接。第二行定义文件中的字段,用制表符('\ t')分隔。在此示例中(类似于dev_urls.txt和eval_urls.txt文件),有5个字段:person,imagenum,url,rect和md5sum。前两个对于许多数据文件是通用的,并且是人的名称和用于指代该个人的特定图像的图像索引号。请注意,图像数字并不一定是连续的每个人-有“洞”中的计数。
后续行每行包含一个条目,字段值也由制表符分隔。
引文
该数据库仅供非商业用途使用。如果您使用此数据集,请引用以下文章:
“用于面部验证的属性和模拟分类器”,
Neeraj Kumar,Alexander C. Berg,Peter N. Belhumeur和Shree K. Nayar,
国际计算机视觉会议(ICCV),2009年。
开发集(60人) - 用于算法开发
在开发算法时请使用此数据集,以避免在评估集上过度拟合。您可以从此数据集创建任何类型和数量的训练对。
- dev_people.txt:这包含开发集中60个人的列表。每个数据行包含一个人的姓名。此列表与评估集中的人员之间以及此集合与LFW数据集中的人员之间没有重叠。
- dev_urls.txt:这包含开发集中60个人的所有16,336个图像的URL 。(由于版权问题,我们无法自行分发图像。)每个数据行用于一个图像,包含5个元素,由制表符('\ t')分隔:
- 人名,
- 该人的图像编号,
- 原始图片网址,
- 围绕所选人的面部矩形,如x0,y0,x1,y1坐标(面部的左上角和右下角的x和y位置)。请注意,即使图像中有多个面,我们也只为所选人员提供矩形。
- 使用linux md5sum实用程序计算的原始图像的md5校验和。
评估集(140人) - 仅用于最终绩效评估
请仅在评估算法时使用此数据集,以准备提交/发布结果。这是为了防止过度拟合数据并获得不切实际的结果。
- eval_people.txt:它包含评估集中140个人的列表。格式与dev_people.txt文件的格式相同:每个数据行包含一个人的姓名。
- eval_urls.txt:包含评估集中140人的所有42,461张图像的URL 。(由于版权问题,我们无法自行分发图像。)格式与dev_urls.txt文件的格式相同:每条数据行用于一个图像,包含5个元素,由制表符('\ t')分隔:
- 人名,
- 该人的图像编号,
- 原始图片网址,
- 围绕所选人的面部矩形,如x0,y0,x1,y1坐标(面部的左上角和右下角的x和y位置)。请注意,即使图像中有多个面,我们也只为所选人员提供矩形。
- 使用linux md5sum实用程序计算的原始图像的md5校验和。
- pubfig_labels.txt:这包含评估集中每个图像的一些附加标签。每个数据行包含以下字段,由制表符('\ t')分隔:
- 人名,
- 该人的图像编号,
- 由我们的人脸探测器计算的姿势信息,以正面(偏航和10度内的俯仰)或非正面给出
- 照明信息由用户作为标记的亚马逊土耳其机器人,给定为任一正面或非正面
- 作为标记的用户上表达信息亚马逊土耳其机器人,如任一给定的中性或非中性
- pubfig_full.txt:20,000个图像的完整验证基准,分为10个交叉验证集。每个集合与所有其他集合相互不相交,无论是按人物还是按图像。在评估期间,您应该使用其中的9组进行培训,其余1组进行测试。然后旋转所有10组,以便最后评估所有对。由于每个集合都与身份不相交,因此您的评估算法将永远不会在培训中看到该人员。除了阅读图像之外,请不要使用文件名或个人身份!此文件的格式与LFW基准测试的格式类似,但不完全相同:
- 第一行是标识文件的注释(以“#”开头)。
- 第二行列出了此文件中的交叉验证集数(当前为10)。在此之后,每个交叉验证集合。
- 对于每个交叉验证集,第1行包含集合中正负对的数量,由制表符分隔。
- 然后是给定数量的正例(同一人的图像对),每行一个。每行包含4个由制表符分隔的元素,例如:
Jodie Foster 81 Jodie Foster 220
这些是:- 第一个人的名字
- 第一个人的图像编号(如eval_urls.txt)
- 第二个人的名字(例如,这与第一个人相同)
- 第二个人的图像编号(如eval_urls.txt)
- 最后,还有给定数量的反面例子,格式完全相同。
杂项文件
这些是涵盖两个集合的一些数据文件,或者可能对相关任务有帮助。
- pubfig_attributes.txt:PubFig中所有图像的所有73个属性值的列表,使用较新版本的属性分类器计算。它们采用标准数据格式。每个数据行包含给定图像的属性值,由人名和图像索引引用。正属性值表示属性的存在,而负值表示其不存在或否定。值的大小表示属性存在/否定的程度。幅度只是样本与给定分类器的支持向量的距离(使用RBF内核)。因此,即使对于相同的属性(当然也不是针对不同的属性),也不应该直接比较量值。有关详细信息,请参阅上面引用的论文。
- 下载数据库:
- 所有图像为gzipped tar文件
(173MB,md5sum a17d05bd522c52d84eca14327a23d494) - [新] 所有图像都与深漏斗对齐
(111MB,md5sum 68331da3eb755a505a502b5aacb3c201) - 所有图像都与漏斗对齐
(233MB,md5sum 1b42dfed7d15c9b2dd63d5e5840c86ad) - 所有图像与商业面部对齐软件 (LFW-a-Taigman,Wolf,
Hassner )对齐参见下面的LFW资源下的LFW3D(正面LFW图像)。 - 超像素分割:
- lfw superpixels(328MB,md5sum eb6543ba9bbef54f8ba481c895d3526f)
- lfw深漏流超像素(129MB,md5sum 5a166aa967e260aa70d55b5785aa7a61)
- lfw漏斗超像素(328MB,md5sum f1ede21969d2ad8262a16a26d6212177)