原创投稿 行业报告 AI展会 数据标注
投稿发布
您的当前位置:首页 > 下载中心 > 人脸识别 > 正文

Public Figures Face 数据集

发布:可思数据 时间:2019-10-19
数据类型:图形图像 热度

文件类型:.zip              文件大小:未知

授权方式:公共开源     发布时间:2019-10-19

数据来源:哥伦比亚大学             数据语言:英文

数据介绍:

PubFig:公众人物面对数据库


介绍

PubFig数据库是一个大型的真实世界的人脸数据集,由从互联网上收集的200人的58,797张图像组成。与大多数其他现有面部数据集不同,这些图像是在非合作主体的完全不受控制的情况下拍摄的。因此,姿势,光照,表情,场景,相机,成像条件和参数等存在很大差异.PubFig数据集在精神上类似于在UMass-Amherst创建的野生标签面(LFW)数据集,尽管那里两者有一些显着差异:

  • LFW包含13233个图像的5,749人,并因此比PubFig广泛得多。然而,它也更小,更浅(平均每人少得多)。
  • LFW源自T. Berg等人的新闻工作中的名称和面孔。这些图像最初是使用在线新闻来源收集的。对于许多人来说,通常在同一事件中拍摄几张图像,其中该人穿着相似的衣服并且处于相同的环境中。我们在ICCV 2009上发表的论文表明,这通常可以被算法利用,从而提高性能的不实现性。
  • 当然,PubFig数据集无疑具有自己的偏见,我们欢迎任何对这些数据进行分类的尝试。

 

我们已经在这个数据集上创建了一个面部验证基准,用于测试算法将一对图像分类为同一个人或不同一个人的能力。重要的是,在训练期间算法从未见过这两个人。在未来,我们也希望创建认可基准。

 

PubFig数据集分为两部分:

  1. 该开发套件包含的图像60个人。在开发算法时应使用此数据集,以避免在评估集上过度拟合。此列表与评估集之间没有重叠,也不在此集与LFW数据集中的人之间重叠。
  2. 该评估组包含其余的图像140个个人。这是您可以在其上评估算法以查看其执行情况的数据集。
由于版权问题,我们无法以任何格式向任何人分发图像文件。相反,我们提供了一个图像URL列表,您可以自己下载图像。我们意识到这使得无法精确地比较数字,因为图像链接会随着时间的推移慢慢消失,但我们没有其他选择。这似乎是其他大型基于Web的数据库似乎正在发展的方式。我们希望定期更新数据集,删除损坏的链接并添加新链接,从而进行接近精确的比较。

数据格式

几乎所有数据文件都遵循“制表符分隔值”格式。前两行通常是这样的:
#PubFig Dataset v1.2  -  filename.txt  -  http://www.cs.columbia.edu/CAVE/databases/pubfig/
#person imagenum url rect md5sum

第一行标识数据集的名称和版本,文件名,并具有返回此网站的链接。第二行定义文件中的字段,用制表符('\ t')分隔。在此示例中(类似于dev_urls.txt和eval_urls.txt文件),有5个字段:person,imagenum,url,rect和md5sum。前两个对于许多数据文件是通用的,并且是人的名称和用于指代该个人的特定图像的图像索引号。请注意,图像数字并不一定是连续的每个人-有“洞”中的计数。

后续行每行包含一个条目,字段值也由制表符分隔。

引文

该数据库仅供非商业用途使用。如果您使用此数据集,请引用以下文章:

“用于面部验证的属性和模拟分类器”,
Neeraj Kumar,Alexander C. Berg,Peter N. Belhumeur和Shree K. Nayar,
国际计算机视觉会议(ICCV),2009年。

开发集(60人) - 用于算法开发

在开发算法时请使用此数据集,以避免在评估集上过度拟合。您可以从此数据集创建任何类型和数量的训练对。

  • dev_people.txt:这包含开发集中60个人的列表。每个数据行包含一个人的姓名。此列表与评估集中的人员之间以及此集合与LFW数据集中的人员之间没有重叠。
  • dev_urls.txt:这包含开发集中60个人的所有16,336个图像的URL 。(由于版权问题,我们无法自行分发图像。)每个数据行用于一个图像,包含5个元素,由制表符('\ t')分隔:
    • 人名,
    • 该人的图像编号,
    • 原始图片网址,
    • 围绕所选人的面部矩形,如x0,y0,x1,y1坐标(面部的左上角和右下角的x和y位置)。请注意,即使图像中有多个面,我们也只为所选人员提供矩形。
    • 使用linux md5sum实用程序计算的原始图像的md5校验和。

评估集(140人) - 仅用于最终绩效评估

请仅在评估算法时使用此数据集,以准备提交/发布结果。这是为了防止过度拟合数据并获得不切实际的结果。

  • eval_people.txt:它包含评估集中140个人的列表。格式与dev_people.txt文件的格式相同:每个数据行包含一个人的姓名。
  • eval_urls.txt:包含评估集中140人的所有42,461张图像的URL 。(由于版权问题,我们无法自行分发图像。)格式与dev_urls.txt文件的格式相同:每条数据行用于一个图像,包含5个元素,由制表符('\ t')分隔:
    • 人名,
    • 该人的图像编号,
    • 原始图片网址,
    • 围绕所选人的面部矩形,如x0,y0,x1,y1坐标(面部的左上角和右下角的x和y位置)。请注意,即使图像中有多个面,我们也只为所选人员提供矩形。
    • 使用linux md5sum实用程序计算的原始图像的md5校验和。
  • pubfig_labels.txt:这包含评估集中每个图像的一些附加标签。每个数据行包含以下字段,由制表符('\ t')分隔:
    • 人名,
    • 该人的图像编号,
    • 由我们的人脸探测器计算的姿势信息,以正面(偏航和10度内的俯仰)或非正面给出
    • 照明信息由用户作为标记的亚马逊土耳其机器人,给定为任一正面或非正面
    • 作为标记的用户上表达信息亚马逊土耳其机器人,如任一给定的中性或非中性
  • pubfig_full.txt:20,000个图像的完整验证基准,分为10个交叉验证集。每个集合与所有其他集合相互不相交,无论是按人物还是按图像。在评估期间,您应该使用其中的9组进行培训,其余1组进行测试。然后旋转所有10组,以便最后评估所有对。由于每个集合都与身份不相交,因此您的评估算法将永远不会在培训中看到该人员。除了阅读图像之外,请不要使用文件名或个人身份!此文件的格式与LFW基准测试的格式类似,但不完全相同:
    • 第一行是标识文件的注释(以“#”开头)。
    • 第二行列出了此文件中的交叉验证集数(当前为10)。在此之后,每个交叉验证集合。
    • 对于每个交叉验证集,第1行包含集合中正负对的数量,由制表符分隔。
    • 然后是给定数量的正例(同一人的图像对),每行一个。每行包含4个由制表符分隔的元素,例如:
      Jodie Foster 81 Jodie Foster 220
      这些是:
      • 第一个人的名字
      • 第一个人的图像编号(如eval_urls.txt)
      • 第二个人的名字(例如,这与第一个人相同)
      • 第二个人的图像编号(如eval_urls.txt)
    • 最后,还有给定数量的反面例子,格式完全相同。

杂项文件

这些是涵盖两个集合的一些数据文件,或者可能对相关任务有帮助。

  • pubfig_attributes.txt:PubFig中所有图像的所有73个属性值的列表,使用较新版本的属性分类器计算。它们采用标准数据格式。每个数据行包含给定图像的属性值,由人名和图像索引引用。正属性值表示属性的存在,而负值表示其不存在或否定。值的大小表示属性存在/否定的程度。幅度只是样本与给定分类器的支持向量的距离(使用RBF内核)。因此,即使对于相同的属性(当然也不是针对不同的属性),也不应该直接比较量值。有关详细信息,请参阅上面引用的论文。
  •  
  •  
  • 下载数据库:
下载地址:

特别声明:

¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。
¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用本站来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途,请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
¤ 本站数据压缩包统一解压密码:www.sykv.com
人工智能权威社区
人工智能交流群扫码邀请

相关推荐:

网友评论:

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

数据标注服务
sem搜索推广

Copyright©2005-2020 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注行业联盟

人工智能资讯   人工智能资讯   人工智能资讯   人工智能资讯

扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部
关闭