原创投稿 行业报告 AI展会 数据标注
投稿发布
您的当前位置:首页 > 下载中心 > 人脸识别 > 正文

IMDB-WIKI数据集|IMDB-WIKI –带有年龄和性别标签的500k +人脸图像

发布:可思数据 时间:2020-02-08
数据类型:图形图像 热度

文件类型:.zip              文件大小:10.21G

授权方式:公共开源     发布时间:2020-02-08

数据来源:Rasmus Rothe, Radu Timofte, Luc Van Gool             数据语言:英文

数据介绍:
DEX:从单个图像中深度预期明显的年龄

在本文中,我们通过深度学习解决了静止图像中的表观年龄估计问题。我们的卷积神经网络(CNN)使用VGG-16架构,并在ImageNet上进行了预训练以进行图像分类。另外,由于表观年龄注释图像的数量有限,我们探索了对具有可用年龄的已爬网Internet人脸图像进行微调的好处。我们从IMDb和Wikipedia上检索了50万张名人的图像,这些图像已在此网站上公开。这是迄今为止最大的年龄预测公共数据集。我们将年龄回归问题作为一个深层分类问题,然后将softmax期望值细化,并将其显示为比CNN的直接回归训练有所改进。我们提出的方法,表观年龄的深层期望(DEX),首先在测试图像中检测人脸,然后从裁剪后的人脸的20个网络中提取CNN预测。在抓取的图像上微调DEX的CNN,然后在提供的带有明显年龄注释的图像上微调。DEX不使用显式的面部标志。我们的DEX是ChaLearn LAP 2015挑战赛的冠军(第一名),该团队拥有115多个注册团队,其明显年龄估算值明显优于人类参考。
我们的年龄估算模型已在我们的网站howhot.io上使用,该网站在互联网上风行一时,并在社交媒体和媒体(Techcrunch,Hackernews,Reddit#1,Evening Standard,Spiegel)中得到了广泛报道


国际计算机视觉杂志(IJCV),2016年从没有面部标志的单一图像中对真实和明显年龄的深切期望

在本文中,我们提出了一种深度学习解决方案,用于从不使用面部标志的单个面部图像进行年龄估计的情况,并介绍了IMDB-WIKI数据集,IMDB-WIKI数据集是具有年龄和性别标签的最大面部图像公开数据集。如果实际年龄估计研究跨越数十年,那么最近的研究就是对表观年龄估计或其他人从面部图像感知的年龄进行研究。我们使用VGG-16架构的卷积神经网络(CNN)处理这两项任务,这些网络在ImageNet上进行了预训练,用于图像分类。我们将年龄估计问题视为一个深层分类问题,然后再对softmax期望值进行细化。我们解决方案的关键因素是:从大数据中获得的深度学习模型,稳健的面部对齐以及用于年龄回归的期望值公式。

 

IMDB-WIKI数据集

据我们所知,这是最大的可公开获得的带有性别和年龄标签的人脸图像训练数据集。我们提供了针对年龄和性别预测的预训练模型。

 



描述

由于公开可用的人脸图像数据集通常是中小型的,很少超过成千上万的图像,而且通常没有年龄信息,因此我们决定收集大量名人的数据集。为此,我们采用了IMDb网站上列出的最受欢迎的100,000名演员的名单,并(自动)从其个人资料的出生日期,姓名,性别和与该人相关的所有图片中抓取了这些演员。此外,我们使用相同的元信息从Wikipedia的人员页面中抓取了所有个人资料图像。我们删除了没有时间戳(拍摄照片的日期)的图像。假设单张面孔的图像很可能显示演员,并且时间戳和出生日期正确,我们就可以为每个此类图像指定生物学(真实)年龄。当然,我们无法保证所分配年龄信息的准确性。除了错误的时间戳记,许多图像还是电影中的静止图像,这些电影可能会延长制作时间。我们总共从IMDb的20,284名名人和Wikipedia的62,328名名人中获得了460,723张脸部图像,因此总共获得了523,051张。

由于某些图像(尤其是来自IMDb的图像)包含几个人,因此我们仅使用第二强脸部检测低于阈值的照片。为了使网络对于所有年龄段都具有同等的歧视性,我们均衡了训练的年龄分布。有关更多详细信息,请参见本文。

用法

对于IMDb和Wikipedia图像,我们提供了一个单独的.mat文件,可以使用包含所有元信息的Matlab加载该文件。格式如下:

  • dob:出生日期(Matlab序列号)
  • photo_taken:拍摄照片的年份
  • full_path:文件路径
  • 性别:女性0,男性1,如果未知则为NaN
  • 名称:名人的名字
  • face_location:人脸的位置。在Matlab中裁剪脸部
    img(face_location(2):face_location(4),face_location(1):face_location(3),:))
  • face_score:检测器得分(越高越好)。Inf表示在图像中未找到人脸,然后face_location仅返回整个图像
  • second_face_score:得分第二高的人脸的检测器得分。这对于忽略多于一张脸的图像很有用。如果未检测到第二张脸,则second_face_scoreNaN
  • celeb_names(仅IMDB):所有名人姓名的列表
  • celeb_id(仅IMDB):名人姓名索引
可以根据出生日期和拍摄照片的时间来计算一个人的年龄(请注意,我们假设照片是在年中拍摄的):
[age,〜] = datevec(datenum(wiki.photo_taken,7,1)-wiki.dob); 
下载地址:

特别声明:

¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。
¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用本站来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途,请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
¤ 本站数据压缩包统一解压密码:www.sykv.com
人工智能权威社区
人工智能交流群扫码邀请

相关推荐:

网友评论:

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

数据标注服务
sem搜索推广

Copyright©2005-2020 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注行业联盟

人工智能资讯   人工智能资讯   人工智能资讯   人工智能资讯

扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部
关闭