在本文中,我们通过深度学习解决了静止图像中的表观年龄估计问题。我们的卷积神经网络(CNN)使用VGG-16架构,并在ImageNet上进行了预训练以进行图像分类。另外,由于表观年龄注释图像的数量有限,我们探索了对具有可用年龄的已爬网Internet人脸图像进行微调的好处。我们从IMDb和Wikipedia上检索了50万张名人的图像,这些图像已在此网站上公开。这是迄今为止最大的年龄预测公共数据集。我们将年龄回归问题作为一个深层分类问题,然后将softmax期望值细化,并将其显示为比CNN的直接回归训练有所改进。我们提出的方法,表观年龄的深层期望(DEX),首先在测试图像中检测人脸,然后从裁剪后的人脸的20个网络中提取CNN预测。在抓取的图像上微调DEX的CNN,然后在提供的带有明显年龄注释的图像上微调。DEX不使用显式的面部标志。我们的DEX是ChaLearn LAP 2015挑战赛的冠军(第一名),该团队拥有115多个注册团队,其明显年龄估算值明显优于人类参考。
我们的年龄估算模型已在我们的网站howhot.io上使用,该网站在互联网上风行一时,并在社交媒体和媒体(Techcrunch,Hackernews,Reddit#1,Evening Standard,Spiegel)中得到了广泛报道。
国际计算机视觉杂志(IJCV),2016年从没有面部标志的单一图像中对真实和明显年龄的深切期望
在本文中,我们提出了一种深度学习解决方案,用于从不使用面部标志的单个面部图像进行年龄估计的情况,并介绍了IMDB-WIKI数据集,IMDB-WIKI数据集是具有年龄和性别标签的最大面部图像公开数据集。如果实际年龄估计研究跨越数十年,那么最近的研究就是对表观年龄估计或其他人从面部图像感知的年龄进行研究。我们使用VGG-16架构的卷积神经网络(CNN)处理这两项任务,这些网络在ImageNet上进行了预训练,用于图像分类。我们将年龄估计问题视为一个深层分类问题,然后再对softmax期望值进行细化。我们解决方案的关键因素是:从大数据中获得的深度学习模型,稳健的面部对齐以及用于年龄回归的期望值公式。
IMDB-WIKI数据集
据我们所知,这是最大的可公开获得的带有性别和年龄标签的人脸图像训练数据集。我们提供了针对年龄和性别预测的预训练模型。
描述
由于公开可用的人脸图像数据集通常是中小型的,很少超过成千上万的图像,而且通常没有年龄信息,因此我们决定收集大量名人的数据集。为此,我们采用了IMDb网站上列出的最受欢迎的100,000名演员的名单,并(自动)从其个人资料的出生日期,姓名,性别和与该人相关的所有图片中抓取了这些演员。此外,我们使用相同的元信息从Wikipedia的人员页面中抓取了所有个人资料图像。我们删除了没有时间戳(拍摄照片的日期)的图像。假设单张面孔的图像很可能显示演员,并且时间戳和出生日期正确,我们就可以为每个此类图像指定生物学(真实)年龄。当然,我们无法保证所分配年龄信息的准确性。除了错误的时间戳记,许多图像还是电影中的静止图像,这些电影可能会延长制作时间。我们总共从IMDb的20,284名名人和Wikipedia的62,328名名人中获得了460,723张脸部图像,因此总共获得了523,051张。
由于某些图像(尤其是来自IMDb的图像)包含几个人,因此我们仅使用第二强脸部检测低于阈值的照片。为了使网络对于所有年龄段都具有同等的歧视性,我们均衡了训练的年龄分布。有关更多详细信息,请参见本文。
用法
对于IMDb和Wikipedia图像,我们提供了一个单独的.mat文件,可以使用包含所有元信息的Matlab加载该文件。格式如下:
- dob:出生日期(Matlab序列号)
- photo_taken:拍摄照片的年份
- full_path:文件路径
- 性别:女性0,男性1,如果未知则为NaN
- 名称:名人的名字
- face_location:人脸的位置。在Matlab中裁剪脸部
img(face_location(2):face_location(4),face_location(1):face_location(3),:))
- face_score:检测器得分(越高越好)。Inf表示在图像中未找到人脸,然后face_location仅返回整个图像
- second_face_score:得分第二高的人脸的检测器得分。这对于忽略多于一张脸的图像很有用。如果未检测到第二张脸,则second_face_score为NaN。
- celeb_names(仅IMDB):所有名人姓名的列表
- celeb_id(仅IMDB):名人姓名索引
[age,〜] = datevec(datenum(wiki.photo_taken,7,1)-wiki.dob);