皮肤癌MNIST:HAM10000
大量皮肤色素沉着病变的多源皮肤镜检查图像
另一个比数字分类数据集更有趣的数据集,可用于使生物学和医学专业的学生对机器学习和图像处理更加兴奋。
原始数据源
[1] Noel Codella,Veronica Rotemberg,Philipp Tschandl,M.Emre Celebi,Stephen Dusza,David Gutman,Brian Helba,Aadi Kalloo,Konstantinos Liopyris,Michael Marchetti,Harald Kittler,Allan Halpern:“ 2018年黑色素瘤检测的皮肤病变分析:国际皮肤影像协作组织(ISIC)主办的挑战”,2018年;[2] Tschandl,P.,Rosendahl,C.&Kittler,H. HAM10000数据集,大量常见皮肤色素沉着病变的多源皮肤镜检查图像集合。科学 数据5,180161 doi:10.1038 / sdata.2018.161(2018)。
小尺寸和缺乏皮肤镜图像可用数据集的多样性阻碍了神经网络用于色素性皮肤病变自动诊断的训练。我们通过发布HAM10000(“具有10000个训练图像的人类对抗机器”)数据集来解决此问题。我们收集了不同人群的皮肤镜图像,并通过不同的方式进行了采集和存储。最终的数据集由10015张皮肤镜图像组成,这些图像可以用作学术机器学习目的的训练集。病例包括色素沉着病变领域中所有重要诊断类别的代表性集合:光化性角化病和上皮内癌/鲍恩氏病(akiec),基底细胞癌(bcc),
超过50%的病变通过组织病理学(组织学)证实,其余病例的基本事实是随访检查(随访),专家共识(共识)或体内共聚焦显微镜确认)。数据集包含具有多个图像的病变,可以通过 HAM10000_metadata文件中的病变 id列进行跟踪。
测试集不是公开的,但是评估服务器仍在运行(请参阅质询网站)。使用HAM10000数据撰写的任何出版物都应在此处托管的官方测试集上进行评估,以便可以公平地比较方法。