安德鲁Lensen,秉须厄,梦洁张
(在2019年10月22日提交)
聚类是一项艰巨而广泛研究的数据挖掘任务,文献中提出了许多种聚类算法。几乎所有算法都使用相似性度量(例如距离度量(例如,欧几里得距离))来决定将哪些实例分配给同一群集。这些相似性度量通常是预先定义的,因此无法轻松地针对特定数据集的属性进行调整,从而导致所生成聚类的质量和可解释性受到限制。在本文中,我们提出了一种新的方法,可以通过使用遗传规划来自动发展给定聚类算法的相似性函数。我们引入了一种基于遗传编程的新方法,该方法会自动选择特征的一小部分(特征选择),然后使用多种功能(特征构造)将它们组合在一起,以生成专门针对给定数据集设计的动态和灵活的相似性功能。我们演示了如何使用基于图的表示法将演化的相似度函数用于执行聚类。在一系列大型,高维数据集上进行的各种实验的结果表明,与基准方法相比,该方法可以实现更高,更一致的性能。我们进一步扩展了提出的方法,以通过使用多树方法自动产生多个互补相似性函数,从而进一步提高了性能。
评论: 29页,被《进化计算》(期刊)接受,麻省理工学院出版社
主题: 神经与进化计算(cs.NE) ; 计算机视觉和模式识别(cs.CV)
DOI: 10.1162 / evco_a_00264
引用为: arXiv:1910.10264 [cs.NE]
用于聚类的相似性函数演化的遗传规划:表示和分析
发布:可思数据
时间:2019-10-24
数据介绍:
下载地址:
特别声明:
¤ 此数据集库仅供研究和教育用途,不得用于任何商业用途。¤ 如果您在任何出版物或报告中使用该数据库,则必须添加引用本站来源。
¤ 版权归作者及所在组织所有。
¤ 如用于商业用途,请联系版权所有人。
¤ 本站数据来源于网络如有侵权请联系我们。
¤ 本站数据压缩包统一解压密码:www.sykv.com
人工智能交流群扫码邀请
相关文章:
-
无相关信息
相关推荐:
网友评论:
数据集分类
最新数据集
推荐数据集