微信里点“发现”,扫一下
二维码便可将本文分享至朋友圈
演讲摘要:密度峰(DP)聚类算法通过寻找密集区域的峰值将数据组织成聚类。这涉及到计算每个点的密度和距离。因此,虽然基于DP的方案已经非常有效地产生了高质量的聚类,但其时间复杂性是O(N2),其中N为数据点的数量。我们提出了一种基于z值索引的快速分布式密度峰聚类算法FDDP。该算法首先利用z值索引将多维数据点映射到单维空间,然后根据z值对数据进行范围分割,以平衡分布式环境中各处理节点的负载。为了降低数据传输代价,我们保证最小的重叠范围来处理边界点的计算。同时,设计了一种值计算算法FC,便于采用前向计算策略以线性时间复杂度计算值。进一步,提出了一种值计算算法CB,利用缓存和高效搜索策略来计算值。FC算法和BC算法能够将DP聚类的时间复杂度从O(N2)降低到O(Nlog(N))。我们对提出的FDDP算法进行了理论分析和实验评估。实验结果表明,FDDP明显优于目前最好的同类算法。
讲者简介:东北大学计算机科学与工程学院教授、博导,教育部新世纪优秀人才,辽宁省百千万人才(百人层次),曾获全国百篇优秀博士学位论文提名奖、辽宁省优秀博士学位论文奖。主要研究兴趣包括:大数据挖掘与知识发现、机器学习、生物信息学等。担任《IEEE Transactions on Knowledge and Data Engineering》、《IEEE Transactions on Systems, Man, and Cybernetics-Part B》等多个重要国际顶级学术期刊的审稿人,国际SCI期刊《Frontiers of Computer Science》青年编委,国家自然科学基金会评/函评专家。在《IEEE Trans. on Knowledge and Data Engineering(TKDE)》、《IEEE Trans. on Systems, Man, and Cybernetics-Part B(TSMC-B)》、ICDM等重要学术期刊和学术会议上发表100余篇学术论文。主持或参与科技部重点研发计划、国家自然科学基金重点项目、国家863计划项目、国家973计划子课题、国家自然科学基金青年/面上项目、省部级科技项目等20余项。现为IEEE会员、ACM数据挖掘中国分会会员、中国计算机学会CCF高级会员和CCF生物信息专委会委员。