社区发现的经典方法有哪些

【摘要】:社区发现是复杂网络汾析中的一项关键任务,它有助于理解以复杂网络为代表的系统的特性,且对实际应用具有重要的意义复杂的网络结构由节点和节点之间的關系组成,例如社会网络、协作网络、生物网络和交通网络等。复杂网络研究的主要问题之一是对社区结构的检测,这是一个一直备受关注的課题现今,社区发现的许多研究成果已成功应用于朋友推荐、个性化产品推广、蛋白质功能预测和舆情分析与处理等领域。现实世界的网絡通常由功能单元组成,这些功能单元以网络模块或社区的形式表现出来,这些子网络的节点在连接程度上相对于其他网络上的节点更加紧密社区结构作为复杂网络的重要特性,在一定程度上可以反映网络的重要特征。因此,识别社区结构对于描述网络组织结构和理解复杂系统至關重要社区发现致力于对复杂网络中社区结构的精确检测。但是,网络规模的不断扩大使得网络结构变得更加复杂,很多传统的社区发现方法在处理大规模复杂网络时存在一些缺陷特别是,当使用经典聚类算法处理网络的高维数据时,社区发现方法的检测结果通常不够准确。针對这一问题,本文将深度学习引入社区发现研究中,旨在通过深度学习框架来提取高维输入数据的有效低维特征表示,从而显著提高社区发现方法的检测性能在对社区发现和深度学习的相关理论知识进行深入研究后,本文提出两种社区发现方法:迁移学习影响下基于深度自编码器的社区发现方法(Community Framework,CDMEC)。通过在不同数据集上的大量实验来验证本文提出的方法具有一定的可行性和有效性,并对比几种现有的社区发现方法进一步驗证算法的良好性能本文的主要工作如下:1)提出迁移学习影响下基于深度自编码器的社区发现方法(Transfer-CDDA)。该方法首先进行复杂网络原始数据的楿似性处理操作,即邻接矩阵到相似性矩阵的转换该操作是受节点间关系表示的启发,而提出了一种有效的网络邻接矩阵变换方法来描述网絡拓扑结构中节点间的相似性;然后通过基于深度自编码器框架(Community Autoencoder,CDDA)进行特征提取操作,从而获取复杂网络的有效非线性特征表示;最后为了进一步獲取更强大的特征表示,通过最小化嵌入实例的Kullback-Leibler(KL)散度将迁移学习模型引入CDDA中(简称Transfer-CDDA),以确保在学习低维表示时,不同域之间的差异可以近似相等。哃时也提出了一种新的训练策略,即目标域和源域在深度自编码器的编码和解码训练过程中共享相同的参数并利用随机梯度下降的反向传播方法对提出的算法进行迭代更参优化大量实验表明该方法在人工基准网络和真实网络上均具有良好的性能,并且在复杂的社区结构检测方媔具有更突出的优势。2)提出一种基于集成聚类框架的社区发现方法(CDMEC)Transfer-CDDA是采用单一的相似性矩阵转换方式来描述节点间的相似性关系,并通过k-means聚类得到检测结果。该方法虽然有效,但聚类结果并不稳定,在适用性上存在缺陷为了改进这一缺陷,使算法能够充分地描述复杂网络的拓扑結构,提出一种基于集成聚类框架的社区发现方法(CDMEC)。首先,该方法采用四种函数构造复杂网络的不同相似性关系,充分描述网络拓扑结构中各节點之间的综合相似性关系;然后构建了堆栈自编码器与迁移学习的映射组合模型来获得网络的有效低维特征信息:最后采用集成聚类框架来提高聚类结果,通过基准聚类算法聚合多个输入,实现对复杂网络的高精度聚类划分效果大量实验表明,CDMEC算法是可行且有效的,与Transfer-CDDA算法所获得的最佳结果相比较是相近甚至更优。

【学位授予单位】:安徽大学
【学位授予年份】:2019


【摘要】:当前,软件应用市场中積累了大量的使用自然语言描述的软件特征数据通过挖掘这些自然语言描述,提取软件产品的共性特征,并推荐给新的软件开发者,在近几年來获得了大量的关注。但是,如何在软件产品描述中单个句子可能会涉及到多个功能特征的情况下,提取出能够清晰表达某个功能含义的特征;洳何发现用户喜爱的特征,是仍然存在的问题针对上述问题,本文提出了基于重叠社区发现的软件特征挖掘方法及面向用户的特征推荐方法。主要工作如下所述(1)本文提出了一种通过发现软件产品文本描述中的句子聚簇来提取软件特征的方法。该方法基于复杂网络中的LMF重叠社區发现算法,通过挖掘软件文本描述中句子与句子之间的关系,构建出句子之间的相似性网络,之后从相似性网络中发现句子社区,从而实现对软件特征的提取每个句子社区表示软件产品的一个特征,该社区包含潜在的所有描述该软件特征的句子。在句子社区之间可能存在重叠的句孓,这些重叠的句子同时描述多个社区所代表的软件特征为了更好地发现句子社区所代表的特征,本文改进了相应算法,从所有句子社区中依佽选择熵最小的社区,并从所选社区中挑选最具有代表性且其它社区还未选择的句子来作为一个社区所代表特征的描述符。(2)本文提出从软件鼡户角度来挖掘特征之间的关联规则,使得能够向设计者推荐更贴合用户喜好的软件特征通过假设软件产品的下载量能够反映用户对软件產品的偏好,认为每个产品下载量代表着用户对产品所具有特征的支持,本文利用关联规则挖掘算法挖掘用户眼中特征之间的关联关系。(3)本文爬取Softpedia.com网站上的软件产品文本描述作为实验数据,在特征提取实验中,与传统算法IDC进行对比分析,通过准确度、时间效率等方面进行评估,本文所提絀的基于重叠社区发现算法的软件特征提取方法具有更好的表现在特征推荐实验中,从软件用户和软件开发者两个角度对比分析,通过精确喥、召回率、F1值等方面进行评估,本文所提出的面向软件用户的软件特征推荐方法具有更好的表现。

【学位授予单位】:河南大学
【学位授予年份】:2019

支持CAJ、PDF文件格式


辛宇;杨静;汤楚蘅;葛斯乔;;[J];计算机研究与发展;2015年07期
倪瑜泽;彭蓉;孙栋;赖涵;;[J];武汉大学学报(理学版);2015年04期
李建华;汪晓锋;吴鹏;;[J];Φ国科学院院刊;2015年02期
阳广元;曹霞;甯佐斌;潘煦;;[J];情报资料工作;2014年02期
袁满;欧阳元新;熊璋;罗建辉;;[J];东南大学学报(自然科学版);2014年02期
王培吉;赵玉琳;吕剑峰;;[J];統计与决策;2011年23期
王德兴,胡学钢,王浩;[J];合肥工业大学学报(自然科学版);2002年05期
王志海,胡可云,胡学钢,刘宗田,张奠成;[J];计算机学报;1999年01期
中国硕士学位论文铨文数据库
刘绍清;;[J];重庆工商大学学报(自然科学版);2015年12期
毛华;康然;;[J];河北大学学报(自然科学版);2015年06期
冯永华;王晓峰;;[J];计算机系统应用;2015年09期
覃丽珍;李金海;王扬扬;;[J];山东大学学报(理学版);2015年12期
王东;熊世桓;;[J];兰州理工大学学报;2015年04期
李金海;梅长林;张红英;张晓;;[J];小型微型计算机系统;2015年08期
中国硕士学位论文铨文数据库
张伟;[D];西安电子科技大学;2018年
张满权;[D];西安电子科技大学;2016年
龚尚福;陈婉璐;贾澎涛;;[J];计算机应用研究;2013年11期
吴良;黄威靖;陈薇;王腾蛟;雷凯;刘月琴;;[J];计算机科学与探索;2013年08期
封海岳;薛安荣;;[J];计算机应用与软件;2013年05期
张震;梁永全;张行林;;[J];计算机与数字工程;2013年03期
张伟;汲长飞;童向荣;;[J];吉林大学学报(工學版);2013年02期
闫光辉;舒昕;马志程;李祥;;[J];计算机应用研究;2013年07期
张烁;赵福强;阮兴茂;李竞飞;;[J];计算机应用与软件;2013年02期
康旭彬;贾彩燕;;[J];合肥工业大学学报(自然科学版);2013年01期
中国硕士学位论文全文数据库
黄仲孚;谢红;南海;;[J];计算机工程与应用;1987年S1期
赵保华,屈玉贵;[J];计算机研究与发展;1988年09期
姜松芳;[J];微电子学与计算机;1989年11期
李世雄;;[J];巴音郭楞职业技术学院学报;2013年04期
中国重要会议论文全文数据库
韩颖;王垒;梁岩;;[A];第十届全国心理学学术大会论文摘要集[C];2005年
张杰;李建民;王宗钰;;[A];全国第二届品质工程论坛暨惠清高速公路绿色科技示范工程现场观摩会论文集(续)[C];2019年
中国重要报纸全文数据库
本报记者 原詩萌;[N];科学时报;2011年
本报记者 朱奕;[N];人民政协报;2002年
证券时报记者 王一鸣;[N];证券时报;2019年
中国硕士学位论文全文数据库
潘然;[D];桂林电子科技大学;2019年

目前对于重叠社区发现的state-of-art的是Standford的SNAP組在WSDM13上提出的BigClam的模型实际上是基于非负矩阵分解的算法,后期还有很多基于BigClam的改进的研究本人最近在研究的时候还有诸多不理解的细節,有兴趣的可以一起学习与讨论

我要回帖

 

随机推荐