基于GraphX的社区发现.pptx
- 文档编号:66299
- 上传时间:2022-10-01
- 格式:PPTX
- 页数:24
- 大小:630.77KB
基于GraphX的社区发现.pptx
《基于GraphX的社区发现.pptx》由会员分享,可在线阅读,更多相关《基于GraphX的社区发现.pptx(24页珍藏版)》请在冰豆网上搜索。
基于GraphX的社区发现刀剑淘宝技术部数据挖掘与计算复杂算法复杂网络引言节点表系统中的个体边表个体之间的关系Spark-技术讲座-猎头公司-云服务户外活动-打折机票-酒店住宿-旅游攻略社区发现CommunityDetection相关工作FastUnfolding算法基于GraphX实现总结相关工作-算法调研GNAlgorithmGN算法1每次选择betweenness最大的边进行删除当节点数量较大时,计算全局的betweenness很复杂,可以考虑抽样的方法21communitystructureinsocialandbiologicalnetworks2FastApproximationofBetweennessCentralitythroughSampling相关工作-算法调研LabelPropagationAlgorithm每个点会把它的标签传播到它的邻居,达到稳定后属于同一个标签的点划分到一个社区3COPRA4,每个节点记录多个label,删去概率低于阈值的labelSLPA5,不删去label,最后统计各label的频率,去除低频率的label3Nearlineartimealgorithmtodetectcommunitystructuresinlarge-scalenetworks4Findingoverlappingcommunitiesinnetworksbylabelpropagation5TowardsLinearTimeOverlappingCommunityDetectioninSocialNetworks相关工作-算法调研其他算法KCoreSubgraph6LocalExpansion7ParticleCompetition8GameTheory96AcceleratingCommunityDetectionbyUsingK-coreSubgraphs7OverlappingCommunityDetectionUsingSeedSetExpansion8UncoveringOverlapCommunityStructureinComplexNetworksusingParticleCompetition9Agame-theoreticframeworktoidentifyoverlappingcommunitiesinsocialnetworks相关工作-评估标准模块化Modularityijkikj2mAij衡量与随机模型(NullModel)的差异计算公式10如下:
节点i到节点j存在连线可能性10Modularityandcommunitystructureinnetworks实与总与边际ij相数i连与为共总j2间边mki边数条数为边为kjAijFastUnfolding算法(Louvain算法)算法流程111.初始化,将每个节点划分在不同的社区中2.对每个节点,计算Modularity增益3.执行Unfolding,合并节点11FastalgorithmfordetectingcommunitystructureinnetworksFastUnfolding算法(Louvain算法)算法流程1.初始化,将每个节点划分在不同的社区中2.对每个节点,计算Modularity增益3.执行Unfolding,合并节点FastUnfolding算法(Louvain算法)算法流程1.初始化,将每个节点划分在不同的社区中2.对每个节点,计算Modularity增益3.执行Unfolding,合并节点4.构造新图基于GraphX实现基于分布式图计算框架GraphX串行化实现?
对于细粒度的操作,支持并不良好不能充分利用分布式框架高并发、集群计算优势基于GraphX实现并行化实现逐个选择节点改变社区同时改变所有节点的社区基于GraphX实现1.获得邻居信息(MapReduceTriplets)Map:
生成邻居节点的消息VertexDataReduce:
获得所有邻居节点的信息,2.获得每个节点新社区)3.更新图信息,合并节点,进行多轮迭代并行化实现-步骤VertexDataVertexDataArrayVertexData基于GraphX实现并行化实现-优化1.使用aggregateMessages替代MapReduceTriplets耗时减少约30%2.使用Kryo进行序列化序列化的耗时减少约5倍,存储空间也有压缩基于GraphX实现并行化实现-问题Modularity中间计算量过大消息滞后基于GraphX实现并行化实现-问题1Modularity中间计算量过大pairwiseijklijkl基于GraphX实现并行化实现-问题1-解决Modularity中间计算量过大pairwise选择合适的模型基于GraphX实现并行化实现-问题2消息滞后243G2G21G1G14G113G1G22G22G23G3社区归属延迟互换社区G114G43G3t轮根据t-1轮信息更新1G22G3基于GraphX实现消息滞后243G2G21G1G1G22G2互换社区G114G43G32G3并行化实现-问题2-解决G11G2243G11243t尝轮试根使据用t随-机1轮值信,即息每更次新会有部分节点的社区保持不变3G3社区归属延迟结果不能保证1G2基于GraphX实现消息滞后24G1G12G2G113G34G4并行化实现-问题2-解决以构图,再求解连通域IdCommunity12213241srcdst12213241G1213G1基于图的特性基于GraphX实现效果zachary数据集基于GraphX实现效果浏览日志二跳子图基于GraphX实现效果数据量Vertex:
1kwEdge:
3kw资源Executors:
100并发度:
20020G,2Core/PerExecutors耗时大约2小时总结特点基于Modularity优化的方式Unfolding过程减少节点数思考选择合适的模型很重要从图的特性去考虑解决问题结合SparkGraphX的特性求解
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 GraphX 社区 发现