深圳杯B题手机用户识别Word格式文档下载.docx
- 文档编号:18761344
- 上传时间:2023-01-01
- 格式:DOCX
- 页数:52
- 大小:443.20KB
深圳杯B题手机用户识别Word格式文档下载.docx
《深圳杯B题手机用户识别Word格式文档下载.docx》由会员分享,可在线阅读,更多相关《深圳杯B题手机用户识别Word格式文档下载.docx(52页珍藏版)》请在冰豆网上搜索。
2、假设本文中提取的手机用户信息不随时间的变化而改变;
3、假设在对短信领袖的识别中不存在垃圾短信等现象。
3、符号说明
RI
平均随机一致性指标
~
F
模糊指标矩阵
CI
一致性指标
w~
权重向量
M−
模糊负理想
模糊决策矩阵
µ
i
隶属度
M+
模糊正理想
~D
4.1短信领袖
4、模型的建立与求解
4.1.1方法一——层次分析法模型:
言论领袖是最具影响力的论坛人物,在言论领袖的确定中,本文考虑到的是访问量、
跟帖数、精华帖数、发帖总数、主题数和威望这几个因素。
本文根据以下方法对数据处理后可以得到m个用户的n项指标的数据,然后再运用层次分析法从m个用户中选出言论领袖.
4.1.2设定的评判标准如下:
(1)学术水平与信用等级学术水平与信用等级是用户对贴主的解答的专业程度等做出的评价。
我们根据学术
水平与信用等级均不小于20点进行第一步筛选,剔除部分用户。
(2)发帖数用户在论坛上的发帖数的多少是衡量的基本标准。
我们根据用户的发帖数与总体发
帖数之间的比值,剔除掉一些比值太小的用户。
(3)主题数主题数即由某人引起的话题的数目。
一个能提出好的主题并且吸引很多人浏览甚至
跟帖的贴主成为言论领袖的概率比较大。
排除掉那些没有提出主题数的用户。
(4)跟帖数与浏览数在发表的帖子后面,写上自己的意见,称为跟帖,也同回帖。
一篇论坛贴跟帖数
的多少是该帖子所引起的讨论热度以及被关注程度的直接反映。
当浏览数与跟帖数的比值太大,说明该帖有哗众取宠的嫌疑,不可能成为言论领袖;
当浏览数与跟帖数的比值太大时,有灌水的可能。
所以在本文中剔除掉其比值较小的用户。
(5)精华帖数精华贴是论坛中的一种帖子种类,是被版主或管理员加为精华的帖子,一般此
类贴子内容丰富,有较高的阅读价值。
.精华帖更具优越性,在评定话题用户中占重要比重。
(6)威望论坛威望是指该用户在论坛的交往能力,魅力指数。
威望越多说明该用户在论坛内
的人气越高、交往能力越强,魅力值越高.为了简化数据的繁杂性,在数据的整理中我们添加威望指标,剔除掉威望值较小的用户,这样就简化得到更优的数据。
通过http:
//www.pinggu.org/bbs/网站我们运用网络神采软件(采集过程见附录4)对论坛信息进行数据的挖掘.由于考虑到计算过程的繁琐,本文特此选取其中15位用户(标号
1~15)进行评价,如表1所示:
表1筛选出的15名论坛用户信息
序
号
用户名
帖子
数
发帖比
例
访问
量
跟帖
跟帖/访问
精威主学术信用
华望题水平等级
1
经济门
外溜达
1521
0.020%
600
86
0.143333
106点
75点
2
xiaoz
566
0.007%
1298
598
0.460709
6
9
60点
65点
3
青山客
5149
0.068%
21545
1567
0.072731
4
15
54点
22点
沙漏
830
0.011%
756
13
0.017196
10点
5
犀利哥
1265
0.017%
389
85
0.218509
21点
两元鱼
726
0.010%
2319
79
0.034066
32点
33点
7
zeroman
n
45
0.001%
349
0.025788
23点
来无影
8去无踪6010.008%16371480.09040900430点16点
9老猫1190.002%3080010048点48点
10
earon
head2410.003%579340.0587220002点2点
11叉尔施250.0003%2130010011点10点
12诺言930.001%582420.0721650010点0点
13三公子42320.056%3196710670.033378081124点21点
14枫11110.015%126736190.04884406947点32点
15之语嘛18080.024%25539720.0028191132096点76点
表1
由以上叙述的方法,根据学术水平与信用等级均不小于20点进行第一步筛选,剔除用户4、8、10、11、12。
再根据发帖数的多少进一步筛选,剔除掉比例小于0.005%的用户7、9;
对未提出讨论主题并且跟帖数与浏览数小于0.03的用户进行排除1、15;
对剩下的用户继续筛选,排除掉威望指小于3的用户6;
得到最后相对有可能成为言论领袖的用户2、3、5、13和14.下面用层次分析法分析得到最有权威的言论领袖.
将上述5个用户重新编号,根据上面方法对数据处理后得到5个用户的5项指标的数据,然后再运用层次分析法从5个用户中选出言论领袖,如表2所示:
表2可能成为言论领袖的5名论坛用户信息
用户
序号用户名帖子数访问量跟帖数威望主题
1xiaoz566129859869
2青山客5149215451567415
3犀利哥12653898531
4三公子4232319671067811
5枫11111267361969
表2
4.1.3模型的建立:
1)、建立递阶层次结构模型,在此问题中,根据主题、精华帖数、跟贴数、访问量和威望5个准则去反复比较5个侯选网上用户,如图1所示:
层次结构模型图
图1
2)、构造出各层次中的所有判断矩阵,采取对因子进行两两比较建立成对比较矩阵的办法.即每次取两个因子xi和xj,以aij表示xi和xj对Z的影响大小之比,全部比较结
果用矩阵A=[aij]表示,称A为Z−X之间的成对比较判断矩阵(简称判断矩阵).容易
看出,若xi与xj对Z的影响之比为aij,则xj与xi对Z的影响之比应为
.
a=
ji
a
ij
并引用数字1~9及其倒数作为标度,如表3所示:
表31~9标度的含义
标度
含义
表示两个因素相比,具有相同重要性
表示两个因素相比,前者比后者稍重要
表示两个因素相比,前者比后者明显重要
表示两个因素相比,前者比后者强烈重要
表示两个因素相比,前者比后者极端重要
2,4,6,8
表示上述相邻判断的中间值
倒数
若因素i与因素j的重要性之比为aij,那么因素j与因素i重要性之比为
aji=.
aij
表3
比较多个因子对某个因素的重要性的判断依据:
准则层对目标层的判断依据:
经过网上试卷调查及咨询相关专业人士.可以构造主题、精华帖数、跟贴数、访问量和威望5个对言论领袖的重要性判断矩阵,如表4所示:
表4准则层
O
C1主题
C2精华贴数
C3跟帖数
C4访问量
C5威望
1/7
1/3
1/2
1/5
C4访问量
表4
措施层对准则层的判断依据:
根据我们在网站统计的相关项目的数目来比较,用户信息如表2所示.类似地,分别比较五个候选用户的主题、精华帖数、跟贴数和浏览数得成对比较阵,如表5所示:
表5方案层
C1
P1
P2
P3
P4
P5
1/9
C2
C3
C4
C5
3)、层次单排序及一致性检验:
判断矩阵A对应于最大特征值λmax的特征向量W,经归一化后即为同一层次相应因素对于上一层次某因素相对重要性的排序权值,这一过程称为层次单排序.即:
若A的最
max1n
大特征值λ对应的特征向量为W=(w,⋯,w)T,则
w
a=wi,i,j=1,2,⋯,n,
j
即
⎡w1
⎢w
w1⋯
w1⎤
w⎥
⎢12n⎥
⎢w2
A=⎢w
⎢⋯
⎢n
w2⋯
w2
⋯⋯
=wn⋯
w2⎥
w⎥.
⋯⎥
n⎥
w1w2wn
对判断矩阵的一致性检验的步骤如下:
(i)计算一致性指标CI:
CI=λmax−nn−1
(ii)查找相应的平均随机一致性指标RI.对n=1,⋯,9,RI的值,如表6所示:
表6一致性指标RI值
8
0.58
0.90
1.12
1.24
1.32
1.41
1.45
表6
RI的值是这样得到的,用随机方法构造500个样本矩阵:
随机地从1~9及其倒数
中抽取数字构造正互反矩阵,求得最大特征根的平均值λ'
max,并定义
RI=λm′ax−n.RI=1.12
n−1
(iii)计算一致性比例CR
CR=CI=λmax−n
RIλm′ax−n
当CR<
0.10时,认为判断矩阵的一致性是可以接受的,否则应对判断矩阵作适当修正.
4)、层次总排序及一致性检验.上面我们得到的是一组元素对其上一层中某元素的权重向量.我们最终要得到各元
素,特别是最低层中各方案对于目标的排序权重,从而进行方案选择.总排序权重要自上而下地将单准则下的权重进行合成.
当准则层包含A1,⋯,Am共m个因素,它们的层次总排序权重分别为a1,⋯,am.措施
层包含n个因素B1,⋯,Bn,它们关于Aj的层次单排序权重分别为b1j,⋯,bnj(当Bi与Aj无关联时,bij=0).现求B层中各因素关于总目标的权重,即求措施层各因素的层次总排序
权重b1,⋯,bn,计算如表7所示方式进行,即
m
bi=∑bijaj,i=1,⋯,n.
j=1
表7层次总排序权重
AB
A1
a1
A2
a2
…
Am
am
B层总进展权值
B1
b11
b21
bn1
∑b1ja
B2
b12
b22
bn2
∑b2ja
Bn
b1n
b2n
bnn
∑bnja
表7
对层次总排序作一致性检验:
设B层中与Aj相关的因素的成对比较判断矩阵在单排序中经一致性检验,求得单排序一致性指标为CI(j),(j=1,⋯,m),相应的平均随机一致性指标为RI(j)(CI(j)、RI(j)已在层次单排序时求得),则B层总排序随机一致性比
例为
CR=
∑CI(j)aj
∑RI(j)aj
0.10时,认为层次总排序结果具有较满意的一致性并接受该分析结果.根据以上利用MATLAB软件进行求解(程序见附录1),得到表8的如下结果:
表8层次总排序
准则
主题
精华贴数
跟帖数
访问量
威望
总排序
权值
准则层权值
0.0484
0.4621
0.1424
0.0694
0.2778
方案层
单排序权值
用户1
0.0951
0.0454
0.0902
0.0634
0.1760
0.0917
用户2
0.5009
0.5011
0.2615
0.0849
0.3688
用户3
0.0318
0.0333
0.0421
0.0637
用户4
0.2471
0.2442
0.5128
0.4646
0.3242
用户5
0.1251
0.1191
0.1290
0.2323
0.1515
表8
由此可知,用户的影响力排名为:
用户2>
用户4>
用户5>
用户1>
用户3即青山客>
三公子>
枫>
xiaoz>
犀利哥显然,用户2即青山客为论坛的言论领袖.
4.1.4方法二——主成分分析法模型主成分分析将具有一定相关性的众多指标重新组合成新的无相互关系的综合指标
来代替。
通常数学上的处理就是将这P个指标进行线性组合作为新的综合指标。
现有15位人大经济论坛用户,根据帖子数、浏览次数、跟帖数、精华、经验、威望、学术水平、信用等级、在线时间和主题等相关各条件得到最佳的论坛领袖成员的识别方案。
因为考虑的因素很多,可以采用主成分分析法对其简化。
4.1.5数据标准化:
对原始数据进行标准化处理.现有15位人大经济论坛用户,每人共有10个评定因
素,aij(量纲不同,数值差别较大,使得各个指标的作用常难于比较,因此需要
i=1,2,⋯,15;
j=1,2,3,⋯10)为第i个人员的第j个评价指标,标准化计算公式如下:
zij−zij
其中:
Xij=
i=1,2,⋯,15;
j=1,2,3,⋯10
sj
n
2=1∑(
−),j=1,2,3,⋯10
sj15−1i=1
zijzj
zj=
115
zj
15∑
i=1
利用Matlab程序标准化数据x,利用cov函数求出协方差矩阵,进一步利用eig函数
对求得的协方差矩阵求得特征根,又根据假设主成分的选定需要影响因素累计贡献率大于百分之八十,于是得到四个符合假设的主成分的特征根:
d1=4.84
d2=2.10
d3=1.65
d4=0.70
由上面的数据我们可以得到(d1,d2,d3,d4)的累计贡献率达到了92.92%>
80%
以主成
分的方差贡献率为权数,对这四个主成分得分进行加权,利用Matlab程序。
算出一个
综合得分,得到的结果,即15位人大经济论用户的领袖排序
领袖
排名
11
12
14
序号
4.1.6两种方法的结果差异分析:
方法一领袖排序的结果:
青山客>
犀利哥方法二领袖排序的结果:
之语嘛>
xiaoz根据上述结果可知,由层次分析法和主成分分析法所得的领袖前5名的用户基本相
同,即说明上述两个模型通过相互检验,对确定论坛领袖具有可行性。
而排名的顺序不同,经分析知,导致其不同的原因是所考虑的影响因素的不同。
综上所述,论坛领袖为“青山客”和“三公子”。
4.2话题用户
4.2.1模型的建立与求解:
关注某一话题的用户的定位从其跟帖的主题、谈论内容来判断,设定话题名以及与
话题名有关的词语为关键词.利用MATLAB编程搜索一篇跟帖中出现话题关键词的频数来判定该用户是否为话题用户.步骤如下:
步骤一:
确定所讨论话题的关键词及近义词
选定一个讨论话题,使用google或者XX的模糊搜索功能确定出和所讨论话题相关
的关键词及关键词的近义词,设关键词及关键词的近义词所组成的集合为{a1,a2,…,an}.例如,当选定数学建模话题时,通过google模糊搜索找出的关键词及关键词的近义词所
组成的集合为{数学建模,数学建模优秀论文,数学中国,…}.
步骤二:
对某一时间段内的主题帖标题进行检索,找出包含所讨论话题关键词及近
义词的主贴,包含话题关键词及近义词的主贴的集合为{b1,b2,…,bm},MATLAB编程(见附录1)
步骤三:
对步骤二中所出现的用户组成集合{c1,c2,…,cl},对确定出的主题帖中的用户进行排序,取出现频数的均值,高于均值的用户即为可能的话题用户.
话题用户的识别实例:
利用步骤二对数学中国网站的资源专区:
关于MATLAB编程筛选出5个关于该话题的主题帖,1、MATLAB编程基础;
2、MATLAB编程语言风格;
3、nlinfit求教MATLAB编程问题;
4、预防性维修周期的MATLAB编程;
5、MATLAB编程源代码。
筛选出只出现在一个主题帖的用户,统计出现在五个主题帖的用户次数排序如表9:
表9主题帖的跟帖用户次数排序
数学者
zhouzhihua
pangheming
li
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深圳 手机用户 识别