1、面向网络舆情的关联度分析面向网络舆情的关联度分析 摘 要 随着互联网的迅速发展,网络舆情对政治秩序秩序与社会稳定有着非比寻常的作用,因此挖掘网络用户信息与网络舆情信息的关联度的过程意义重大。编制java 语言,在关键词词频统计的基础上,给予用户信息中的关键词赋予比重不同的权重,实现在网络舆情资料库中对 web 信息提取与关键词提取的功能。将用户信息中的关键词转化为向量 A,向量的分量为对应的关键词的权重,同时使用二值法将网络舆情信息库中的网页转为向量 B,向量的分量为对应关键词的出现与否,将向量 B中的各分量分别乘于相应的权重值,得向量 C。求向量 A 与向量 C 的余弦值并由此构建关键词加权
2、评分系统,完成对相关网页的评分高低排序并归档。关键词:java,关键词赋权,余弦值1. 挖掘目标 本次建模目标是利用网络爬虫工具采集的大量网络舆情信息,采用数据挖掘技术,给予用户信息中的关键词赋权,分析用户信息中不同权重大小的关键词与网络舆情信息间的关系,挖掘用户与网络舆情信息的关联规则,使用关键词加权评分系统构建反映与用户最相关的网络舆情信息。从而可以发挥网络对社会监督的巨大作用,以及及时有效的处理网络舆情突发事件。 2. 分析方法与过程 2.1. 总体流程 本用例主要包括如下步骤: 步骤一: 编写 java 语言,在网络舆情信息资料库中进行 web 信息提取与关键词提取,对十项关键词(去除
3、二个样本无差别变量:国别,照片),进行“or”逻辑规则搜索,得到相应关键词的网页地址。 步骤二: 在关键词词频统计的基础上,设置用户信息中十项关键词的权重。 步骤三: 基于二值法优化构建关键词加权评分系统(详细流程见图 2),将净化出关键词的网页进行评分。 步骤四:对网页的评分高低排序并归档,完成关联度分析。 2.2. 具体步骤 步骤一:web信息提取与关键词提取样本预处理在用户信息的十二项关键词中,“国别”关键词在样本中均为“中国”,无法区别不同样本之间的差别,所以予以剔除。“照片”关键词只在三个样本中出现,相对全部样本而言样缺失值过多,所以予以剔除。 编写 java 语句,使其可以输入关键
4、词并遍历“网路舆情信息”文件夹。对关键词使用“or”逻辑规则完成对“网络舆情信息”的搜索。“or”逻辑规则即搜索时只要含有任意一个关键词即符合搜索条件,可输出。 搜索结果如下:由上表可知,在性别与住址频数中存在大量干扰信息,所以进一步修正搜索规则,对性别,住址单独出现的网址,予以剔除。 修正搜索结果如下:步骤二: 关键词的权重设置 根据表二中的关键词频数,计算关键词权重。 关键词出现的频数越多,提供的信息的干扰性越强,有效性越低,因此笔者将出现频数越大的关键词设置较小的权重。 计算方法如下: 将其余关键词代入上式公式,得关键词权重表如下:步骤四:评分排序并归档 1. 将步骤三中的cos i 计
5、算出结果并从高至低排序,同时为了数据直观表现,笔 者将 cos i的数值放大 100 倍。 2. 建立分档规则:70 分及以上为优;5070 分为良;3050 分为中;低于 30 分为差 3. 将数据按分档规则进行分档。 2.3. 结果分析 经计算结果如下: 1. 用户信息中的“高连岳,周茂名,周世涛,陈志祥,黄浩”五个样本信息无法找到与“网络舆情信息”文件夹中的网址有相匹配的关键词出现,则算得的3. 结论 从上述的结果分析中,笔者发现用户的得分结果并不理想,用户信息与网页关键词匹配程度达到“中”等,“差”等居多,达到“优”等占极少数,而其中同时只出现性别和住址两个关键词的网页与用户信息匹配居
6、多,而性别与住址两者包含的无效信息多。因此笔者的结果分析不能提供高的精确度保证结论的正确性。 代表性用户信息分析在结果分析中,笔者发现用户信息中“王力宏”的信息量少,出现的匹配关键词只有性别和住址,评分结果为“中”等,因“王力宏”为知名人士,而名人对自身的隐私保护相当严谨,以防止自身隐私泄露不应承担的负担。在结果分析中,笔者发现用户信息中“余晓明”的信息量大,出现的匹配关键词有性别,电话号码,QQ 号码与附加关键字。评分结果多为“良”等,与之匹配的网页多为广告型网页,发布的信息多为联系方式,以方便销售产品,因此推论此人为广告商或是广告代理人员。 在结果分析中,笔者发现用户信息中“张秋白”的信息
7、量大,原因在与之关键词匹配的网页中,有 1 个网页中的关键词完全与此用户信息的关键词匹配。则评分结果为“优”等。结果发现该网页内容为离婚协议。通过其他与此用户信息关键词匹配的网页,可以推此人为律师。在结果分析中,笔者发现用户信息中“胡万林”的此人的信息重复出现两次除了出生日期不同,其余关键词均相同。推论为用户为注册账号时,避免个人信息泄露过多,或是填写出生日期时选择错误,导致此种情况出现。模型优点:笔者通过 java 程序,可以迅速完成对关键词的在“网络舆情信息”的网页搜索,相比人工搜索省时省力,精准度大幅提高。同时也实现了关键词加权评分系统的一体化,即可以一步输出评分结果。不必分步计算结果,
8、使用户可以更简单方便的取得评分结果,并在此基础推导结论。 模型缺点:在关键词词频统计时,由于关键词性别与住址出现频数过多,导致其他关键词的权重区别不大,因此,为了区分关键词权重的不同,笔者将对性别,住址单独出现的网址,予以剔除。使得不同关键词的权重差异明显,但是按照笔者的思路,性别与住址这两个关键词的权重应该是在全部关键词权重中最小的两个,但是根据笔者的方法修改后,性别与住址的权重相对变大了,影响了在对关键词加权评分系统中的正常评分结果。模型改进:在结果分析中,笔者发现许多用户信息中与之匹配关键词的网址都只出现了性别和住址,但这两个关键词的无效信息大,应予以删除,重新计算评分排名情况。 修正前评分排名情况:删除了同时只出现性别和地址的网页,使得用户信息的评分系统更能真实反映用户与网页的关联度。 4. 参考文献 1张义忠. 基于内容的网页特征提取J.计算机工程与应用,2001,10 2何佳.网络舆情监控系统的实现方法J.郑州大学学报,2010,10 3华秀丽.语义分析与词频统计相结合的中文文本相似度量方法研究J.计算机应用研究,2012,03 4李实.中文网络客户评论的产品特征挖掘方法研究D.哈尔滨:哈尔滨工业大学,2009 5何新贵.中文文本的关键词自动抽取和模糊分类J.中文信息学报,1999,01