基于情感分析的在线论坛热点预测.doc
- 文档编号:454382
- 上传时间:2022-10-10
- 格式:DOC
- 页数:8
- 大小:241.50KB
基于情感分析的在线论坛热点预测.doc
《基于情感分析的在线论坛热点预测.doc》由会员分享,可在线阅读,更多相关《基于情感分析的在线论坛热点预测.doc(8页珍藏版)》请在冰豆网上搜索。
基于情感分析的在线论坛热点预测
摘要:
问题陈述:
在线论坛热点预测是一个Web挖掘研究的重要领域,它可以帮助人们在日常生活中做出正确的决定。
在线论坛,新闻报道和博客舆论,包含大量的公众意见信息。
网络的迅速发展引起了公众意见的高度重视,这对于及时分析社会舆论、正确了解他们的意见趋势非常重要。
方法:
文本挖掘和情感分析是预测网上论坛热点的重要因素。
大部分的传统文本挖掘工作集中在静态数据集,而在线热点预测针对Web信息时动态的和及时的。
早期的文本信息处理工作的重点是在实际的领域,而不是在意见领域。
由于网络民意的半结构化或非结构化的特点,我们介绍传统向量空间模型(VSM)来表示他们,然后用K平均法进行热点探测,接着我们使用J48分类法进行热点预测。
结果:
实验采用常见的快速挖掘工具,并且与其他方法的性能进行了比较,比如朴素贝叶斯。
使用三个指标验证k-均值和J48之间的一致性。
他们的准确性,敏感性和特异性。
结论:
结果表明k-均值和J48相结合有助于识别预测论坛热点,已获得J48提出的聚类与k-均值明显一致性的结果。
关键词:
热点,J48,k-均值,情感分析,文本挖掘,向量空间模型(VSM),明显的一致性,热点预测,一致性
简介
意见挖掘是数据挖掘和自然语言处理(NLP)的一个重要分支学科,可以自动提取,分类和理解不同用户的意见。
这些技术也有助于提高现有信息资源的价值,当在线时,可以用于新产品和系统集成。
快速发展的网络信息时代,网络数据以指数形式增长。
大多数的在线数据是半结构化或非结构化的格式,是难以自动破译的。
随着各大论坛各种各样的网络信息的大量增长,客户很难获取对他们有用的信息。
因此,在线论坛热点预测已成为Web挖掘中很有前途的研究领域。
在线论坛热点预测的自动化可以在许多方面对客户有益。
例如,公司可以收集他们新产品的评论,或者营销部门可以及时了解客户对有关产品和服务的要求。
所以,这促进了对热点的检测以及热点论坛的预测(LiandWu2010),有用的信息会提供给这些客户,他们会在决策过程中受益。
统计和机器学习有助于处理大量的在线数据(Thongwanetal.,2011)。
一个新兴的技术被称为情感极性的计算也被称为情感分析(Lietal.,2010)也可以在线文本挖掘过程中进行。
文本情感的目的是确定个人对某些特定主题的态度。
然而,在意见分类中,相关的词语不是很重要。
但是,意见的词表明正面或负面的意见是很重要的,例如,伟大的,极好的,惊人的,可怕的,坏的,极坏的。
大部分的意见挖掘方法应用于机器学习技术分类的一些形式。
为意见分类定制的算法也已经在发展了,利用意见的单词和短语,加上一些打分函数。
在这项研究中,我们检测到热点论坛,通过计算文本情感分析。
这种方法量化了可以识别的用户对于任何论坛的热点的关注度。
所提出的工作使用了一个集成文本挖掘和情感分析的方法。
文献综述:
有关工作的各种流评论挖掘,情感分类,使用机器学习技术预测热点。
意见挖掘:
在当今情形下,在线评论挖掘已经成为一个繁荣的领域,它可以为预测未来事件提供坚实的基础。
网上的评论(ChaovalitandZhou,2005)变得更有用,并且影响向它的潜在消费者提供产品信息。
提出了以WordNet多知识为基础的方法,统计分析和电影知识集成。
实验结果表明,在电影评论挖掘和总结方面,该方法很有效。
生成的语义取向标记的列表(HuandLiu,2004)仅含有用来分析的形容词。
最后,机器学习是用来描述相互作用的意见结构。
情感分类:
网上的文件,可以基于题目,作者,结构和操作系统进行分类。
基于情感分类已成为文本挖掘社区的新前沿。
情感分类的任务是确定词、句子或文档的语义取向。
最早期的工作把主题词作为处理单元。
一个在文档级的自动情感分类已经完成(Pangetal.,2002),在这几种机器学习的方法中,从IMDB电影评论分类中提取了常用的文本特征。
它已经指出直接营销是一种促使客户通过各种渠道下订单的方法(SindhwaniandMellville,2008)。
为了解决这个问题,一是需要有一个准确的客户细分,在这个基础上能很好地理解客户,使产品相关的信息可以提供给不同细分的客户。
分析推特(Thelwalletal.,2011)已经洞察出了为某些事产生共鸣的人。
发现曾经由于物理和/或时间的限制,那些客户只有一个有限的范围内的产品可以选择,现在面临着信息过载的问题。
一个有效提高客户满意度的方法,帮助客户根据自己的兴趣识别产品。
这又要求提供个性化产品推荐(PopescuandEtzioni,2005;Thelwalletal.,2010).。
潜类模型(LCM)来规避(HofmannandPuzicha,1999)上述问题。
将情绪信息(PaltoglouandThelwall,2010)转化为向量空间模型(VSM)使用监督方法的值有助于情感分析。
使用机器学习技术预测热点:
预测在线论坛热点的两个机器学习技术(LiandWu,2010)已被使用。
它包括k-均值和SVM。
与其他的学习方法不同,支持向量机(Preethietal.,2012)的性能是与系统功能的数量是不相关的,但相对边缘分离数据。
资料与方法
该工作有助于预测论坛热点,并且取得了高度一致的结果,通过施加一个有效的优化算法J48。
所提出的工作包括数据预处理,特征提取,情感计算,论坛聚类和论坛分类五个模块。
图1描述了所提出的方法的概念图。
图1.所提出方法的概念图
预处理:
用于我们实验研究的数据集从获取,经过数据清洗后,它们的格式转化为39个不同的论坛和1933个线程。
数据收集是通过抓取50个论坛的URL链接实现的,并且把链接存储在数据库中。
然后所有的主题帖和评论贴包含在相应的网页中,它们的链接存储在数据库中。
在爬虫的过程中实现数据清洗,噪声数据和无关数据被删除。
噪声数据包括在在线论坛上不清楚显示的图片帖子。
在论坛中张贴的不相关的数据不是出现在所有相关的论坛。
那些没有拥有跨越时间窗口没有线程的论坛答复和主题也会被删除。
最终经过清理后,39个论坛的时间跨度缩小到一月到十二月,每个时间窗口时一个半月长度(即15天时间)在2011年。
清理前和清理后的数据列在表1。
表1.清理前和清理后的数据视图
特征提取:
预处理工作是由特征提取来完成的。
每个论坛5个特征是在每个时间窗口中提取诸如线程的数目,线程的答复的平均数目,线程的平均情绪值,所有线程当中正的线程的负的线程之间的所有分数线程。
每个线程的情绪值可以通过计算文本情感得出。
论坛文本情感计算:
特征提取包括文本情感分析,目的是计算每个文本块的整数值。
这就是被添加的所有关键字的情绪值,实现对整篇文章的基于语义的情绪值的定位。
线程的答复被分解成一组关键词。
对于每个关键字的情绪值分配。
所有关键词的情绪值的总和将给予该线程的情绪值。
假设一个线程t,其答复被分解成一组关键词。
对于每个关键词的Wi(i=1,2,...,n)的让情绪值是SI。
然后,情绪值的线程St可以使用计算公式Eq.1:
人气值的计算是基于SentiStrength。
SentiStrength是一个文本情感分析算法,有助于估计文本的情绪值。
论坛采用K-均值聚类:
经过使用Kmeans算法,特征可以被提取出来。
每个论坛可以被表示为在一个向量空间中的数据点。
在特征提取过程中的载体是用来表示任何论坛的情感极性,并且它是由五个元素组成:
线程的数目,线程的答复的平均数目,线程的平均情绪值,所有的线程积极的部分和消极线程之间的分数。
这些数据给出的输入的k-means获得所有论坛的集群视图,其中是聚类。
得到论坛的热点和非热点,每个时间范围内是那些最接近簇的理论中心。
使用J48进行论坛分类:
分类可以使用J48(决策树)分类算法。
它是一个预测型的机器学习模型,在决定目标值新样本的基础上可使用数据的各种属性。
J48是用来实现热点预测。
为了在当前时间窗口内预测论坛热点,可以使用从先前的时间窗口的方法所得到的K-means的聚类结果。
它执行论坛分类迭代,并试图寻找最佳的解决方案。
对于每个J48,输入是一个表示矢量和优化的版面,输出是由每个论坛分类为任一热点或者非热点来实现。
在预测论坛热点的准确性与性能方面,可以使用改进的模型和模型的一致性进行验证。
实验结果
我们从论坛所收集的数据包括线程和回复,从2007年1月检索至至2011年12月。
清理之前和之后的数据视图如表1所示。
特征提取从清理后的39个论坛,从2011年1月至2011年12月,包括线程计算的情绪值。
随后是特征提取,Kmeans聚类和分类方法使用J48对39个论坛的每个时间窗在2011年。
已取得使用J48呈现与K-均值聚类的成绩有明显的一致性的结果。
这是最流行的基于线程的平均数用户之间的论坛包括“搜索营销,出版商网络,adCenter,一般市场营销”。
这些受欢迎的论坛基于回复的平均数包括“AffiliatePrograms-Google,AffiliateNetwork,Payments,Google-Google+”。
这大多认定为论坛热点,双方的Kmeans聚类和J48的时间窗口从2011年1月至2011年12月,见表2。
表2.使用K-means和J48认定的论坛热点
性能评价:
关于Kmeans和J48算法之间的一致性,使用三个指标进行验证。
它们是精确度,灵敏度和特异性。
一组的这三个指标都适用于每个时间窗口。
公式定义如下2-4:
其中,TP表示是由两个K-均值和J48估计的论坛热点的数量。
TN表示是由两个K-均值和J48估计的非论坛热点的数量。
FP表示由J48而不是K均值估计的论坛热点的数量。
FN表示由J48所估计的非热点数量,而热点数量由K-均值估计。
用公式.2-4,将所述评估性能为每个时间窗口。
时间窗口是指那些在J48的分类处理中使用的。
讨论
表3显示了在每一时间窗为不同的K值,从K=2到K=7,而使用J48分类算法的准确度(%)。
它清楚地表明,该方法有助于实现令人满意的精确的结果,尤其是当K达到一定的价值。
表3.同时采用J48算法在每个时间窗精度(%)
在每个时间窗下不同的K值准确度(%)
表4表明,相比比朴素贝叶斯分类算法,提出的J48分类算法给出了一个更为优化的精度结果。
针对不同的K值所得的平均准确度(%)显示在表4中。
表4.J48和朴素贝叶斯算法的平均精度(%)
同样的性能,可使用其它两个指标来评估,其结果可以进行比较。
灵敏度显示了作为中间的标记,是由K-均值进行分类的所有论坛热点,基于分类算法的论坛的分数。
使用J48和朴素贝叶斯分类不同的K值所获得的平均灵敏度值显示在表5中。
表5.J48和朴素贝叶斯算法平均灵敏度
下一个重要的测量值,显示其作为中间是由K-均值进行分类,标记为非论坛热点的所有非热点,论坛分类算法有一小部分的特异性。
灵敏度的结果显示于表6中。
表6.J48和朴素贝叶斯算法的平均特异性
同时采用J48和朴素贝叶斯获得了不同的K值的准确度(%)显示在图.2。
图2.使用J48和朴素贝叶斯算法的精度比较
J48和朴素贝叶斯两种分类算法获得的准确度(%)显示在表7中。
表7.朴素贝叶斯与J48的准确度比较
结论
本研究提出了预测论坛热点的新方法。
在这种方法中,文本的情感极性是通过计算对文本的各部分的值获得的。
经过计算情感值,然后用K-均值聚类和J48分类算法和朴素贝叶斯分类算法的论坛热点预测集成。
计算表明两个K-均值和J48产生一致的分组结果。
当K已经达到了一定的值,该提议的新方法有助于实现一个满意的准确性的结果。
在20个时间窗中,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 情感 分析 在线 论坛 热点 预测