书签分享收藏举报版权申诉 / 8

立即下载加入VIP,免费下载

当前位置：首页 > 考试认证 > 财会金融考试 > 基于情感分析的在线论坛热点预测.doc

基于情感分析的在线论坛热点预测.doc

文档编号：454382
上传时间：2022-10-10
格式：DOC
页数：8
大小：241.50KB

基于情感分析的在线论坛热点预测.doc

《基于情感分析的在线论坛热点预测.doc》由会员分享，可在线阅读，更多相关《基于情感分析的在线论坛热点预测.doc（8页珍藏版）》请在冰豆网上搜索。

基于情感分析的在线论坛热点预测.doc

基于情感分析的在线论坛热点预测

摘要：

问题陈述：

在线论坛热点预测是一个Web挖掘研究的重要领域，它可以帮助人们在日常生活中做出正确的决定。

在线论坛，新闻报道和博客舆论，包含大量的公众意见信息。

网络的迅速发展引起了公众意见的高度重视，这对于及时分析社会舆论、正确了解他们的意见趋势非常重要。

方法：

文本挖掘和情感分析是预测网上论坛热点的重要因素。

大部分的传统文本挖掘工作集中在静态数据集，而在线热点预测针对Web信息时动态的和及时的。

早期的文本信息处理工作的重点是在实际的领域，而不是在意见领域。

由于网络民意的半结构化或非结构化的特点，我们介绍传统向量空间模型（VSM）来表示他们，然后用K平均法进行热点探测，接着我们使用J48分类法进行热点预测。

结果：

实验采用常见的快速挖掘工具，并且与其他方法的性能进行了比较，比如朴素贝叶斯。

使用三个指标验证k-均值和J48之间的一致性。

他们的准确性，敏感性和特异性。

结论：

结果表明k-均值和J48相结合有助于识别预测论坛热点，已获得J48提出的聚类与k-均值明显一致性的结果。

关键词：

热点，J48，k-均值，情感分析，文本挖掘，向量空间模型（VSM），明显的一致性，热点预测，一致性

简介

意见挖掘是数据挖掘和自然语言处理（NLP）的一个重要分支学科，可以自动提取，分类和理解不同用户的意见。

这些技术也有助于提高现有信息资源的价值，当在线时，可以用于新产品和系统集成。

快速发展的网络信息时代，网络数据以指数形式增长。

大多数的在线数据是半结构化或非结构化的格式，是难以自动破译的。

随着各大论坛各种各样的网络信息的大量增长，客户很难获取对他们有用的信息。

因此，在线论坛热点预测已成为Web挖掘中很有前途的研究领域。

在线论坛热点预测的自动化可以在许多方面对客户有益。

例如，公司可以收集他们新产品的评论，或者营销部门可以及时了解客户对有关产品和服务的要求。

所以，这促进了对热点的检测以及热点论坛的预测（LiandWu2010），有用的信息会提供给这些客户，他们会在决策过程中受益。

统计和机器学习有助于处理大量的在线数据（Thongwanetal.,2011）。

一个新兴的技术被称为情感极性的计算也被称为情感分析（Lietal.,2010）也可以在线文本挖掘过程中进行。

文本情感的目的是确定个人对某些特定主题的态度。

然而，在意见分类中，相关的词语不是很重要。

但是，意见的词表明正面或负面的意见是很重要的，例如，伟大的，极好的，惊人的，可怕的，坏的，极坏的。

大部分的意见挖掘方法应用于机器学习技术分类的一些形式。

为意见分类定制的算法也已经在发展了，利用意见的单词和短语，加上一些打分函数。

在这项研究中，我们检测到热点论坛，通过计算文本情感分析。

这种方法量化了可以识别的用户对于任何论坛的热点的关注度。

所提出的工作使用了一个集成文本挖掘和情感分析的方法。

文献综述：

有关工作的各种流评论挖掘，情感分类，使用机器学习技术预测热点。

意见挖掘：

在当今情形下，在线评论挖掘已经成为一个繁荣的领域，它可以为预测未来事件提供坚实的基础。

网上的评论（ChaovalitandZhou,2005）变得更有用，并且影响向它的潜在消费者提供产品信息。

提出了以WordNet多知识为基础的方法，统计分析和电影知识集成。

实验结果表明，在电影评论挖掘和总结方面，该方法很有效。

生成的语义取向标记的列表（HuandLiu,2004）仅含有用来分析的形容词。

最后，机器学习是用来描述相互作用的意见结构。

情感分类：

网上的文件，可以基于题目，作者，结构和操作系统进行分类。

基于情感分类已成为文本挖掘社区的新前沿。

情感分类的任务是确定词、句子或文档的语义取向。

最早期的工作把主题词作为处理单元。

一个在文档级的自动情感分类已经完成（Pangetal.,2002），在这几种机器学习的方法中，从IMDB电影评论分类中提取了常用的文本特征。

它已经指出直接营销是一种促使客户通过各种渠道下订单的方法（SindhwaniandMellville,2008）。

为了解决这个问题，一是需要有一个准确的客户细分，在这个基础上能很好地理解客户，使产品相关的信息可以提供给不同细分的客户。

分析推特（Thelwalletal.,2011）已经洞察出了为某些事产生共鸣的人。

发现曾经由于物理和/或时间的限制，那些客户只有一个有限的范围内的产品可以选择，现在面临着信息过载的问题。

一个有效提高客户满意度的方法，帮助客户根据自己的兴趣识别产品。

这又要求提供个性化产品推荐（PopescuandEtzioni,2005;Thelwalletal.,2010）.。

潜类模型（LCM）来规避（HofmannandPuzicha,1999）上述问题。

将情绪信息（PaltoglouandThelwall,2010）转化为向量空间模型（VSM）使用监督方法的值有助于情感分析。

使用机器学习技术预测热点：

预测在线论坛热点的两个机器学习技术（LiandWu,2010）已被使用。

它包括k-均值和SVM。

与其他的学习方法不同，支持向量机（Preethietal.,2012）的性能是与系统功能的数量是不相关的，但相对边缘分离数据。

资料与方法

该工作有助于预测论坛热点，并且取得了高度一致的结果，通过施加一个有效的优化算法J48。

所提出的工作包括数据预处理，特征提取，情感计算，论坛聚类和论坛分类五个模块。

图1描述了所提出的方法的概念图。

图1.所提出方法的概念图

预处理：

用于我们实验研究的数据集从获取，经过数据清洗后，它们的格式转化为39个不同的论坛和1933个线程。

数据收集是通过抓取50个论坛的URL链接实现的，并且把链接存储在数据库中。

然后所有的主题帖和评论贴包含在相应的网页中，它们的链接存储在数据库中。

在爬虫的过程中实现数据清洗，噪声数据和无关数据被删除。

噪声数据包括在在线论坛上不清楚显示的图片帖子。

在论坛中张贴的不相关的数据不是出现在所有相关的论坛。

那些没有拥有跨越时间窗口没有线程的论坛答复和主题也会被删除。

最终经过清理后，39个论坛的时间跨度缩小到一月到十二月，每个时间窗口时一个半月长度（即15天时间）在2011年。

清理前和清理后的数据列在表1。

表1.清理前和清理后的数据视图

特征提取：

预处理工作是由特征提取来完成的。

每个论坛5个特征是在每个时间窗口中提取诸如线程的数目，线程的答复的平均数目，线程的平均情绪值，所有线程当中正的线程的负的线程之间的所有分数线程。

每个线程的情绪值可以通过计算文本情感得出。

论坛文本情感计算：

特征提取包括文本情感分析，目的是计算每个文本块的整数值。

这就是被添加的所有关键字的情绪值，实现对整篇文章的基于语义的情绪值的定位。

线程的答复被分解成一组关键词。

对于每个关键字的情绪值分配。

所有关键词的情绪值的总和将给予该线程的情绪值。

假设一个线程t，其答复被分解成一组关键词。

对于每个关键词的Wi（i=1，2，...，n）的让情绪值是SI。

然后，情绪值的线程St可以使用计算公式Eq.1：

人气值的计算是基于SentiStrength。

SentiStrength是一个文本情感分析算法，有助于估计文本的情绪值。

论坛采用K-均值聚类：

经过使用Kmeans算法，特征可以被提取出来。

每个论坛可以被表示为在一个向量空间中的数据点。

在特征提取过程中的载体是用来表示任何论坛的情感极性，并且它是由五个元素组成：

线程的数目，线程的答复的平均数目，线程的平均情绪值，所有的线程积极的部分和消极线程之间的分数。

这些数据给出的输入的k-means获得所有论坛的集群视图，其中是聚类。

得到论坛的热点和非热点，每个时间范围内是那些最接近簇的理论中心。

使用J48进行论坛分类：

分类可以使用J48（决策树）分类算法。

它是一个预测型的机器学习模型，在决定目标值新样本的基础上可使用数据的各种属性。

J48是用来实现热点预测。

为了在当前时间窗口内预测论坛热点，可以使用从先前的时间窗口的方法所得到的K-means的聚类结果。

它执行论坛分类迭代，并试图寻找最佳的解决方案。

对于每个J48，输入是一个表示矢量和优化的版面，输出是由每个论坛分类为任一热点或者非热点来实现。

在预测论坛热点的准确性与性能方面，可以使用改进的模型和模型的一致性进行验证。

实验结果

我们从论坛所收集的数据包括线程和回复，从2007年1月检索至至2011年12月。

清理之前和之后的数据视图如表1所示。

特征提取从清理后的39个论坛，从2011年1月至2011年12月，包括线程计算的情绪值。

随后是特征提取，Kmeans聚类和分类方法使用J48对39个论坛的每个时间窗在2011年。

已取得使用J48呈现与K-均值聚类的成绩有明显的一致性的结果。

这是最流行的基于线程的平均数用户之间的论坛包括“搜索营销，出版商网络，adCenter，一般市场营销”。

这些受欢迎的论坛基于回复的平均数包括“AffiliatePrograms-Google,AffiliateNetwork,Payments,Google-Google+”。

这大多认定为论坛热点，双方的Kmeans聚类和J48的时间窗口从2011年1月至2011年12月，见表2。

表2.使用K-means和J48认定的论坛热点

性能评价：

关于Kmeans和J48算法之间的一致性，使用三个指标进行验证。

它们是精确度，灵敏度和特异性。

一组的这三个指标都适用于每个时间窗口。

公式定义如下2-4：

其中，TP表示是由两个K-均值和J48估计的论坛热点的数量。

TN表示是由两个K-均值和J48估计的非论坛热点的数量。

FP表示由J48而不是K均值估计的论坛热点的数量。

FN表示由J48所估计的非热点数量，而热点数量由K-均值估计。

用公式.2-4，将所述评估性能为每个时间窗口。

时间窗口是指那些在J48的分类处理中使用的。

讨论

表3显示了在每一时间窗为不同的K值，从K=2到K=7，而使用J48分类算法的准确度（％）。

它清楚地表明，该方法有助于实现令人满意的精确的结果，尤其是当K达到一定的价值。

表3.同时采用J48算法在每个时间窗精度（％）

在每个时间窗下不同的K值准确度（％）

表4表明，相比比朴素贝叶斯分类算法，提出的J48分类算法给出了一个更为优化的精度结果。

针对不同的K值所得的平均准确度（％）显示在表4中。

表4.J48和朴素贝叶斯算法的平均精度（％）

同样的性能，可使用其它两个指标来评估，其结果可以进行比较。

灵敏度显示了作为中间的标记，是由K-均值进行分类的所有论坛热点，基于分类算法的论坛的分数。

使用J48和朴素贝叶斯分类不同的K值所获得的平均灵敏度值显示在表5中。

表5.J48和朴素贝叶斯算法平均灵敏度

下一个重要的测量值，显示其作为中间是由K-均值进行分类，标记为非论坛热点的所有非热点，论坛分类算法有一小部分的特异性。

灵敏度的结果显示于表6中。

表6.J48和朴素贝叶斯算法的平均特异性

同时采用J48和朴素贝叶斯获得了不同的K值的准确度（％）显示在图.2。

图2.使用J48和朴素贝叶斯算法的精度比较

J48和朴素贝叶斯两种分类算法获得的准确度（％）显示在表7中。

表7.朴素贝叶斯与J48的准确度比较

结论

本研究提出了预测论坛热点的新方法。

在这种方法中，文本的情感极性是通过计算对文本的各部分的值获得的。

经过计算情感值，然后用K-均值聚类和J48分类算法和朴素贝叶斯分类算法的论坛热点预测集成。

计算表明两个K-均值和J48产生一致的分组结果。

当K已经达到了一定的值，该提议的新方法有助于实现一个满意的准确性的结果。

在20个时间窗中，

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 基于情感分析在线论坛热点预测

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：基于情感分析的在线论坛热点预测.doc
链接地址：https://www.bdocx.com/doc/454382.html

基于情感分析的在线论坛热点预测.doc

热门标签