中文Blog热门话题检测技术研究文档格式.docx
- 文档编号:16169591
- 上传时间:2022-11-21
- 格式:DOCX
- 页数:6
- 大小:20.11KB
中文Blog热门话题检测技术研究文档格式.docx
《中文Blog热门话题检测技术研究文档格式.docx》由会员分享,可在线阅读,更多相关《中文Blog热门话题检测技术研究文档格式.docx(6页珍藏版)》请在冰豆网上搜索。
而ISODATA算法的引入可以设定聚类后类别数的控制参数,这两种方法的结合使聚类效果有了进一步的提高。
1简单聚类算法
简单聚类法的基本思想:
主要根据相似性阈值和最小距离原则,通过计算特征矢量到聚类中心的距离并和类内距离门限T比较,决定归属哪类或作为新的一类中心。
我们研究的对象是文本,规定距离的定义为文本之间的相似度。
所以本文的聚类算法就应该描述为:
通过计算文本到聚类中心的文本相似度,并且和类内门限T比较,决定归属哪类或者作为新的一类中心。
2ISODATA算法
ISODATA算法的基本思想:
先选择若干样品作为聚类中心,再按照最小距离准则使其余样品向各中心聚集,从而得到初始聚类,然后判断初始聚类结果是否符合要求,若不符,则将聚类集进行分裂和合并处理,以获得新的聚类中心(聚类中心是通过样品均值的迭代运算来决定的),再判断聚类结果是否符合要求。
如此反复迭代,直到完成聚类划分操作。
3中文Blog热门话题检测方法
3.1文档预处理
文档的预处理主要包括分词和去除停用词。
本文通过调用外部分词软件来进行分词,所使用的是中国科学院研发的分词软件。
利用分词软件进行分词前、后程序运行如图1、图2所示。
图1分词软件进行分词前程序运行
图2分词软件进行分词后程序运行
3.2文档表示模型
文档的表示模型,本文采用向量空间模型。
向量空间模型是G.Salton在1975年提出的。
向量空间模型的基本思想是以向量来表示文本,多个文本向量组成文本集D,设文档集合D=(d\-1,d\-2,…),所有文档由n个词构成,文档i表示成一个n维向量d\-i=(w\-\{i1\},w\-\{i2\},…w\-\{ij\},…w\-\{in\}),其中w\-\{ij\}表示词条t\-j在d\-i文档中的权值。
构成文档向量的特征项可以选择文档的字、词或词组,根据实验结果,普遍认为选取词作为特征项要优于字和词组。
在向量空间模型中,两个文档d1和d2之间的(内容)相关程度(DegreeofRelevance)可以称为相似度(Similarity),即Sim(d1,d2),文本之间的相似度可以借助向量之间的某种距离来表示,最常用的是向量之间的内积或者夹角余弦值。
在向量空间模型中,文本内容被形式化为多维空间中的一个点,这样把对文本内容的处理简化为向量空间中向量运算,使问题的复杂性大为降低。
3.3词频统计
词频统计的基本原理:
在中文文档中,从形式上看,词是组合稳定的字而得到的,因此,在上下文环境中,同时出现相邻的字次数越多,就表示该相邻字组合越有可能构成一个词。
因此相邻字的组合共现得频率或概率能够较好的反应组成词的可信度。
3.4权重计算
文本向量的每个特征项的权重用来衡量它在文本表示中的重要程度(即区分能力的强弱),一般是利用文本的统计信息。
词频分为绝对词频和相对词频,绝对词频指用词在文本中出现的频率来表示,相对词频则为归一化的词频。
本文采用相对词频法来计算权重,使用TF-IDF公式计算出词的权重。
公式如下:
W\-\{ij\}=tf\-\{ij\}*log(N/n\-\{ij\}+0.1)/[KF(]∑(tf\-\{ij\}*log(N/n\-\{ij\}+0.1))\+2[KF)][JY]
(1)
其中t\-\{ij\}表示特征词条t\-\{ij\}在文本i中出现的次数,N表示当前文本总数;
n\-\{ij\}表示当前数据集中出现该特征词条的文本数。
log(N/n\-\{ij\}+0.1)表示逆词频IDF。
由此可以看出特征项t\-\{ij\}既能反映文档i的主要内容,又能用来区分文档i和其他文档。
3.5相似度计算
本文采用向量空间模型表示文本时,选用余弦夹角相似度来衡量这两个文本间内容的相关程度的计算公式如下:
Sim(D\-1,D\-2)=cosθ=[SX(]∑[DD(]N[]k-1[DD)]W1k×
W2k[][KF(]∑[DD(]N[]k-1[DD)]W1k\+2×
∑[DD(]N[]k-1[DD)]W2k\+2[KF)][SX)][JY]
(2)
其中以词为特征项,W1k是第k个特征词在文本D\-1中的权重,W2k是第k个特征词在文本D\-2中的权重。
D\-1,D\-2分别代表了两个文本。
余弦相似度值域为[-1,1],其计算结果与向量长度无关。
余弦相似度越大,向量间夹角越小,即向量之间越接近。
3.6阈值的确定
在基于相似度计算的模糊分类的方法中,择近原则是将新文本归于分类体系中的一个类,即与该文本相似度最大的类。
而事实上,分类体系中的类别不是完全互斥的,存在这样一些既属于其中一个类别,又同时属于其它类别的文本。
对于这种文本,该算法无法确定文本所属的所有类别。
针对此问题,我们在择近原则的基础上采用了确定阈值的方法,对计算得到的所有相似度值进行排序,当相似度值在该阈值之上时,就将文本归于该类中。
排序部分主要代码如下:
forj:
=1toido
begin
simstr:
=floattostr(sim[j].simnum);
jstr:
=inttostr(j);
buf1:
=buf1+jstr+'
:
'
+sim[j].textn+'
'
+'
相似度:
+simstr+#13+#10;
end;
if(sim[j].simnum>
0.4)and(sim[j].simnum<
1.0)then
=buf1+'
第一篇与'
+sim[j].textn+'
可以初步聚为一类!
+#13+#10;
end;
阈值的确定解决较为困难。
理论上,没有很好的解决方法。
在系统中,采用预定初始值,然后给出测试文本使用分类器进行分类,再根据分类的准确程度调整初始值,最终达到较为理想的效果。
4实验系统的设计与实现
4.1系统工作流程
①从互联网上下载中文Blog,人工将网页整理为文本形式,并将此作为基础实验语料库;
②利用分词软件将待处理文本进行分词;
③对文本进行特征项抽取,统计词频,并算出相应权重;
④计算文章正文的相似度;
⑤计算出相似度后对文本进行聚类。
4.2用户登陆模块
这里我们用了delphi中的一个panle而不是单独将它列为一个form。
这么做的目的是将系统简单化,而且在未成功登录前所有form顶端的主要菜单项都不能使用,这样比较直观明了。
登陆的用户名为zx,密码为198596。
4.3文本预处理模块
该模块包括3个小模块,分词、整理、退出。
它所实现的功能是将待处理的文本进行分词,并整理在一个文件夹下,为后续的工作做准备。
这里我们应用的是中科院设计的分词软件,点击文本菜单项,选择分词,即可出现分词软件,该模块主要用到delphi中的调用外部程序的函数ShellExecute。
但该软件有点缺陷,不能同时处理多篇文章,只能一篇一篇的处理。
图3用户登陆界面
图4文本预处理过程
为了使程序能够正常的运行,首先要给出文件的路径的正确选择,选择的处理的文件名必须与路径相一致,不然,程序无法正常运行。
单击文本菜单项,选择分词选项,调用处中科院计算所汉语此法分析系统软件,点击处理文件选项,打开要处理的文档,程序运行后,结果自动保存到与被处理的文档同目录下的新建文件夹中。
经过应用程序处理后,名为0001.txt文档的内容发生了变化,软件对其内容进行了分词处理,得到了名为0001_cla.txt的文件,其内容如下图5所示。
图5文本预处理结果
4.4词频统计模块
本模块功能主要是对经过预处理模块得到的文本进行词频统计,它包括了特征词抽取功能。
程序先进行特征词抽取,再算出经过特征值抽取后的实词的频数。
最后将所得结果保存到相同路径的文件名为‘结果’的文件夹中。
词频统计功能模块的运行过程如图6所示。
图6词频统计过程
程序运行的实验结果如图7所示。
图7词频统计结果
如图7所示,例如,“中国/ns\\9\\4.89661239915248”,其中,“/ns”表示词性,“9”就是词频处理后,“中国”一词在文档文件0001.txt中的词频,即出现的次数,而“4.89661239915248”是该词的权重计算的结果。
因为实验是对文件夹下多个文本进行操作,所以必须能够同时打开并处理文件夹下所有的文本。
它主要用到了delphi中的opendialogs控件。
编程必须包括:
打开文件夹下所有文件,处理文件夹下所有文件这两种功能。
以下权重计算和聚类算法也如此。
4.5权重计算模块
本模块的功能是在统计出词频的基础上计算它们的权重来体现词在文本中的作用程度。
类似于词频统计,先编写代码,打开文件夹下所有的文件,然后遍历文件夹下的每个文件,算出每个词在文本中的权重。
并将结果保存到相同路径的文件夹‘结果’中。
权重计算模块运行的图示如图8所示。
图8权重计算过程
权重计算功能模块处理文件后的实验数据如图9所示。
图9权重计算结果
4.6算法实现模块
该模块的功能是对待聚类文本进行聚类,以达到话题检测的目的。
根据所计算出的权重,使用相似度计算公式先计算文本之间的相似度,得到相似度后根据简单聚类算法以及ISODATA算法将文本进行聚类。
并将结果保存到相同路径的文件夹‘输出结果’中。
实验数据如图10、图11所示。
图10聚类过程
程序运行的过程如图所示:
图11聚类结果
5算法实现的环境与工具
实验使用的是WindowsXP操作系统、delphi编程环境,并以记事本的形式保存各词典词条、词频统计结果、权重计算结果、相似度计算结果以及最终的分类结果。
6实验结果及分析
用来进行评价程序聚类结果的指标:
正确率(Precision)、召回率(Recall),计算方法为:
正确率P=正确分类的文本数A\-1/已分类的文本总数A\-2
召回率R=正确分类的文本数A\-1/要分类的文本总数A\-3
其中,正确率用于反映被分到各类中的文本中进行了正确分类的文本比例,召回率反映所有待分类的文本中被正确分类的文本所占比例,正确率
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 Blog 热门话题 检测 技术研究