基于web挖掘技术的网页分类研究论文.docx
- 文档编号:27012773
- 上传时间:2023-06-25
- 格式:DOCX
- 页数:62
- 大小:66.50KB
基于web挖掘技术的网页分类研究论文.docx
《基于web挖掘技术的网页分类研究论文.docx》由会员分享,可在线阅读,更多相关《基于web挖掘技术的网页分类研究论文.docx(62页珍藏版)》请在冰豆网上搜索。
基于web挖掘技术的网页分类研究论文
摘要
随着计算机硬件存储能力和软件环境的不断提高,万维网(WorldWideWeb)数据膨胀使得人们拥有的数据和资源不断增加,万维网的结构也变得更加复杂。
万维网数据的海量、异构和分布性等特点为该领域的研究提出挑战。
近年来,Web挖掘已经引起了信息产业界的极大关注,其主要原因是可以利用万维网的海量数据,并且需要将这些数据转换成有用的信息和知识。
用户在线活动潜在目标是多样化的。
理解用户在线活动的目标和意向可为用户提供个性化服务,提高用户满意度。
如电子商务网站可以根据用户浏览网页时是否有参与娱乐活动的意向来摆放娱乐产品。
近年来Web2.0的话题在各界都引起了广泛地讨论,网络上Web2.0相关主题的应用正在兴起。
它应用包括以用户为中心的发布和知识管理平台,如:
维基(Wikis),博客(Blogs),和社会化书签网站,如Dil.QQ.US和Flickr。
社会化标签服务不仅为用户标注提供友好的用户界面,而且允许用户在网络上共享这些标签。
本文结合网页内容和标签建立虚拟文档对网页分类,取得了满意的效果,为进一步数据挖掘任务提供基础。
本文主要做了以下几方面工作。
1.用户娱乐意向挖掘。
理解用户在线活动的目标和意向为信息提供者带来很大帮助。
本文对娱乐意向进行定义,提出了基于网页内容建立机器学习模型学习用户娱乐意向的框架。
基于该框架,通过分类算法构建从网页来获取用户的娱乐意向模型。
实验结果表明,出现频率高的特征词更大比例具有娱乐意向,网页娱乐意向识别能力取得满意效果。
2.社会化书签的特点及表示。
标签作为描述网页的关键字,反映了从用户角度对网页内容的理解,为网页提供了丰富的元数据。
本文分析社会化标签系统特点及规律性,建立用户、标签和网页这种多关系异构对象的三部图,并对网页标签表示进行定义。
3.基于社会化标签网页分类。
在社会化标签环境下,通常用户根据同一类的标签所标注的网页属于同一类。
相应的,用户对同一类网页标注时,所用的标签是同一类的。
因此,本文提出了一种基于社会化标签构造网页虚拟文档的表示方法。
构建对网页局部文本、网页标签和虚拟文档进行分类的模型。
通过实验证实了社会化书签对网页分类的作用,基于虚拟文档的分类算法取得了满意的效果。
关键词:
社会化标签,娱乐意向,元数据,网页分类,虚拟文档
Abstract
随着计算机硬件存储能力和软件环境的不断提高,万维网(WorldWideWeb)数据膨胀使得人们拥有的数据和资源不断增加,万维网的结构也变得更加复杂。
万维网数据的海量、异构和分布性等特点为该领域的研究提出挑战。
近年来,Web挖掘已经引起了信息产业界的极大关注,其主要原因是可以利用万维网的海量数据,并且需要将这些数据转换成有用的信息和知识。
用户在线活动潜在目标是多样化的。
理解用户在线活动的目标和意向可为用户提供个性化服务,提高用户满意度。
如电子商务网站可以根据用户浏览网页时是否有参与娱乐活动的意向来摆放娱乐产品。
近年来Web2.0的话题在各界都引起了广泛地讨论,网络上Web2.0相关主题的应用正在兴起。
它应用包括以用户为中心的发布和知识管理平台,如:
维基(Wikis),博客(Blogs),和社会化书签网站,如Dil.QQ.US和Flickr。
社会化标签服务不仅为用户标注提供友好的用户界面,而且允许用户在网络上共享这些标签。
本文结合网页内容和标签建立虚拟文档对网页分类,取得了满意的效果,为进一步数据挖掘任务提供基础。
本文主要做了以下几方面工作。
Withthedevelopmentofcomputerhardwareandsoftwareenvironmentofstoragecapacitycontinuestoimprove,theworldwideweb(WorldWideWeb)dataexpansionmakespeoplehavethedataandresourcesincreasing,structureoftheworldwidewebhasbecomemorecomplex.TheWorldWideWebdata,heterogeneousanddistributedmassofchallengesfortheresearchinthisfield.Inrecentyears,Webmininghasattractedmuchattentionininformationindustry,themainreasonisthemassivedatacanusetheworldwideweb,andtheneedtotransformthesedataintousefulinformationandknowledge.Theuseronlineactivitypotentialtargetisdiverse.Aimandintentionunderstandingusersonlineactivitiescanprovidepersonalizedservicefortheusers,improveusersatisfaction.SuchaselectroniccommercewebsitecanbebasedonuserbrowsingWebpagewhetherparticipationinrecreationalactivitiesintendedtoputentertainmentproducts.InrecentyearsWeb2.0discussionswidelyinallwalksoflifearecaused,applicationofWeb2.0relatedtopicsonthenetworkisontherise.Itincludeusercentricpublishingandknowledgemanagementplatforms,suchas:
(Wikis)wiki,blog(Blogs),andsocialbookmarkingsites,suchasDil.QQ.USandFlickr.Socialtaggingservicesnotonlyfortheusertolabeltoprovideafriendlyuserinterface,andallowsuserstosharetheselabelsonthenetwork.ThispaperWebpagecontentandlabelsetupvirtualdocumentontheWebpageclassification,andachievedsatisfactoryresults,whichprovidesthebasisforfurtherdataminingtasks.Thispaperfocusesonthefollowingaspectsofwork.
1.用户娱乐意向挖掘。
理解用户在线活动的目标和意向为信息提供者带来很大帮助。
本文对娱乐意向进行定义,提出了基于网页内容建立机器学习模型学习用户娱乐意向的框架。
基于该框架,通过分类算法构建从网页来获取用户的娱乐意向模型。
实验结果表明,出现频率高的特征词更大比例具有娱乐意向,网页娱乐意向识别能力取得满意效果。
1.Mining1userentertainmentintention.Aimandintentionunderstandingusersonlineactivitiesbringgreathelpforinformationproviders.Thispaperdefinesentertainmentintention,putforwardtheframeworkbasedonWebpagelearningcontentmodelforlearningtheuserentertainmentintentionofbuildingmachine.Basedonthisframework,theclassificationalgorithmforconstructingentertainmentintentionmodeltoobtaintheuserfromtheWebpage.Theexperimentalresultsshowthatthegreaterproportionoffeaturewords,highfrequencywithentertainmentintention,Webpageentertainmentintentionrecognitionachievedsatisfactoryresults.
2.社会化书签的特点及表示。
标签作为描述网页的关键字,反映了从用户角度对网页内容的理解,为网页提供了丰富的元数据。
本文分析社会化标签系统特点及规律性,建立用户、标签和网页这种多关系异构对象的三部图,并对网页标签表示进行定义。
2.Characteristicsofthe2socialbookmarkingandsaid.TagsasdescribedWebpagekeyword,reflectingontheWebpagecontentunderstandingfromtheuser'spointofview,providesrichmetadataforWebpage.Analysisofsocialtaggingsystemsandthedistributioninthispaper,athreeuser,tagandWebpagetherelationshipofheterogeneousobjects,andthatthedefinitionofWebpagelabel.
3.基于社会化标签网页分类。
在社会化标签环境下,通常用户根据同一类的标签所标注的网页属于同一类。
相应的,用户对同一类网页标注时,所用的标签是同一类的。
因此,本文提出了一种基于社会化标签构造网页虚拟文档的表示方法。
构建对网页局部文本、网页标签和虚拟文档进行分类的模型。
通过实验证实了社会化书签对网页分类的作用,基于虚拟文档的分类算法取得了满意的效果。
3.basedonthesocialtaggingWebpageclassification.Inthesocialannotationenvironment,usuallytheusermarkaccordingtothesameclasslabelWebpagebelongingtothesameclass.Accordingly,theuserofthesameclassWebpagelabel,thelabelisthesameclass.Therefore,thispaperproposesarepresentationofsocialtagstructureWebpagevirtualdocumentbasedon.OntheconstructionofWebpagelocaltext,Webpagetagandvirtualdocumentclassificationmodel.EffectofsocialbookmarkingtoWebpageclassificationwasconfirmedbytheexperiment,thevirtualdocumentbasedmethodwithsatisfactoryresults.
关键词:
社会化标签,娱乐意向,元数据,网页分类,虚拟文档
Keywords:
socialtags,entertainmentintention,metadata,Webpageclassification,virtualdocument
第一章绪论
自20世纪60年代以来,数据库和信息技术已经系统地从原始的文件处理深化到复杂而功能强大的数据库系统。
尤其在E.Ecodd成功地提出了关系模型后,为数据库的大发展奠定了坚实的理论基础。
随着计算机硬件存储能力和软件环境的提高,各行各业产生大量的数据。
万维网(WrorldWideWeb)Web上包含大量丰富的信息,这使得Web成为人们查找信息以及信息交互的一个重要媒介。
数据的极大丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为“数据丰富,知识匮乏”。
Web数据挖掘的对象是来自万维网上的海量数据。
WWW是欧洲粒子物理研究所的TimBemers—Lee等人于1989年发明,最初是为了便于世界各地的物理学家交流研究成果。
经过十几年的发展,目前已成为一个全球化的信息平台。
最近几年,万维网进入一个全新的发展阶段。
由以网页内容为主的Web1.0向以用户为中心的Web2.0发展。
Web1.0主要是网站经营者向用户传达信息。
而Web2.0则是以用户为中心的互动体验,用户既是讨论的参与者也是信息的提供者。
1.1选题背景
1、万维网特点随着网络的覆盖范围的不断扩大以及网络技术的发展,存在于网络上的信息资源以飞快的速度传播并迅速增长。
数据巨大的网络信息资源来源于各行各业,包括不同学科、不同领域、不同地区、不同语言的各种信息,内容丰富,并且以文本、图像、音频、视频、软件和数据库等多种形式存在。
另外交互性也是网络信息传播的一大特点。
互联网上信息分布具有很大的自由度和随意性,缺少必要的质量控制和管理机制,各种虚假信息,劣质信息充斥互联网,给用户利用网络资源带来了障碍。
万维网上新的应用和服务不断增加。
目前,除了传统的Web浏览、Email和搜索引擎等应用,新的应用如网上购物、电子商务、网络游戏、信息推荐系统、手机上网以及为移动上网用户提供的服务等都不断出现并流行。
传统Web应用也在不断的发展并增加新的功能和服务。
例如搜索引擎,面向特定文档的搜索(如图片,视频等),个性化Web搜索,根据用户意向的搜索,可以直观地自定义搜索范围和结果优先排序,Minset将搜索结果分为购物意向和研究意向,可以方便地拖动调节阀改变意向比例来调节结果优先显示顺序等。
互联网流量的爆炸式增长,Web的基础架构在变得越来越强大,但高流量的富媒体内容将消耗掉新增加的带宽。
比勒尔指出,未来数年后,互联网上创作、复制的信息量将由2006年的不足200EB增长到近1000EB。
万维网用户数高速增长。
以中国内地的互联网用户数为例,根据中国互联网络信息中心(CNNIC)公布《第33次中国互联网络发展状况统计报告》。
数据显示,截至2013年12月,中国网民规模达6.18亿,全年新增网民5358万人。
互联网普及率为45.8%,较2012年底提升3.7个百分点。
宽带网民数1.63亿人,手机网民数达到5亿人。
娱乐成为中国网民网络应用的重心,中国互联网娱乐性明显,在所有娱乐性互联网应用中,网络音乐居中国各项网络应用之首,半年内已有86.6%的网民,即4.81亿网民收听过网络音乐,71.2%的人半年内下载过音乐。
2.01亿网民使用网络影视,有40.5%的网民表示半年内下载过网络影视。
数字娱乐成为中国互联网最为重要的网络应用。
报告显示,在5亿网民中,接近2/3网民或者在网上发过帖子,或给互联网上传过内容,或多或少参与到“Web2.0”互动中来。
最近几年Web2.0的概念非常盛行,网民自主创造内容也成为国内外关注的热点。
业界普遍认为中国互联网在进入Web2.0时代。
它与Web1.0最大的不同在于,Web2.0中,个人不是被动而是作为主体参与到互联网中,个人在作为互联网的使用者之外,还同时成为了互联网主动的传播者、作者和生产者。
2、Web2.0和社会化书签
Web一直是人们主要获取信息的方式之一,在信息爆炸这一概念逐渐被人们所接受以来,互联网的信息量增长更是飞速增长。
一方面新的站点和内容提供商不断的建立,但是另一个方面Web网络用户的行为也发生了巨大的变化,在这些变化之后,隐藏和跟随的是众多网络应用服务,以及商机。
其中最典型的变化,人们认为Web进入了2.0的时代。
Web2.0,是相对Web1.0(2003年以前的互联网模式)的新的一类互联网应用的统称,是一次从核心内容到外部应用的革命。
由Web1.0单纯通过网络浏览器浏览HTML网页模式向内容更丰富、联系性更强、工具性更强的Web2.0互联网模式的发展已经成为互联网新的发展趋势。
从用户的角度讲就是Web网页由原来的内容提供商发布内容,用户单一的接受内容,转变成用户可以主动的参与内容的创造,相互分享内容,以及针对Web内容进行形式多样的讨论、评论和评价行为,这种系列的互动性行为模式,不仅能够吸引用户产生更多的Web网页内容,还会带来积累性的群聚效应,扩大站点的点击率和价值。
Web2.0被人们广泛的认识,是在出现了Blog、Wikis、Flicjr等系列新颖的Web服务之后。
它们凸现了用户作为互联网的使用者,变得更加的主动去贡献自己的内容,分享其它用户贡献的内容,而不是像以前一样,单一的阅读着由专门的互联网内容提供商做的内容,自身能够提供的信息很少。
Web2.0不仅仅是一次技术上的升级,它更多的是一种观念上的革命。
它所特有的“以人为本’’,集合大众智慧的思想,以及参与性、白组织性、真实性、开放性、去中心化、聚合性、创新性、不断更新、信息传播以微内容为基础等特征,鼓励全体用户参与知识的创造,每个人都可以向平台贡献自己的知识,使得知识内容更为丰富和深刻,知识的共享、交流沟通和加工更为顺畅和富有成效。
用户协同地丰富网络元数据资源。
大量用户在很短的时间内就创建了大量标签。
社会化标签成为一个新网络接口,允许用户以自由文本的关键字对网页,图片和贴子等进行标注。
它们的简单,方便使用,在很短的时间里吸引了大量用户。
所有用户标签默认可公开访问,因而大量有价值标签元数据可以获取。
为数据分析、信息检索和知识发现提供了新的资源,引起了研究者和企业的广泛关注。
爱丁堡举行的第十五届国际万维网会议(WWW2006)上成立了网络标签合作工作室(collarbortivewebtaggingworkshop),标签流行已成为大趋势。
1.2研究意义
最近几年,数据挖掘已经引起了信息产业界的广泛关注,主要原因对海量数据加以使用,满足用户的信息需求,并且迫切需要将这些数据转换成有用的信息和知识。
获取的知识可以迅速地反馈到应用领域,并及时指导管理者。
目前数据挖掘的部分成果已经被广泛应用于商务管理、生产控制、市场分析、工程设计、科学探索和国家安全等领域。
同时,作为一个新兴的交叉领域,数据挖掘还受到了人工智能与机器学习、数据库、统计学、信息学等多学科的关注,涉及从基础的算法理论到具体的实际应用这样广泛的范围。
目前,复杂类型数据的挖掘需求上升,越来越多的专家学者开始关注这方面的新应用和理论研究。
在学术研究方面,国际上重要的学术会议(如:
WWW,SIGIR,WISA等)这几年来用户意向挖掘和社会化书签研究成为大会专门工作组(Session)所讨论的主题。
本论文以Web挖掘为研究课题,以用户娱乐意向挖掘和社会标签环境下网页分类为重点。
理解用户在线活动的目标和意向可为用户提供个性化服务,提高用户满意度。
如电子商务网站可以根据用户浏览网页时是否有参与娱乐活动的意向来摆放娱乐产品。
随着社会化书签服务的流行,研究如何有效利用标签元数据帮助提高网页分类的结果是相当有意义的。
把由少量专家的工作转移到所有Web用户共同协作完成,为网络资源提供了丰富的元数据。
同时由于所有用户可以任意地对网络资源进行标注。
存在分类准确率低和覆盖范小的问题。
文章中通过结合网页内容和标签数据得到的虚拟文档对网页分类,所有Web用户的参与,新的网页自动地添加进来,取得了满意的效果。
识别用户在线活动的娱乐意向,为用户提供个性化服是相当有意义的。
Web2.0的观念已深入人心,研究如何利用Web2.0环境下所提供的资源更好服务于用户具有实际意义。
1.3论文的主要工作
本论文以Web挖掘为研究课题,和实际Web应用相结合,以用户娱乐意向挖掘和社会标签环境下网页分类为重点。
1.3.1基于分类技术的用户意向挖掘用户在线活动后的目标和喜好引起广泛关注。
本文从娱乐角度来关注用户Web搜索后的目标,在无用户显性反馈时,关注具有娱乐意向(loadmusic、art、sport、game等)网页,从网页来获取用户的娱乐意向。
进行娱乐意向定义,利用重要性和出现频率提取特征,对每一关键字从普通文本和标记属性两方面来表示网页特征向量。
本文提出了网页娱乐意向学习框架,通过机器学习方法(SVM)建立娱乐意向识别模型,实现了从网页来识别用户娱乐意向目的。
1.3.2社会化标签分布及表示最近几年,Web2.0应用蓬勃兴起,社会化标签服务日益普及,成为研究热点。
本文进一步分析分布式标签系统的特点及流行网站标签使用频率分布。
在社会化标签环境下,给出了用户、标签和资源这种多关系异构对象的三部图及网页相关标签的表示。
1.3.3基于社会化标签的网页分类研究本文利用社会化标签来提高网页分类的质量。
标签是从不同方面描述网页内容的关键词,所有用户共同参与,包含社会化信息,为Web资源提供丰富的元数据。
本文提出构建网页虚拟文档的概念,构建对网页局部文本、网页标签和虚拟文档进行分类的模型。
通过实验证实了社会化标签对网页分类的作用,基于虚拟文档网页分类算法取得了满意的效果。
1.4论文的结构组织
本文共分为五章:
第一章简要介绍了网页分类的选题背景及研究意义,描述了论文的主要研究内容,最后给出论文的组织结构。
第二章对论文中涉及相关技术及概念进行介绍。
描述了Web挖掘定义及分类,并对Web挖掘的三个类别:
Web内容挖掘、Web结构挖掘和Web使用挖掘进行简单介绍。
网页分类的基本概念,如网页分类定义、主要分类算法、特征选择算法和网页分类的评价。
最后对Web2.0环境下标签特点进行描述。
第三章在本文中从娱乐角度对用户在线活动的意向进行了研究。
给出了娱乐意向定义,提出了基于网页内容建立机器学习模型的框架学习用户EI。
基于该框架,构建从网页来获取用户的娱乐意向模型。
通过识别用户娱乐意向,得到大量关于用户有价值的信息,利用这些信息向用户提供个性化的服务,更加满足用户的需求,提高信息的利用率。
第四章研究了社会化标签环境下网页分类。
通过分析社会化标签数据,对社会化标签的表示进行定义。
基于社会化标签提出一种构造网页虚拟文档表示的方法,最后,对基于虚拟文档算法和网页局部文本算和标签数据算法分类进行比较。
第五章对全文工作的总结并对下一步的工作进行了展望。
第二章Web挖掘和分类的相关技术
2.1Web挖掘概述
万维网经过十几年的迅速发展,目前已经成为一个全球化的信息平台。
近年来,万维网的规模急剧膨胀。
用户数高速增长,新的应用和服
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 web 挖掘 技术 网页 分类 研究 论文