数据与知识工程.docx
- 文档编号:9636762
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:18
- 大小:434.66KB
数据与知识工程.docx
《数据与知识工程.docx》由会员分享,可在线阅读,更多相关《数据与知识工程.docx(18页珍藏版)》请在冰豆网上搜索。
数据与知识工程
数据与知识工程
1.对语义Web的理解
1)语义Web是以某种方式链接,使全球范围内的计算机均可以处理的信息网,并通过标准、标记语言和处理工具对Web进行扩展。
使得Web不仅是人与人交互的信息空间,而且是语义丰富的数据网络;既能够被人浏览,也能够利用计算机程序执行操作。
2)语义Web的目标是为了解决在不同应用、企业和社区之间的互操作性问题。
(这种互操作性是通过语义来保证的;而互操作的环境是异质、动态、开放的Web。
)
3)语义Web力图实现所有网络数据的“无缝”式连接,并使数据能被计算机自动处理和理解。
其最终目标是让计算机可以在这些海量信息中找到真正能满足需要的任何信息,从而将互联网最广泛的应用(万维网中现存的信息)发展成一个巨大的全球信息库、知识库。
4)语义Web技术能够在任何微小的网络数据之间建立连接。
(这种连接不仅仅局限于网页之间,而是在“数据”这个粒度上;任何微小的数据都可以与其他信息进行“沟通”。
)同时,语义Web帮助人们更精确地描述数据的含义,表示为计算机能够理解和处理的形式。
(从而,可以通过信息代理(agent)像搜索引擎采集网页那样采集数据;在推理引擎的帮助下智慧地集成数据,并最终呈现给用户使用。
)
2.语义Web主要解决两个问题:
1)如何对Web资源进行表示,从而便于让agent进行处理(获取、存储、推理、查询等)。
2)如何重用Web页面、多媒体信息、数据库等遗留资源(legacyresource),以便实现从现有Web到语义Web的过渡。
3.当前知识管理技术的缺陷
●Searchinginformation
–Keyword-basedsearchengines
●Extractinginformation
–humaninvolvementnecessaryforbrowsing,retrieving,interpreting,combining
●Maintaininginformation
–inconsistenciesinterminology,outdatedinformation.
●Viewinginformation
–ImpossibletodefineviewsonWebknowledge
4.语义web技术
●ExplicitMetadata
●Ontologies
●LogicandInference
●Agents
5.语义web模型
6.动作描述推理
基于谓词逻辑的动作刻画和推理
⏹情景演算
⏹流演算
⏹STRIPS系统
采用命题语言的动作刻画和推理
⏹基于PDL的动作刻画和推理
⏹基于PTL的动作刻画和推理
基于描述逻辑的动作刻画和推理
⏹基于描述逻辑的动作形式系统
⏹情景演算的可判定形式
⏹基于动态描述逻辑DDL(X)的动作刻画和推理
7.情景演算
⏹用常量s0表示初始情景;
⏹用二元函数do(a,s)表示在情景s下执行动作a后产生的后继情景。
⏹例如:
⏹do(pickup(R,A),s0)
⏹表示在初始情景下执行动作pickup(R,A)后得到的情景;
⏹do(walk(R,y),do(pickup(R,A),s0))
⏹表示在初始情景下先执行了动作pickup(R,A)然后再执行动作walk(R,y)后得到的情景。
8.KDD的概念
whyKDD?
自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。
我们拥有丰富的数据,但却缺乏有用的知识。
HOWTODO?
⏹解决途径:
数据仓库技术和数据挖掘技术
数据仓库(DataWarehouse)和联机分析处理(OLAP)
异构数据源;统一模式;汇总、合并、聚集;从不同角度观察
数据挖掘(DataMining):
在大量的数据中挖掘感兴趣的知识(规则、规律、模式、约束)
深层次的分析:
分类、聚类、随时间变化的特征等
什么是数据挖掘?
Datamining:
⏹从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势。
Alternativenames:
Knowledgediscoveryindatabases(KDD),
9.KDD的步骤
1)了解应用领域;
2)数据清理;
3)数据集成;
4)数据选择;
5)数据缩减和变换;
6)数据挖掘;
7)模式评估;
8)知识表示;
10.在什么数据上进行数据挖掘?
⏹关系数据库
⏹数据仓库
⏹事务数据库
⏹高级数据库系统和信息库
⏹面向对象数据库和对象-关系数据库
⏹空间和时间数据库
⏹时间序列数据和流数据
⏹文本数据库和多媒体数据库
⏹异种数据库
⏹万维网(WWW)
根据所处理的数据对DM分类
⏹关系数据库
⏹事务数据库
⏹面向对象数据库
⏹对象关系数据库
⏹数据仓库
⏹空间数据库
⏹时态数据库
⏹流数据
⏹异构数据库
⏹历史数据库
⏹文本数据库
⏹多媒体数据库
⏹WWW
⏹……
根据挖掘的知识类型对DM分类
⏹特征分析
⏹区分
⏹关联分析
⏹分类
⏹聚类
⏹预测
⏹离群点分析
⏹演变分析
⏹多种方法的集成
⏹……
根据采用的技术对DM分类
⏹基于证据理论的数据挖掘方法
⏹基于神经网络的数据挖掘方法
⏹基于遗传算法的数据挖掘方法
⏹基于粗糙集的数据挖掘方法
⏹基于统计学的数据挖掘方法
11.数据挖掘的主要问题
⏹挖掘方法方面:
⏹在不同的数据类型中挖掘不同类型的知识
⏹与背景知识的结合
⏹处理噪声和不完全数据
⏹模式评估:
兴趣度问题
⏹性能:
效率,有效性,可伸缩性
⏹并行,分布式和增量挖掘算法
⏹用户交互方面
⏹数据挖掘查询语言
⏹数据挖掘结果的表示和显示
⏹多个抽象层的交互知识挖掘
⏹应用和社会因素方面
⏹特定域的数据挖掘&不可视的数据挖掘
⏹数据安全,隐私保护
⏹……
12.KDD发现目标
☐概念描述
☐关联分析
☐分类
☐聚类
☐离群点分析
☐趋势和演变分析
KDD中使用的方法
☐决策树方法
☐基于证据理论的方法
☐神经网络方法
☐遗传算法
☐基于粗糙集的方法
☐统计分析方法
☐……
KDD的挖掘模式
关联模式
分类模式
聚类模式
回归模式
序列模式
13.webservice
Webservices已经成为了交付Service-oriented解决方案的最成功的方法。
服务WebServices
服务描述WSDL
消息传递SOAP
服务发现UDDI
14.web挖掘
Web挖掘的类型:
⏹内容挖掘(WebContentMining)
⏹结构挖掘(WebStructureMining)
⏹使用挖掘(WebUsageMining)
语义Web(SemanticWeb)[2]是万维网的发明人TimBernersLee提出的下一代的互联网。
其核心在于扩展现有的互联网,使之具有计算机可以理解的语义信息,以便于计算机或智能软件对互联网上的信息进行有效访问。
其体系结构由UNICODE、URI、XML、RDF、ONTOLOGY、LOGIC、PROOF和TRUST组成,其中XML、RDF和ONTOLOGY是语义Web的核心层。
本体(ONTOLOGY)可以从领域的概念、关系和属性集出发,建立便于理解和分析的领域知识结构,并支持满足一致性的领域知识库的开发。
同时,本体不仅可以利用OWL描述语言进行较好的知识表示,还可以在语义Web的基础上根据元数据查找Web页面,并且使页面的知识结构与推理规则建立关系[3]。
Web挖掘技术可以获取大量的已定义的潜在的语义知识来辅助构建本体,即辅助构建语义Web,可以在一定程度上弥补人工获取的不足。
所以需要采用相应的机器学习技术(如层次聚类、关联分析等)来提高本体获取自动化的程度[4]。
利用语义信息帮助挖掘可以在很多方面改善传统Web挖掘的效果。
如利用本体的背景知识改善聚类的结果以帮助挖掘Web内容[5]。
15.知识表示
1.)生产式
IFPTHENQ
系统组成:
规则库(存放具有编号的规则),数据库(存放具体应用环境下的临时、动态信息),推理解释及控制子系统(包含元知识,匹配器、冲突消解器、解释器)。
2)语义网
三元组(节点1,弧,节点2);ISA,AKO,IS,PART-OF类型;
3)框架:
FRAME<框架名>
槽1:
侧面名1:
值1
侧面名2:
值2
……
侧面名n:
值n
4)对象:
类(属性,操作)
5)命题逻辑:
p:
xxxx;
q:
xxxxx;
KB|=P;
6)FOL
一个谓词P和k个项组成的参量:
P(item1,item2……)
引入变量和量词:
student(x);
在推理中模型匹配:
student(小明);
7)其他:
多态逻辑、非单调、情境逻辑、多值逻辑、模糊逻辑、模态逻辑、高阶逻辑;
16.谓词逻辑推理
(1)文字:
P,Q,-p,-q等不能再分的谓词;
(2)子句:
,
等析取式;
如何得到子句集:
1.消除蕴含和等价式:
;
;
2.缩小否定号范围:
;
;
;
3.转换为合取范式:
;
;
4.去掉合取符号,得到子句集:
如上{
}
以上为命题逻辑,下面是谓词:
1.同样去掉蕴含式:
2.缩小否定号范围:
值得注意
;
3.重命名变量,即不同为词见不应该有相同变量:
把
改为
4.引入skolem函数消除存在变量:
1)y在x作用域内:
,则用函数f(x)=y,来消除存在量词,即
;
2)若y不在x作用域内:
,则用常量A代替y,
5.去掉所有全程量词;
6.转换为合取范式;
7.去掉合取符号,得到子句集;
8.重命名变量名,使得子句间无同名变量。
(3)替换与合一
匹配:
如果两个表达式当且建档其语法等价;指在全称量词作用下,语法功能一样;
替换:
在匹配的两个式子中,用某个变量或变量替换某个变量,是匹配式在形式上一致。
则通过替换分子{a/x,b/y},得:
;
则C1与C2可以合一了,即:
C=C1.C2=
;
注意:
常量不可以替换f(x,y);变量x不可以替换带有参量x的f(x,y);函数名不同,不可以替换。
利用差异集,Dk来求解最一般合一式:
算法如下:
step1:
置k=0,Sk=S,Ek=null;
step2:
若谓词只有一个停止,Ek为最一般合一式;
step3:
求Sk的差异集(不同变量)Dk;
step4:
Dk存在元素xk和tk,其中xk为变元,tk为项且xk不在tk中出现,则置Sk+1=Sk{tk/xk},Ek+1=EkU{tk/xk},k=k+1,转入step2。
step5:
停止算法,S为最一般合一式。
17.归结原理
核心:
1)先把句子翻译成谓词公式;
2)再把谓词公式求出子句集;
3)归结推理。
4)归结控制:
广度优先(分层次广度归结),支持集策略(用目标公式~T与前提公里做归结),单元归结(用单元子句与其他子句归结),线性归结(父母结婚,生孩子,孩子结婚,再生孩子)
18.归结例子
1)
演绎推理:
case1:
case2:
归结推理:
2)知识刻画
Domain-dependentpredicatesandfunctions
⏹namedindividuals
john,sleezyTown,faultyInsuranceCorp,fic,johnQsmith,...
⏹basictypes
Person,Place,Man,Woman,...
⏹attributes
Rich,Beautiful,Unscrupulous,...
⏹relationships
LivesAt,MarriedTo,DaughterOf,HadAnAffairWith,Blackmails,...
⏹functions
fatherOf,ceoOf,bestFriendOf,...
Usuallyatomicsentencesandnegations
⏹typefacts
Man(john),
Woman(jane),
Company(faultyInsuranceCorp)
⏹propertyfacts
Rich(john),
HappilyMarried(jim),
WorksFor(jim,fic)
⏹equalityfacts
john=ceoOf(fic),
fic=faultyInsuranceCorp,
bestFriendOf(jim)=john
(jane=john)
IsthereacompanywhoseCEOlovesJane?
3)EXERCISE
(1)
KB⊨HardWorker(sue)?
4)telbuan算法:
5)ACL描述例子
Tbox:
Abox:
A:
退出某个定义的符合性?
B:
判定Tbox与Abox的一致性问题?
6)应用Tableau方法判断能否从该知识库推导出结论HappyMother(Wendy)
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 知识工程