基于知识图谱的问答系统研究Word文档格式.docx
- 文档编号:17445633
- 上传时间:2022-12-01
- 格式:DOCX
- 页数:8
- 大小:22.93KB
基于知识图谱的问答系统研究Word文档格式.docx
《基于知识图谱的问答系统研究Word文档格式.docx》由会员分享,可在线阅读,更多相关《基于知识图谱的问答系统研究Word文档格式.docx(8页珍藏版)》请在冰豆网上搜索。
知识图谱在问答系统当中的应用能充分将大量的资料和知识通过搜索引擎的方式解决,能帮助人们更直接的搜集资料,拓展知识。
关键词知识图谱问答系统应用
1.绪论
1.1研究背景
智能问答是自然语言中处理中最为重要的研究内容,需要根据计算机通过人类语言进行自动分析,进行资源和信息检索,回答用户所提出的问题。
为了更精准、确定的回答用户的问题,在检索问题前应当深入根据语义进行分析,获取相应的内涵信息,将搜集到的答案通过计算机智能反馈给用户[1]。
自动问答系统不仅能帮助人工客服减少工作压力,提升客服工作效率。
在当前信息技术发展时代当中,网络为人们提供许多便利,搜索引擎的使用也帮助人们解决许多生活和学习方面的难题。
1.2研究目的及意义
1.2.1研究目的
随着互联网技术的不断发展,信息量逐渐增长,通过网络将数据进行储存和检索是一项比较困难的工作。
当前网络时代的背景下,搜索引擎能帮助人们在众多数据和信息中准确的找到信息和数据。
信息检索作为当前研究中比较热点的话题之一,本文对知识图谱的问答系统研究在一定程度上更精确的分析信息检索和系统回答相关研究,更丰富的分析知识图谱的问答系统的应用,阐述多种应用范围,并在研究中指出知识图谱问答系统的应用、面临的挑战以及应用步骤。
对知识图谱问答系统的建设和优化有一定理论层面的帮助,推动信息技术发展时代搜索引擎的应用。
1.2.2研究意义
基于知识图谱的问答系统是当前信息技术发展时代中最为常见的信息检索方式,在为人们提供方便的同时,还帮助人们解决生活和中遇到的难题。
信息检索方式最为一种搜集资料的高级方式之一,能够帮助人们通过网络渠道解决人们产生的疑问,通过系统找到问题的答案,将答案提交给用户,减少人们检索信息的时间并且提供充分的便利。
本文对知识图谱问答系统的研究,通过对知识图谱的分析,以及信息系统的优化,指出知识图谱问答系统的基本要素及应用、步骤等,促进人机互动方式向更高效的方向发展,进而推动自然语言的研究和处理发展方向,不论是在理论层面还是在实践应用层面,都具有一定重要的意义。
1.3研究内容及方法
1.3.1研究内容
本文研究主要内容可以将其分为五大部分,第一部分为绪论,简单阐述本文研究背景、研究目的及意义、研究内容及方法等方面进行简单的阐述与梳理。
第二部分相关概念及发展历史,从知识图谱和问答系统两大方面进行分析。
第三部分基于知识图谱的问答系统的应用,从模板匹配、语义分析和信息检索三方面分析国内外知识图谱项目的应用,并从数据、逻辑、展示三层次指出知识图谱问答系统的基本要素,再结合金融场景、医疗场景和教育场景不同范围只能够知识图谱问答系统的应用。
第四部分基于知识图谱的问答系统关键步骤及面临挑战,首先从文本分类、实体识别、关系抽取和知识储存四方面分析知识图谱问答系统的关键步骤,其次简单概括知识图谱问答系统面临的挑战。
第五部分结论与展望,根据本文研究的内容,以及研究成果进行总结,并在研究基础上指出本文研究的优缺点。
1.3.2研究方法
文献分析法:
在本文研究前,通过网上搜索与知识图谱、问答系统相关的文献与资料,将有利于本文研究的相关研究成果进行梳理,在阅读并整理大量文献和资料的基础上,对知识图谱的问答系统有一定的了解。
在搜集文献资料的过程中,将国内外学者研究的成果进行整理并分析,为本文研究奠定一定的理论基础。
并在整理文献资料的过程中结合自身所学知识和观点,更加明确研究方向和研究内容,更清晰的展开本文研究。
案例分析法:
在本文的研究过程中,根据国内外知识图谱的问答系统相关研究,搜集并整理相关应用案例,并在研究中结合整理案例进行分析,为本文研究奠定一定基础。
2.相关概念及发展历史
2.1知识图谱
最初关于知识图谱的概念出台是在2012年,谷歌为了提升资料检索质量所提出的,知识图谱主要是通过浏览器检索关键词和关键问题,检索出用户想要的答案。
其主要通过知识的积累,根据用户检索的关键词,从知识库当中检索出用户所要了解问题的答案。
知识图谱具有充分的表达能力,能与人思考相同,快速有效的通过网络中资料的数据库进行检索,找出相应的答案,帮助用户解决实质性的问题[2]。
同时,该软件还能快速准确的对用户提供相应的反馈,作为认知检索智能领域中主要的技术之一,知识图谱主要包括知识建模、获取、融合、储存、计算等多个部分组成,知识图谱所具备的特点便是规模较大,且应用的范围较广,因此,知识图谱的构建需要结合大量的文献和资料,且构建的步骤比较复杂,涉及到许多方面的知识和技术整合。
在构建知识图谱的过程不重,通常需要花费大量的时间统计并梳理资料,结合许多技术,才能有效的完成知识图谱的构建。
通常知识图谱的构建需要结合抽取、表示和融合等多种技术处理手段和环节,才能保证用户在知识图谱检索问题的过程中能够提取出实体、属性和关系等多重要知识要素,并通过自然表达形式将问题的答案提供给用户。
在构建基本的知识图谱过程中,应当进一步挖掘技术,拓展知识,丰富知识图谱。
构建知识图谱并不是简单的工作,在构建的过程中,需要充分具备一定程度的数据资源,并充分掌握资源构建技术手段[3]。
实际上,知识图谱的构建是一种结构化的表达方式,文献资料的检索是需要通过实体、关系和语义描述等多方面构成的。
因为知识图谱的构建是文字和图片相结合的,需要根据实体节点和实体之间的关系构成,从本质上讲,知识图谱是一种实体与网络之间的表达方式。
可以作为事实解释和推断的知识库,通常使用RDF模式表达数据中的意义。
知识图谱的概念来源于图论,是知识图谱当中,图形结构的一种补充和拓展方式,最初的知识图谱最大的缺点便是在本质结构表达的过程中出现两个或是多个复杂的关系,这种关系解决起来也比较困难。
对此,为了解决这一问题,对传统的知识图谱进行大量的调整和规划,进而似的知识图谱满足三元组的统一格式。
面对多种复杂的关系,知识图谱在客观的世界语义系统当中,应用是极为普遍的,因此,当知识图谱的数据规模逐渐扩大的时候,便无法保证人工规划的完整性和有效性。
超图的引入便能有效的补充这一问题,通过对超边的构建,能充分的解决知识图谱这种一对多的复杂关系。
认知图谱的提出最初是在2019年,认知图谱能将知识图谱理解成在构建知识图谱的过程中,将原本的文本信息进行保留,为今后自然语言的理解和推理能够提供充分的帮助,同时也为处理和推理用户检索的自然语言提供关键抽象的认知。
因为知识图谱的格式是固定的,因此在使用超图对知识图谱进行优化的过程中,认识无法解决客观世界当中关于知识和知识之间的关系,因此,知识图谱的构建只能在保留原本知识的基础上,不断的扩展和补充知识,才能使得知识图谱取得进一步的进展。
但是知识图谱在构建的过程中,是对实体关系抽象程度和传统知识图谱的一种对比,所以,在利用知识图谱构建问答系统的过程中,需要对知识图谱构成充分的语义模型和推理能力。
2.2问答系统
问答系统是信息检索系统的一种高级形式,通过问答系统用户能通过准确、简洁的语言提出自己所产生疑问的问题,并快速、准确的获取自己想要的答案。
问答系统可以分为两种模式,一种模式为人工智能模式,另一种是自然语言,以上两种模式均能有效的帮助用户找到提出问题的答案,帮助用户答疑解难。
问答系统的为题类型进行区分,可以将其分为咨询人、咨询时间、咨询数量、咨询定义、咨询地点和位置、咨询原因等,从问答系统的设计与构建来看,自动问答系统包含问题分析、信息检索和答案抽取这三个部分。
问答系统只要应用于web的形式问答网站,如XX知道、知乎、天涯问答等软件和网站,均属于问答系统当中的一种。
问答系统的复杂程度是可以从问题、数据和答案三个方面进行分析的,问答系统的问题可以氛围限定问题和开放问题,问答系统的数据可以分为处理结构数据和无结构数据,问答系统的答案可以分为抽取式和产生式。
由此可见,问答系统的问题、数据和答案在问答系统当中均负责不同步骤和类别,三种结合才能有效的构成问答系统。
问答系统处理的数据格式需要将问答系统的发展历史分为结构化数据、自由文本数据和问答数据三个阶段。
关于问答系统最初是国外进行研究的,问答系统在当前的市场发展当中,已经具备应用一定能面对市场的产品,如谷歌、苹果公司的Siri等[4]。
问答系统为人们的生活提供一定的便利。
起初,问答系统的出现是由MTT大学开发的start系统,这是世界上第一个问答系统,它的出现给许多商业人员提供创新的想法,随之苹果公司在iOS系统中建立能与人沟通,通过语音直接为用户提供问题答案的智能语音问答系统。
用户通过与手机对话,能充分体验真能华生活[5]。
随之,谷歌也随之推出一款智能问答系统,通过搜索手机端应用,软件中包自然语言用户界面,用户可以通过对应用的对话提出问题,问答系统便能回答用户的问题。
随后越来越多的商业用户展开对问答系统的研究与设计,越来越多的问答系统上市,在信息化社会的发展中,为人们的生活提供充分的便利[6]。
问答系统在建立的过程中,也出现许多困难和挑战,尽管当前市场当中已经有许多智能问答系统出现,但无法否认的是问答系统在当前的发展中并不完善,还需要不断完善和优化,才能实现在不同领域、不同场景当中的应用,如多媒体、医疗等。
目前关于问答系统的研究中还存在一定的问题,但是从技术层面分析,还需要使用更多的理解与功能进行优化与完善。
如语义理解、意图识别等。
3.基于知识图谱的问答系统的研究现状及应用场景
3.1基于模板匹配的知识库问答
最初问答系统的使用是通过规则和模板匹配的形式,根据专家设计的模板对用户提出的自然语言问题进行分析,并根据问题的分析匹配出相应的答案。
根据模板匹配的知识问答系统构建,需要根据专家经验和规则构建模板构建知识库,将问题与问答算法进行匹配,进而得出问题所匹配出的答案和信息,选择与问题最相符的答案,根据匹配模板获取到主要的信息,进而在知识库当中获取答案[7]。
最初Weizenbaum等人在研究设计中实现智能问答机器人,并将该问答智能机器人运用到精神患者的治疗当中,通过临床实践发现,这一职能语机器人系统能模仿医生和病人在实现当中比较简单的交流对话,能够更好的帮助精神疾病患者的治疗康复。
但是尽管这一智能机器人能实现与人沟通交流的功能,但实际上该系统并不能理解与人之间自然语言的真正含义。
智能问答机器人的主要工作方式是在定义问题答案对模板的形式下进行的,在用户提出问题的过程中,直接获取问题中的关键词,通过关键词检索,更直接的找出问题的答案,随后进行智能回复,若是没有批评到模板,那么还需需要用户通过更加规则的对话进行问答[8]。
此外,Wilensky在研究中推出问答机器人系统,主要通过机器人回答用户所提出与操作性相关的问题,通过对用户的模型分析,构建问答系统,能有效的降低问答系统的构建,降低构建成本[9]。
3.2基于语义解析的知识库问答
语义解析的知识库问答是需要用户通过浏览器将自然语言输入到信息检索框当中,通过系统对自然语言的理解与转化,构成具有结构化的查询方式,进而更清晰的得出相应的答案。
如当前最为常见的数据库等逻辑表达式。
在对语句进行转化的过程中,将问题当中的语义信息填充到逻辑表达式当中,才能更直接的在知识库当中找到正确的答。
问答系统在对语义进行解析时,将问答系统看做从下向上的语法构造树,树的叶子是用户输入的自然语言,树的根是语义解析式与逻辑表达式。
Kwiatkowsk等人在对语义解析进行研究的过程中发现,通过语义解析的方式分析自然语句的形式,并在知识库当中找到相应的答案,这种方式在检索大规模数据的过程中,会出现检索困难,浪费大量的人力物力,因此便很难将其推广到其他数据集上[10]。
Liang等人在研究中指出使用依存组合语义的方法,并在研究的过程中,将问句转换成查询语句,促进结构化查询。
在研究的过程中首先需要分析自然语言语句各成分,将语句中的定义和词语进行转换,通过制定的语法规定将句子含义机型分析,构建自然的语言语义等方式分析,从而更直观的将自然语言当中的语言信息逻辑进行转换[11]。
Berant等人在研究中针对问答语料和规定模板进行分析,在研究中指出,通过模型评分计算出醉相思的同义转述,能更直观的将信息进行转化,在限定的范围之内能得到相对良好的问答效果,但在处理问答的过程中,对于比较复杂的语句和问题,在处理的过程中仍存在困难。
但这种方式需要消耗大量的人工,在规则指定和模板构建时,信息的可迁移性较差,无法保证逻辑充分表达,并且很难实现语义逻辑的转换,如口语、方言等语义的转换比较困难,无法将其进行多样化处理[12]。
3.3基于信息检索的知识库问答
信息检索知识库问答首先需要对知识库当中的信息进行检索,根据问题的检索找出答案,并通过文具、知识库和规则信息等找出正确的答案。
但是在知识检索时,没有识别出自然语言当中的实体信息,所以在知识库当中检索和定位时,需要根据定位实体和实体所指的中心知识子图。
其中子图所指的是实体的关系,能准确的通过分类模型检索出问题的答案。
Hu等人在研究中提出使用语义查询图的方式表达问句,在对知识库进行匹配的过程中,应当消除实体歧视,获取子图的位置,最终找到答案。
这种方式能避免问句的理解过程中出现问题,但在于知识库中子图进行检索的过程中,应当消除实体的歧视,根据匹配子图去获取答案。
这种方式能减少语句转换的过程中出现的问题,但实际上,仍是需要消耗大量的时间,提升系统对知识检索的效率。
Boreds等人在研究中使用向量嵌入模型学习问题和答案子图,并在研究中分别映射成低纬空间向量,提出结合记忆网络和知识库问答,将知识库当中所记忆的网络组成记忆单元后,对网络的记忆进行训练,并且在对网络训练后,取得较好的成果。
根据信息检索的知识库问答关键部分,需要提取正确的实体和属性,根据这种方法在候选当中选择正确的答案,所以,这对候选的质量要求便有所提升[13]。
4.基于知识图谱的问答系统的关键步骤及面临的挑战
4.1基于知识图谱的问答系统的关键步骤
4.1.1文本分类
基于知识图谱问答系统的文本分类部分,主要是通过机器学习或是深度学习中分类的算法,对问答系统当中的语料和文档进行划分,深度学习当中常用的分类算法模型,如长短记忆网络、卷积神经网络等。
本文所研究的文本分类主要是指输入预料文档是否建立相对安全的判断,进而将与建筑安全相关的内容过滤掉,因为深度学习在本文分类当中去的较为显著的成果,所以,采用循环神经网络分类模型能有效的对文本进行分类。
4.1.2实体识别
基于知识图谱问答系统的实体识别主要是指识别文档预料当中具有特定意义的实体,如地名、组织结构、专业词汇等等,在建筑安全领域,构建知识图谱的构成中,需要充分识别关于建筑语料及文档,进而实现有序奥的实体识别。
4.1.3关系抽取
基于知识图谱的关系抽取主要是从自然语言当中对实体进行判断,简单来说,在对建筑安全领域的知识图谱进行构建的过程中,研究工作较少。
目前已标注的预料数据并不健全,主流的远程监督方式需要结合大量标注好的预料进行抽取,才能得到较好的实体关系。
尽管通用领域知识图谱的数据规模较大,但是已标注好的语料较为丰富,使用远程监督的方式,使得关系抽取更有效化。
但实际上,这种方法并不能应用到所有的领域当中[14]。
4.1.4知识存储
知识储存主要是指知识图谱的问答系统当中对相关知识以数据库的形式进行储备,将数据库导入到储存当中,将三隐患数据库储存到数据库当中,首先可以采用接口插入节点和边的方式,但这种方式产生的效率比较低,主要是因为每次插入实体节点前,都需要在知识图谱当中审核该节点是否已经存在,随着知识图谱当中知识和图的数量不断增加,查询节点的连接时间也随之变长。
或者可以采用高校导入数据的方式,使用工具处理数据,并输入导入命令。
4.2基于知识图谱的问答系统面临的挑战
尽管知识图谱的问答系统已经在市场当中占据一定的市场,但是问答系统在日常的生活当中给予人们的帮助越来越多,随之产生的问题和即将面临的挑战也越来越多。
在回答复杂问题角度分析,现有的知识图谱规模逐渐增加,能充分覆盖多个领域,但是每个领域的信息并不全面,知识图谱的构建是一项大工程,因此,传统的符号推理能需要严格的符号匹配,并且推理的规则有限,无法实现大规模的推理。
在多轮互式问答方面来看,传统的问答系统大多采用一问一答的形式,但是大在当前信息技术不断发展的时代当中,用户与机器之间应当进行多轮交互,将信息反馈给用户。
此外,还应当采集用户的李俊杰与自然语言的形式回复问题,这一步骤的构成,应当结合知识库问答的答案加入到自然语言回复当中。
从问句的长尾角度来看,问句的长尾主要是指问题的回答当中,少数表达相同意思的答案,比如“数据集当中系统包含什么功能”,意思相近的“系统有哪些功能”。
类似这种形式的问题有许多,这需要采用一些其他的算法增加模型的泛化能力,才能解决这一问题[15]。
5.结论及展望
5.1总结
近些年人工智能逐渐发展,信息技术水平不断提升,人脸识别及语言处理等技术也逐渐相对成熟。
大数据时代的发展背景下,通过网络渠道获取信息、解决问题已经成为人们最为常见的方式,这位人们的生活、学习以及工作都带来许多便利。
本文对知识图谱的问答系统研究,通过对知识图谱项目的应用、知识图谱的问答系统的应用场景等方面分析,大致了解知识图谱的问答系统主要应用范围及发展前景。
本文的研究在解决实体关系链接问题以及答案排序问题提供了思路,同时,也加深并明确知识图谱在系统当中的应用,为今后先关研究提供一定的帮助和参考。
5.2展望
在当前信息技术不断发展的阶段,知识图谱从提出到应用,再到当前运用到问答系统当中,其发展与变化都在不断的优化和完善当中。
本文的研究知识简单的对知识库中的问答进行研究,从问答系统应用的角度进行分析,尽管本文提出的问答算法框架虽然取得了良好的效果,但仍存在部分问题亟待解决。
但本文研究未能将所有关系及推理充分展现,因此,还需要在今后的研究和工作中不断对其进行深入的研究,才能进一步解决问题与不足。
参考文献
[1]魏泽林,张帅,王建超.基于知识图谱问答系统的技术实现[J].软件工程,2021,24(02):
38-44.
[2]何国对,黄容鑫,黄伟刚,李航,覃晓,元昌安,施宇,廖兆琪.基于知识图谱的广西文化旅游问答系统研究与实现[J].广西科学,2020,27(06):
609-615.
[3]王震南,董宝良,田飞.基于知识图谱的军事知识问答系统设计[J].信息技术,2020,44(12):
121-124+128.
[4]徐梦婷.基于知识图谱的多轮问答系统[D].南京邮电大学,2020.
[5]郭苗苗.基于知识图谱的乒乓球问答系统的语义匹配算法研究[D].南京邮电大学,2020.
[6]王智悦,于清,王楠,王耀国.基于知识图谱的智能问答研究综述[J].计算机工程与应用,2020,56(23):
1-11.
[7]陈金菊,王义真,欧石燕.基于道路法规知识图谱的多轮自动问答研究[J].现代情报,2020,40(08):
98-110+120.
[8]钱双双.金融领域的知识图谱构建与应用[D].浙江工业大学,2020.
[9]陈璟浩,曾桢,李纲.基于知识图谱的“一带一路”投资问答系统构建[J].图书情报工作,2020,64(12):
95-105.
[10]闫艺婷.基于知识图谱的保险问答算法研究[D].广东技术师范大学,2020.
[11]罗鹏,张宾,高亚斌,周晶.中文知识图谱在商品咨询自动问答系统中的应用[J].自动化技术与应用,2020,39(06):
173-176.
[12]仇增辉.基于网购评论的电商平台智能问答系统关键技术研究[D].大连海事大学,2020.
[13]王凯.基于知识图谱的非完备信息博弈自动问答系统研究与实现[D].南昌大学,2020.
[14]乔振浩.基于知识图谱的问答系统研究与应用[D].哈尔滨工业大学,2020.
[15]黄薇屹.基于知识图谱的深度法律内容问答模型[D].中国科学院大学(中国科学院深圳先进技术研究院),2020.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 知识 图谱 问答 系统 研究
![提示](https://static.bdocx.com/images/bang_tan.gif)