资源建设技术解决方案.docx
- 文档编号:9443203
- 上传时间:2023-02-04
- 格式:DOCX
- 页数:40
- 大小:350.58KB
资源建设技术解决方案.docx
《资源建设技术解决方案.docx》由会员分享,可在线阅读,更多相关《资源建设技术解决方案.docx(40页珍藏版)》请在冰豆网上搜索。
资源建设技术解决方案
资源建设与管理平台
技术解决方案
同方知网(北京)技术有限公司
2012年6月
目 录
1需求分析
根据目前现状,建设信息资源管理平台应包含以下几个部分内容。
一是资源建设与管理平台,二是网络信息采集系统,三是信息资源整合发布及个性化服务系统。
1.1资源加工及采集需求
由于图书馆数字资源基本是购买商用数据库,实际上本单位内部资源也很有价值,包括:
内部图书期刊、项目资料、研究成果、研究报告等特色资源。
利用资源加工软件将有价值的内部资源进行数字化加工集中统一管理达到服务的目的。
网络相关的情报及资源,利用信息搜索系统对外网(包括内网的)指定网站、版块或栏目进行自动搜索和信息采集。
能够过滤“垃圾”、广告等信息,对采集的信息可以按指定的结构化框架内容进行辅助分类和对应存储(先放入预选库中,待审核确认后提交入库),可识别图片、视频和表格化等信息。
1.2资源整合发布及个性化服务系统软件需求
整合所有业务系统,进行统一的发布,形成信息资源门户。
形成的门户界面能够展现具有本单位特色的知识资源;要求使用简单管理方便。
其功能需求具体包括:
1)信息访问
门户平台能通过信息通道实时将各类信息资源推向不同的用户,使其符合用户各自工作要求和个人个性化习惯要求,可以提供对物理分散的异构数据的实时访问。
2)身份认证管理
门户平台能为用户提供统一的内网资源的访问入口,用户只需从综合信息门户中登录一次,便可漫游访问门户中集成的各种信息资源和应用系统,提供基于用户名称/密码的统一身份认证平台,提供完备的权限管理功能,方便内网用户权限的分级、分层的管理的需要。
要有完备的各类用户及群体的组织定义、角色定义、授权与操作审计功能。
3)负载管理
门户平台应具有负载管理能力。
4)个性化服务
信息门户必须支持用户个性化定制,用户可以定制其权限范围内的各种信息。
1.3资源建设与管理平台软件需求
1.3.1基本要求
支持多种数据库,至少包括Oracle、MSSQLSERVER、MySQL等数据库的数据交互。
系统应具有灵活直观扩展能力,能通插件和适配器方式实现与各种异构系统的连接。
系统能提供对通信和进程处理的实施监控和异常报警,保证通讯正常。
接入及通讯规范应满足研究院现有数据规范标准。
1.3.2功能需求
信息资源管理平台软件所需要的功能包括:
1)数据加工处理
✓实现从一个系统采集数据,对数据进行加工处理,将需要的数据提交给另一个系统使用。
✓系统应具备不同系统间数据可靠的,异步传输;
✓系统应支持多种数据格式,通过集成中间件集成的不同应用系统可以有各不同的数据格式(如普通文件,XML,SWIFT),集成中间件提供数据格式转换功能。
✓系统具备配置方式和二次代码编写两种方式的数据加工处理能力,支持对不同类型数据的数据抽取、数据转换、数据过滤的处理能力。
✓支持事务功能。
✓提供标准的系统集成组件,减少程序员编码工作量,能够快速集成应用,提供满足要求的各种标准组件。
✓系统应具备应用集成框架和集成组件的开发框架,程序员可以为特殊的应用开发定制的组件,以集成自有的应用。
✓提供方便易用的配置工具。
✓完全支持XML格式,用户可以使用XML格式的应用数据,系统可以自动识别,同时内部数据表示也采用XML格式。
✓能提供图形化的数据库数据导入、导出工具,方便用户通过拖曳方式进行数据抽取、同步等工作。
2)系统管理
具备远程管理功能,便于使用。
能通过集中管理机实现对数据交换平台的远程管理,包括:
✓远程状态监控
✓远程启动,停止,重启
✓远程配置修改、保存
✓远程日志文件清除,获取
3)数据转换
在数据映射的过程中,支持语义定义,提高集成的准确性。
4)支持多种数据交换对象
交换的对象数据可以为多种形式,异构数据库(Oracle,IBMDB2,MSSQLServer,Sysbase,MySQL,MSAccess,BorlandInterbase等),离线保存的电子文件(Excel,DBF)、FTP、HTTP抽取的文件,webservice接口形式提供的数据等。
5)安全性
采用完善的安全控制机制,满足数据安全和管理安全要求。
1.3.3协助软环境建立
协助建立数字化校园正常运行所需的各种软环境(制度、体制、标准等方面的内容)。
1.4安全需求
网站系统对系统的安全保密性有较高的要求,必须提供软件系统的用户认证、用户跟踪等安全措施,保证使用人员的合法性。
保障数据的安全性,保留3个月内的用户使用日志,备份数据保存到独立的备份服务器。
提供数据资源的实时备份,备份数据保存到独立的备份服务器。
1.5总体框架
1.5.1功能框架图
信息资源管理平台的总体功能架构图如下所示。
公安数字化学习平台构
公安综合性门户网站
图书馆馆藏历史书籍
资源加工与管理平台
核系统网络资源
业务交流、案件研究、工作简报
工作年鉴、法律法规
互联网有关核方面的网络资源
未公开发表的内部刊物
(核辐射防护研究院保密资料)
已发表的刊物报纸图书
以及工具书
Kspider网络信息采集系统
自动分类|内容挖掘|自动标引|结构化提取
TPI信息资源建设与加工工具
文本识别|协同标引|分类|任务管理|关联挖掘
KBase网关
RDBMS据库网关
系统管理
权限管理
数据库管理
信息统计
单点登录
开发接口
在线提交
关联分析
自动摘要
自动标引
相似分析
馆际互借
核辐射防护研究院资源管理平台
核辐射防护研究院综合性门户网站
资源加工与管理平台
智能信息处理引擎
CNKISTM
非结构化数据库管理系统
KBase
栏目管理
频道管理
模板管理
应用集成
资源集成
信息采编发
广告管理
专题制作
热点链接
学科导航
统一检索
参考咨询
留言\评论
个性化定制
信息推送
动态消息
跨库检索
单点登录
资源导航
资源管理
项目管理
分析工具
个人数字图书馆
机构数字图书馆
资源整合平台
科研诚信管理平台
知识网络
全文检索
科技查新
视频点播
科研成果
作业检测
灾难恢复
增量备份
导入导出
openurl
Webserver
Z39.50协议
图3-1信息资源管理平台总体架构图
信息资源管理平台整合资源加工与管理平台、网络信息采集系统、科研诚信管理系统等资源平台,实现统一的登录,统一的信息资源管理,并统一通过门户系统发布数据,方便用户使用和管理。
通过单点登录实现对现有系统的统一认证,用户只需在门户进行登录,即可根据所能设定访问系统的权限进入相应的业务系统,进行相应的操作。
共享数据中心采用KBase来管理业务系统中需要通过门户系统统一发布的数据。
1.6建设模块划分
网站系统主要包含软环境建设、统一门户资源管理系统建设、信息资源管理平台建设和通用软件购买四个建设内容,每个部分的具体划分如下。
1.6.1软环境建设
在信息资源管理平台的系统建设过程中,将协助中国核辐射防护研究院建立数字化资源正常运行所需的各种软环境,包括制度、体制、标准等各方面的内容。
主要是各种标准规范体系的协助建立,主要包括两方面内容:
技术标准;规范和规则。
不同标准规范在不同环节上应用。
(1)技术标准主要包括XML、RSS、PortletJSR168、WebServices、信息资源异构整合检索规范等;其中XML用于数据的内容标记,应用处理系统的通信是通过XML消息传递的形式进行的,RSS用于个性化服务,为用户提供主动推送功能,WebServices用于资源调度,PortletJSR168用于资源发布。
(2)规范和规则主要包括数据库设计技术要求和接口规范、系统内数据交换格式、业务系统组件互操作规范、安全操作守则、安全技术框架指南、项目管理办法、文档编制规范、资源管理平台使用规范、网站信息的发布标准等。
技术标准以研究引用为主;规范和规则以自建为主。
1.6.2资源建设与管理平台建设
每个单位都有属于自己有特色的一些数据需要建立数据库,例如内部资料、行政公文、人事档案、会议纪要、科研成果、设计文档等等。
这些经常需要更新的资源不能总是去外包制作,一方面成本太高,另一方面也不利于本单位技术人才的培养。
一提到数据库,很多人都觉得“高深莫测”、“高不可攀”,其实,经过简单的培训,只要稍有一点计算机基础的人都可以轻松的使用提供的数据库管理工具来建立、维护自己的特色数据库。
资源管理系统支持众多标准协议,如:
OAI、METS、OpenUrl、WebServices等;支持国家元数据方案,能很容易与别的系统集成;集成智能文本挖掘、自然语言处理、概念关系词典等多项国际领先技术,已经广泛应用于高校、公共图书馆、医院、科研院所、大型企业、党政机关、中小学图书馆等单位,是国内信息资源建设与管理使用最广泛的平台。
1.6.3网络采集系统
网络信息资源采集系统是对网络信息资源开发利用与整合系统,可用于定制跟踪和监控互联网实时信息,建立可再利用的信息服务系统。
系统能够从各种网络信息源,包括网页、BLOG、论坛等采集用户感兴趣的特定信息,经自动分类处理后,以多种形式提供给最终用户使用。
系统能够快速及时地捕获用户所需核辐射防护相关的热点新闻、市场情报、行业信息、政策法规、学术文献等网络信息内容,可广泛用于垂直搜索引擎、网络敏感信息监控、情报收集、舆情分析、行情跟踪等方面。
✓支持互联网信息搜索,输入特定的关键字或者输入具有逻辑关系的关键词可以在互联网上搜集到广泛的信息。
✓自动生成摘要,自动提取关键词对搜集到的信息可以进行编辑,可以指定分类入库,能够显示信息来源和时间。
✓通过配置信息源和分类规则,广泛的监测该频道的信息,对信息进行去重,做相关度分析,自动提取摘要和关键词,自动分类,支持对图片和正文的编辑,显示信息来源和时间。
✓通过配置本地服务器和分类规则可以广泛的搜索,对信息进行去重,自动提取摘要和关键词,支持自动分类,能够显示来源
✓系统可以对有权限访问的数据库题录信息进行采集。
✓系统可配置搜索引擎的采集,包括GOOGLE、BAIDU等
1.6.4资源整合发布及个性化服务系统建设
通过统一的门户资源管理系统实现各业务系统的整合发布,实现单点登录,用户只需从综合信息门户中登录一次,便可漫游访问门户中集成的各种信息资源和应用系统。
资源整合发布及个性化服务系统建设可以划分为以下五个子功能模块:
(1)统一认证:
提供基于用户名称/密码的统一身份认证平台,提供完备的权限管理功能,方便内网用户权限的分级、分层的管理的需要。
(2)门户整合:
采用Portlet技术实现研究院内管理系统中科研、管理、电子邮件系统以及其它重要的内部系统之间无缝地共享和交换数据。
(3)个性化定制:
支持用户个性化定制,用户可以定制其权限范围内的各种信息。
通过信息通道实时将各类信息资源推向不同的用户。
(4)发布系统:
对于信息门户的基本显示内容、页面颜色、字体大小等风格显示,管理员要能方便、快速调整。
(5)子网站管理:
各级部门通过门户网站建立自己的特定栏目,建立自己的站点信息,信息管理具备采、编、审、发的业务定制功能。
1.7安全体系
鉴于本系统对安全性的要求较高,本系统需专门进行系统安全措施建设,研究建立安全管理体系、网络和数据安全措施和其它安全措施,制定出合理的安全策略,以有效保障系统安全。
以下从策略、技术和管理三个方面分别进行设计。
1.7.1策略设计
包括三个方面内容:
总体策略、专项策略和系统策略。
总体策略:
为门户系统的安全确定总体目标(方向),并为总体目标的实现分配资源。
本系统的总体安全策略是建立一个安全可靠的系统,保障系统和数据可靠性,同时兼顾用户使用的便捷性。
专项策略:
主要是针对特定业务(服务),根据用户需求,在系统中增加冗余机制、防病毒措施、数据的备份和恢复等安全策略。
系统策略:
主要是制定相应策略,保证系统的经常更新,减少漏洞的存在,如对于防病毒软件,需要定期更新病毒库。
为了贯彻制定的安全策略,需从安全技术和安全管理两方面制定具体实施措施。
2资源建设与管理系统
内容管理系统是建立在全文检索之上的实际应用系统,提供对资源的信息管理、用户管理、权限管理、分类导航、记录管理、数字对象DOI管理等功能。
内容管理系统能登录远程服务器,可以对服务器上的表进行数据的管理操作,如插入、删除、修改、查询;对记录的增加、删除、修改管理;支持基于页面的编辑界面;支持所见即所得的xml标记形式;支持xml数据的清理;支持修订文档的内容;支持不同用户之间的文档协作;对用户的信息管理等等功能。
整个数据库制作与管理理系统软件都要围绕如何建设数据库的资源进行设计开发;管理用户信息、用户权限、数据库基本信息、分类信息、记录信息、数字对象信息及合理的操作流程、易操作性等问题,都在软件中解决。
2.1功能及性能
a)内容管理与发布系统
支持INTERNET内容发布的自动化管理;支持单站同构多库的内容管理与发布;提供全文检索等多种检索途径,支持导航检索;支持用户内容订制;提供多种发布模板,支持自定义模板;支持多媒体发布;支持多层面数据安全控制。
支持单站同构多库的内容管理与发布,提供多种建库模板(如论文、图片、音频、视频、电子书、期刊、新闻、动态、推荐站点、网络导航、自定义等);提供多种发布风格(如CNKI、Google、EI、OCLC、自定义等),支持文字、图片、图像、动画、音频、视频等各种电子文档的数据库建库管理与web发布管理。
支持Internet内容信息发布的流程化管理,采用了动态页面生成技术,无需编程,自动发布,支持多媒体发布。
支持SDK二次开发,用户可自定义系统发布信息。
提供标准的中图法分类体系,同时允许用户自定义分类体系,支持多导航体系的建立和使用,支持多数据库数据记录之间的关联、跳转、校验、下拉选择,使整个数据库系统形成一个完整知识网络。
提供导航检索、输入词检索、逻辑组合高级检索、中英文混合检索、渐进检索等多种检索方式,可对任意指定字段进行检索,支持全文检索。
基于分词策略,查准率和查全率高。
支持角色管理和用户管理双重管理机制,具备项目管理、组管理、操作员管理、用户权限管理、Web发布管理、日志分析等完整配套的管理工具,可以方便地定义不同用户的权限(可控制到字段级),支持多层面数据安全控制,支持权限分组,支持匿名用户。
完备的日志分析功能,并能以图表形式显示。
提供方便的数据库的数据备份和恢复功能等。
b)分类标引工具
分类标引工具可以对数字对象进行分类和标引,把各种类型的数字对象加工成有序资源,为数据库提供直观的导航和多途径的检索。
采用可视化界面,可直接从原文中提取数据,操作直观简单,支持WORD、TXT、PDF、HTML、CAJ等格式文件的直接标引,支持文本、图片、图像、动画、音频、视频等各种媒体的的元数据标引、内容分类;
提供DC元数据著录工具;
支持MARC与DC及其他元数据之间的映射与转换;
支持中图法分类、自定义分类以及对分类工作的管理;
操作简便,用户只需要拖动鼠标即可完成分类操作;
支持多用户在线标引、分类及其流程化管理,可实现分布式并行加工。
c)通用文档转换工具
随着计算机应用的普及,出现了越来越多的文件格式。
要阅读所有格式的文件需逐一安装相应的阅读器。
但这种方法既费力又难以跟上文件格式的不断变化和升级。
CAJWriter可以将用户已有的各种电子文档,如WORD、PDF、HTML、WPS、PDG、PS、S2、S72、PS2、PSD、TXT、PPT等格式的文件,转换成CAJ格式文件或PDF格式文件。
CAJWriter支持批处理;支持色彩、字体(如数学公式、表格、彩色图片等)的无损转换。
内容管理系统主要功能表
分类
功能
说明
服务器信息
登录服务器
登录服务器。
用户管理
添加用户
添加用户内容发布的用户信息,能设置用户的一些属性。
删除用户
选择一个不用的用户,然后删除。
修改用户属性
修改用户信息,参见添加用户。
添加角色
添加角色的信息。
删除角色
选择一个角色,然后删除此角色。
选择用户角色
将选择角色的权限赋给某个用户。
设置用户IP访问范围
设置用户的IP范围,只有此IP范围的用户才能有效。
设置角色IP访问范围
设置角色IP访问范围。
用户选择数据库访问权限
选择用户的对应数据库的不同权限、不同访问的字段列表。
角色选择数据库访问权限
参见用户选择数据库访问权限,只是数据库的权限赋给角色。
用户数据的备份
备份用户的数据。
用户数据的恢复
恢复用户的数据。
数据库管理
新建数据库
新建一个数据库,以此数据库的名称建立子目录。
引入数据库
引入一个已经存在的数据库。
删除数据库
删除一个不要的数据库。
基本信息
修改数据库建库时的基本信息,参见新见数据库中设置数据库的发布选项和数字对象的命名方式.。
数据库相关性
检索页面的相关链接需要进行数据库相关性配置。
修改库结构
修改数据库的字段信息
索引字段
选择数据库的字段列表,然后索引数据库的字段信息。
索引数据库
重新索引数据库。
清空数据库
清空此数据库的记录信息。
数据库发布
数据库发布向导将引导发布自己的Web数据库的格式、风格等信息。
数据库URL
数据库的URL。
引入配置
对于图像模板,在引入的时候就已经可以得到图像的长、宽、高等数据,但长、宽、高的数据给那些字段,可以通过配置字段来实现。
其他的图像信息也可以先这样配置好,然后在引入配置时会自动将这些信息写入。
数据库数据的备份
备份数据库的数据。
数据库数据的恢复
恢复数据库的数据。
分类管理
添加导航
添加导航一个分类导航。
删除导航
删除选择的分类导航。
导航属性
修改导航的属性。
分类管理
管理导航的分类信息。
保存分类
将当前数据库的分类导航保存成为一个文件。
引入分类
引入保存好的分类导航作为当前系统的分类导航。
记录操作
增加元数据
增加数据库的一个记录。
修订文档内容。
进行xml标记形式。
删除元数据
删除选中的一个记录。
修改元数据
修改数据库的选中的一个记录信息。
进行xml数据的清理。
元数据设计工具
修改数据库的增加、修改记录的界面,可以定制自己的特色界面。
进行基于网页的编辑界面。
引入数据对象
(选择文件)
选择要引入的文件保存到服务器数据库中。
引入数据对象
(选择目录)
选择一个目录,该目录下所有文件都会被追加到数据库中。
引入元数据记录
引入元数据记录
上传数字对象
一条元数据可同时有两个以上的文件。
不同用户之间的文档协作
查看数字对象
若元数据只有一个文件,则在“数据库概览区”双击元数据即可显示该记录对应的原文文件,也可通过元数据,单击鼠标辅助键,选择“查看数字对象”菜单查看当前记录对应的原文文件。
该原文文件每次从服务器下载。
数字对象管理(DOI)
数字对象管理(DOI)。
数字对象文件处理
根据选择给定的数字对象路径,重新采样或引入数字对象。
专项检索
选择一个字段名称,输入检索的检索词,开始检索。
组合检索
配置多个检索条件,然后开始检索。
标题区字段
选择在“数据库概览区”显示选择的字段信息。
数据区字段
可在“数据库细览区”显示选择的字段信息。
记录访问级别
将选中的记录数据设置成不同的级别。
替换字段数据
替换整个字段内容或字段内容的一部分(区分大小写),输入要替换的值,要替换的记录范围,然后可以开始替换。
记录排重
选择排重的字段,然后根据排除的结果,删除相同的第二条记录,写在一个文本中(可以自动打开)。
全部选定
选择所有记录。
保存选择记录
保存选择记录
保存所有数据
保存所有数据
系统配置
自定模板
支持动态自定义创建报表模板
主页配置
主页页面内容的配置。
单位信息
配置单位信息:
名称、电话、联系人等。
模板管理
定义不同的模板信息:
模板名称、发布类型、模板说明、字段等信息。
工具栏
隐藏/显示系统工具栏。
状态栏
隐藏/显示系统状态栏。
导航栏
隐藏/显示系统导航栏。
文件夹栏
隐藏/显示系统文件夹栏。
帮助主题
帮助主题。
系统主要性能要求如表所示。
表内容管理系统主要性能要求
名称
性能指标
全文检索速度
1秒/500GB
相似检索速度
20毫秒/100万文献量
单表支持最大记录个数
40亿
单表支持最大容量
8TB(分区表最大容量2PB)
可同时跨库检索最大数
255个
全切分分词引擎
切词准确率达98%,速度达1M/s
专业概念关系词典
400万词
2.2技术实现
内容管理系统的技术涉及到全文检索的所有技术、数据库管理信息、用户管理信息、分类信息、记录信息、数字对象管理等功能。
支持分类法、主题词表中概念关系的维护和数据字典的维护,以便数据的集散(统一与共享),便于对数据质量进行控制。
由于内容管理系统是在全文检索上做的应用,系统能够注重业务及功能的结合,工作流程合理,提高工作效率。
通过对以上技术的专业分析及设计才能实现,需要独立自主开发来实现。
关键技术主要包括以下四项内容:
数据库管理:
数据库内容管理、标准SQL、内容发布录入等技术;
用户管理:
用户信息管理、权限分配、角色管理等技术;
分类信息:
分类信息管理、自动分类分类代码自动维护等技术;
数字对象管理:
DOI技术。
3KSpider网络信息资源采集系统
网络信息资源采集系统是一套功能强大的网络信息资源开发利用与整合系统,可用于定制跟踪和监控互联网实时信息,建立可再利用的信息服务系统。
系统能够从各种网络信息源,包括网页、BLOG、论坛等采集用户感兴趣的特定信息,经自动分类处理后,以多种形式提供给最终用户使用。
对于研究院资源平台建设来说,互联网关于核辐射研究动态、行业动态、相关问题等内容都可以通过此系统进行采集整理。
系统能够快速及时地捕获用户所需的热点新闻、市场情报、行业信息、政策法规、学术文献等网络信息内容,可广泛用于垂直搜索引擎、网络敏感信息监控、情报收集、舆情分析、行情跟踪等方面。
3.1体系结构
系统由应用服务器、网络蜘蛛、智能代理、发布系统四个子系统组成。
此系统可分布部署、可群集,各子系统可以运行在多台服务器上,也可以运行在一台服务器上,依据性能要求和数据量来决定。
体系结构如下图所示:
体系结构
应用服务器是系统的核心部分,是使网络蜘蛛、智能代理、发布系统相互协调、同步工作的调度程序,负责各种任务的分配、子系统间的消息转发及各子系统的调度。
网络蜘蛛从用户设定的网站抓取数据,形成数据包(数据表)发送给智能代理,由智能代理对所抓取的数据进行分析过滤,按站点、频道、关键词、或其他分类模型对数据进行自动分类,保存在本地数据库,并通过发布系统按选定的风格发布出来,方便用户使用。
3.2系统特点
✧先进的智能代理
基于先进浅层语义分析技术,集成多种智能信息处理算法,能从信息海洋中准确、及时地筛选出用户感兴趣的信息,并自动分类;支持用户自定义分类体系,为用户提供了多种方式定制感兴趣的主题。
拥有自学习功能,可以根据用户反馈信息,及时地自学习完善知识体系,提高自身的智能性。
✧强大的信息采集能力
高效的信息采集技术完成网络数据获取,能快速、全面、准确的从Internet上获取数据,并可对采集的数据进行结构化处理。
可以多线程并行采集,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资源 建设 技术 解决方案
![提示](https://static.bdocx.com/images/bang_tan.gif)