银联商务数据中心大数据建设需求Word文档格式.docx
- 文档编号:17447587
- 上传时间:2022-12-01
- 格式:DOCX
- 页数:6
- 大小:323.60KB
银联商务数据中心大数据建设需求Word文档格式.docx
《银联商务数据中心大数据建设需求Word文档格式.docx》由会员分享,可在线阅读,更多相关《银联商务数据中心大数据建设需求Word文档格式.docx(6页珍藏版)》请在冰豆网上搜索。
日期
拟稿和修改
说明
初稿
2014-4-20
胡府捷
拟初稿
V0.1
增加技术要求,重新梳理章节
V0.2
增加数据中心系统的描述,修改反馈要求
本文档中的所有内容为银联商务有限公司的机密和专属所有。
未经银联商务有限公司的明确书面许可,任何组织或个人不得以任何目的、任何形式及任何手段复制或传播本文档部分或全部内容。
1、数据中心数据现状
1.1数据中心核心信息数据情况
数据中心对外展示功能主要基于业务数据查询平台,其主要功能包括:
关键指标展示、多维分析、专题明细查询、常用数据浏览、静态报表下载以及部分业务参数管理和维护。
数据中心保存的数据主要包含三大类:
交易流水类数据、商户档案类数据和汇总统计类数据,均为结构化数据。
1.2数据中心与外部系统信息交互情况
1.3数据中心目前的数据存储情况
数据中心目前数据量情况为全库18T,其中流水类数据为10T包括综合流水(90亿条记录),新一代增值流水(FJNL),清分流水。
每日增量流水约1200万条记录。
商户信息数据按天保存,商户数约为300万,终端数约为480万。
每天数据量约为10G。
2、数据中心系统现状
2.1系统架构
2.2功能描述
新一代流水、清分流水、结算流水和BMS商户数据分别以文本和oracledmp格式通过ftp方式传输到数据中心服务器上,每天定时由批处理服务器通过批量框架(C++)调用批量过程按分支机构并发地将文件或DMP包导入数据库中。
并通过调用存储过程完成数据的清洗、关联、数据补齐工作。
批量过程完成元数据加工工作后,按各种业务维度按天、按月汇总交易数交易金额和收益等数据并生成关键指标数据。
目前数据中有各种维度的汇总统计表80余张。
完成汇总后,批量框架服务会根据关键指标数据生成cognoscube,并刷新cognos服务;
同时报表生成程序会根据中间汇总表生成预定的报表文件。
终端用户以web访问方式通过查询平台可以查询定制的报表或者通过cognos组件以仪表盘方式查询各动态报表。
用户亦可通过拖拉拽方式自由组合维度和度量生成报表表格,通过cube可以实现数据的多维分析和动态钻取。
2.3面临的问题
1.单库查询方式的数据存储容量有限,很难做到数据的长期保存和查询。
2.新增中间统计汇总需求或者中间统计汇总口径发生变化时,对存量数据的重新汇总需要耗费很漫长的时间。
3.无法满足海量历史数据随机查询的需求。
4.数据备份困难,超大容量数据库在备份和恢复方面存在很大困难,成本极高。
5.数据分析处理能力有限,仅能按日进行数据统计,无法进行海量数据抽取运算。
3、项目建设目标
3.1业务目标
2014年大数据建设工作主要包括:
3.1.1.建立数据模型分析平台,开展持卡人交易行为分析
持卡人交易行为分析是已交易流水中的卡号为对象,根据持卡人历史消费情况进行数据拟合,根据一笔实际消费信息快速计算出该持卡人下一笔可能的消费目的,为精准营销提供支持。
持卡人行为分析除了分析模型建立外,还包含了商圈的识别,目前我们已对部分商户地址进行了坐标化(XX坐标)。
该行为分析的时限要求是1秒内且在1000TPS的情况下延时不超过5秒。
3.1.2.建立基于大数据平台的海量数据统计平台
海量历史数据统计要求是非实时的,是针对一定统计口径进行汇总的批处理要求。
例如一定统计口径下针对90亿条流水按天生成汇总的中间结果,速度要求是小时级。
3.1.3.能满足对海量历史数据进行快速查询的要求
海量历史数据快速查询要求对海量历史流水按一定条件进行快速查询,需实现分页技术。
此需求要求搜索的数据量大,响应速度快,要求能在分钟级内从大数据平台返回数据集给前端应用。
3.2技术目标
1.具备强大计算处理能力和存储能力。
2.采用X86框架服务器,无需采购高端机器(小型机),节省硬件投入。
3.尽可能保持现有基于SQL92标准的使用习惯,也不排除对应用进行适当修改以适应新的数据库层架构。
4.提供使用灵活方便的数据接口,供各类业务系统对数据进行快速查询。
5.节点扩展快捷,不影响现有节点工作。
4、反馈应答要求
反馈文档要求
1.应结合银商现有数据中心的现状、存在的问题以及大数据分析的需求给出适合的技术方案。
2.大数据平台建设不代表取代原数据中心。
技术方案须涵盖大数据处理平台并体现对现有数据中心系统的优化整合,明确大数据处理平台和数据中心间的关系。
4.技术方案应包含系统逻辑架构图和硬件部署图,对系统中使用到的工具软件需提供明确的功能介绍和性能指标介绍。
5.技术方案需要明确硬件配置以及系统预期能达到的技术性能指标。
6.根据技术方案给出相应的全套报价:
包括硬件、系统软件、工具软件及应用实施费用。
计划安排
二季度完成基于分布式架构的大数据平台建设项目的立项、实验设备采购、人员和技术准备工作,确认POC要求。
三季度完成大数据平台实验环境搭建,完成平台基础性能试验并进行调优,同步进行持卡人交易轨迹挖掘的POC测试。
四季度确定POC结果,完成招标。
中标厂商开展后继工作:
完善大数据平台建设,完善数据抽取清洗装载(ETL)过程;
建立持卡人交易轨迹预测模型,形成挖掘结果并投产。
应答时间
希望各厂商于五月初(五一假期结束前)给出系统建设方案及相应的全套报价:
银联商务将综合各厂商的技术方案及报价选择2~3家厂商进入后期POC阶段。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商务 数据中心 数据 建设 需求
![提示](https://static.bdocx.com/images/bang_tan.gif)