阿里数据中台设计与数据资产管理.docx
- 文档编号:9332324
- 上传时间:2023-02-04
- 格式:DOCX
- 页数:21
- 大小:1.44MB
阿里数据中台设计与数据资产管理.docx
《阿里数据中台设计与数据资产管理.docx》由会员分享,可在线阅读,更多相关《阿里数据中台设计与数据资产管理.docx(21页珍藏版)》请在冰豆网上搜索。
阿里数据中台设计与数据资产管理
阿里数据中台之数据中台顶层设计
最近在读阿里数据中台的书,因为要在组内做分享,就多度了几遍。
与阿里大数据实践之路配合,基本可以看到阿里建设数据中台的过程,和一些技术细节。
做一件有价值的事情就是把自己觉得好的东西分享出来,那么开始内容
(1)大数据的发展历程和价值探索
大数据的发展:
文章开篇是一段作者建设数据中台过程的心路历程,下来就是老套路,介绍了国内外大数据发展的历程与大数据的价值探索,这里做简单的介绍。
两个重要的节点需要说一下:
2003年谷歌公开了内部对于海量文件的处理技术、GFS分布式文件系统、并行计算处理框架MapReduce、高效数据存储模型BigTable,这些促成了分布式系统基础架构—hadoop。
为各个大数据组件的诞生打下基础。
2012年全球大数据从TB上升到PB,也是阿里大数据之路开端的一年。
大数据的价值:
大数据的价值书中主要从四个方面介绍,在下面的四个方面都深刻的解析了大数据的实际应用和真是含义。
语义层面:
‘数据’即所有信息的记录,例如用户访问网站的信息的转化过程的行为属性;大是巨量的意思,可以隐身为数量、形式、含义的丰富,保障实现被高保真的记录与回放
实现层面:
大数据是一套数据处理技术活方法体系,实现具体以上特征的数据的存储、计算、共享、备份和容灾、保密等,保证数据处理的时效性和拓展性
服务层面:
大数据的数据技术变革引发的新型信息服务模式,例如从数据探索出发,系统主动推送信息给用户做决策、给及其优化参数、基于数据的量变完成数据的质变
应用层面:
大数据是数据服务组合生成的新场景、新体验、日益增长的数据量非但不会使信息获取效率降低、质量下降,反而会让每个人都能得到快速的迭代,个性化的互联网服务。
(2)阿里的大数据主张
在数据提供服务的基础上,阿里对数据的要求是准、快、全、统、通,简单的解释是标准统一,融会贯通、资产化、服务化、闭环自优,这是阿里数据中台实现目标的核心。
要实现上面的目标,如何做呢?
图片展示了数据中台运行的过程,主要抽象成三个部分
第一部分:
OneData致力于实现数据的标准与统一
第二部分:
OneEntity致力于实现实体的统一,让数据融通而非以孤岛存在,为精准的用户画像提供基础
第三部分:
OneService致力于实现数据服务统一,让数据复用而非复制
从两一个维度看一下数据中台赋能业务的全景图
数据后台:
计算数据后台同时具有离线计算、实时计算计算能力和在线分析能力从而可以让用户今早的看见昨天及以前汇总及萃取的数据,准确无误的看到上一秒产生的数据、在线分析,查看海量的数据
数据中台:
云上数据中台、通过智能数据能力实现全局数据仓库规划、数据规范定义、数据建模研发、数据连接萃取、数据运维监控,拥有多样的数据的分层数据中心。
数据前台:
数据前台的核心是通过数据的复用,为多个业务线提供数据高效的数据服务。
版权声明:
本文为CSDN博主「文宇肃然」的原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:
一次性讲透阿里中台架构
一、阿里业务中台架构图
基础设施服务,即IAAS层,提供硬件底层支持。
基础服务层,即PAAS层,包括分布式服务框架、分布式数据库、分布式消息、分布式存储、分布式事务、实时监控服务等等。
互联网业务中台,包括各服务中心的抽象出来的各种业务能力,包括交易中心、支付中心、营销中心、结算中心、用户中心、账户中心等等。
也包括非业务类服务,如日志分析中心、配置中心、序列中心、基础中心。
业务应用,经过调取业务中台,组装形成独立业务服务能力的业务应用。
交易来源,就是前台用户使用的各个端,如淘宝App、PC站等。
二、业务中台化-产品形态
阿里的电商生态,就是要根据对商业的理解,把一些基础逻辑梳理出来。
例如什么是业务?
什么是业务身份?
各个业务领域的边界是什么?
每个领域提供的基础服务是什么?
领域服务和领域服务之间的流程链接标准是什么?
再在这些思想的指导下去建立业务平台化的实施标准和业务管控标准。
电商业务中台由一系列:
业务能力标准、运行机制、业务分析方法论,配置管理和执行系统以及运营服务团队构成的体系,提供各业务方能够快速,低成本创新的能力。
三、业务中台化-全局架构
中台建设需要一个中心化控制单元,就是我们的运营平台。
它主要由协议标准、能力地图、业务需求结构分解、全局业务身份、业务全景图、业务度量等构成。
能让我们有一个地方纵观全局,把控细节。
其中能力地图是一个最基础的设施,要能把电商生态里面的能力都呈现出来,并在过程中不断的优化完善。
就象我们现在出行离不开XX地图一样,今后所有的业务方需要做业务规划,业务创新,都可以到这儿来寻找需要的基础能力。
四、业务中台化-业务创新和智能化
为了能将业务逻辑本身与实现逻辑分离,可以将业务逻辑下发给不同实现的执行系统,引入竞争,方便业务平台的改造升级,我们要将控制信息从业务平台中抽离到业务中台,以业务身份为主线来进行组织管理和呈现。
并以生态角色的视角来重构信息架构。
这样的变革对我们原来的系统架构提出了更高的要求。
通过业务中台化,我们把所有业务的数据汇集沉淀。
每个业务它是怎么出来的?
出来之后做了哪些业务需求、业务活动?
每个业务活动的效果是怎么样的?
都可以沉淀下来。
五、阿里核心业务架构
通过阿里云平台将技术中台进行部署,对集团内共享业务单元提供支撑,并最终对前台各业务线提供服务化能力输出。
六、阿里数据中台架构
阿里巴巴提出的数据中台模式正是为解决这些问题而生,并通过实践形成了统一全域数据体系,实现了计算存储累计过亿的成本降低、响应业务效率多倍提升、为业务快速创新提供坚实保障。
全域数据采集与引入:
以需求为驱动,以数据多样性的全域思想为指导,采集与引入全业务、多终端、多形态的数据。
标准规范数据架构与研发:
统一基础层、公共中间层、百花齐放应用层的数据分层架构模式,通过数据指标结构化规范化的方式实现指标口径统一。
连接与深度萃取数据价值:
形成以业务核心对象为中心的连接和标签体系,深度萃取数据价值。
统一数据资产管理:
构建元数据中心,通过资产分析、应用、优化、运营四方面对看清数据资产、降低数据管理成本、追踪数据价值。
统一主题式服务:
通过构建服务元数据中心和数据服务查询引擎,面向业务统一数据出口与数据查询逻辑,屏蔽多数据源与多物理表。
极大的丰富和完善了阿里巴巴大数据中心,OneData、OneID、OneService渐趋成熟并成为上至CEO、下至一线员工共识的方法论体系。
七、阿里技术全栈全景图
阿里技术全栈包含:
移动中台、业务中台、数据中台、基本中间件、基础设施、前台业务、后台业务。
移动中台,包括移动网关、开发套件&框架、消息推送、移动IM等等,提供了限流、负载、鉴权、消息推送、开发框架等等,使得移动端应用开发效率更高。
业务中台&数据中台,将业务、数据抽象和沉淀形成服务能力,对前台提供调用。
八、阿里技术平台底座
在阿里集团内部,所有业务中台、前台,共享一个技术平台底座,将阿里多年技术沉淀的价值最大化,提供运行更稳定、架构更灵活的技术支撑。
九、阿里中台组织架构
阿里巴巴集团在近期的组织结构调整中,组成由“小前台,大中台”互为协同的创新管理模式。
原阿里巴巴中国零售事业群总裁张建锋将担负起“中台”的重要工作,负责共享、数据、搜索,以及闲鱼、淘宝头条等创新孵化业务。
十、业务中台建设路径
阿里对业务中台建设路径进行了总结提炼:
1)决心变革
企业内达成战略共识,一把手牵头,做总体规划、分步实施,找准切入点,解决具体业务问题。
2)成功试点
通过分析调研,明确业务目标和范围,完成技术平台引入、中台建设方法论宣导,进行试点,梳理标杆,积累经验。
3)持续融合
总结出适合企业自身的理念和规范,优化组织、提升中台效率。
十一、企业中台战略升级的4个方面
阿里建议企业实施中台战略的4个升级:
1)战略升级
通过中台建设,落地企业数字化战略。
2)组织升级
组织架构需要与中台架构相匹配,根据企业实际情况优化组织效率。
3)流程升级
将企业现有流程进行梳理,优化及固化企业流程,提升企业运作效率。
4)技术升级
通过互联网技术,对企业基础技术设施进行升级,降本增效。
十二、阿里中台的能力开放
阿里基于阿里云、ET大脑、业务&数据双中台,将阿里10多年的技术能力向社会进行开放。
十三、阿里业务中台建设方法论
1)中台建设的基础协议
就是要根据我们对商业的理解,把一些基础协议梳理出来。
例如什么是业务?
什么是业务身份?
各个业务领域的边界是什么?
每个领域提供的基础服务是什么?
再在这些思想的指导下去建立业务平台化的实施标准和业务管控标准。
2)中台的基础设施:
中心化控制单元
就是运营平台,它主要由协议标准、能力地图、业务需求结构分解、全局业务身份、业务全景图、业务度量等构成。
能让我们有一个地方纵观全局,把控细节。
阿里数据中台设计与数据资产管理
袋鼠云大数据解决方案专家。
专注于云计算、大数据、企业级技术架构(EA)等领域,在互联网、零售、工业等行业有深入的理解和丰富的从业经验,曾带领项目团队完成中金易云、货币网、固德威等企业级大数据项目交付,擅长行业大数据解决方案的咨询与落地。
正文:
正文
企业的发展,往往伴随着业务更多元化,也必然会促进更多的业务数据产生,也为企业实现业务数据化和数据业务化带来了更多的可能性,但现实是很多企业依然采用传统理念去建设大数据平台,导致不单单业务系统是一个个烟囱,大数据平台也是一个个垂直的数据中心,所以如何打通这些数据并将其按照一个统一的标准进行建设,以达到技术降本、应用提效、业务赋能的目标,是众多企业面临的问题。
数据中台就是为解决这些问题而生。
数据中台的内核包括两方面:
一个是应用数据的技术能力,另一个是数据资产的管理。
Part1
一、数据中台设计
数据中台的概念由阿里巴巴首次提出,它是一个承接技术,引领业务,构建规范定义的、全域可连接萃取的、智慧的数据处理平台,建设目标是为了高效满足前台数据分析和应用的需求。
数据中台是涵盖了数据资产、数据治理、数据模型、垂直数据中心、全域数据中心、萃取数据中心、数据服务等多个层次的体系化建设方法。
(一)数据中台建设方法论
(二)数据中台建设内容
1.全域数据采集与引入以需求为驱动,以数据多样性的全域思想为指导,采集与引入全业务(电商、零售、生产等)、多终端(PC、H5、APP等)、多形态(自身业务系统、三方购买、互联网采集抓取)的数据。
2.标准规范数据架构与研发统一基础层、公共中间层、百花齐放应用层的数据分层架构模式,通过数据指标结构化规范化的方式实现指标口径统一。
3.连接与深度萃取数据价值形成以业务核心对象为中心的连接和标签体系,深度萃取数据价值。
4.统一数据资产管理构建元数据中心,通过资产分析、应用、优化、运营四方面对看清数据资产、降低数据管理成本、追踪数据价值。
5.统一主题式服务通过构建服务元数据中心和数据服务查询引擎,面向业务统一数据出口与数据查询逻辑,屏蔽多数据源与多物理表。
(三)数据中台设计方法
1.数据模型层次设计
数据中台将数据分为操作数据层(ODS)、公共维度模型层(CDM)(其中公共维度模型层包括明细数据层(DWD)和汇总数据层(DWS))、应用数据层(ADS)。
ODS层:
把来源于其他系统的数据几乎无处理地存放在数据仓库中。
主要功能:
∙数据同步:
结构化数据增量或全量同步到数据计算平台;
∙结构化:
非结构化(日志)结构化处理并存储到数据计算平台;
∙累积历史、清洗:
根据数据业务需求及稽核和审计要求保存历史数据、数据清洗;
CDM层:
存放明细事实数据、维表数据及公共指标汇总数据。
CDM层又细分为DWD层和DWS层,分别是明细宽表层和公共汇总数据层,采取维度模型方法基础,更多采用一些维度退化手法,减少事实表和维度表的关联,容易维度到事实表强化明细事实表的易用性;同时在汇总数据层,加强指标的维度退化,采取更多宽表化的手段构建公共指标数据层,提升公共指标的复用性,减少重复的加工。
∙组合相关和相似数据:
采用明细宽表,复用关联计算,减少数据扫描。
∙公共指标统一加工:
基于OneData体系构建命名规范、口径一致和算法统一的统计指标;建立逻辑汇总宽表。
∙建立一致性维度:
建立一致的数据分析维表,降低数据计算口径不统一的风险。
ADS层:
存放数据产品个性化的统计指标数据,根据CDM层和ODS层加工生成。
∙个性化指标加工:
不公用性、复杂性(指数型、比值型、排名型等)
∙基于应用的数据组装:
大宽表集市、横表转纵表、趋势指标串。
设计原则
2.数据规范定义设计
规范定义是指以维度建模作为理论基础,构建总线矩阵,划分和定义数据域、业务过程、维度、度量/原子指标、修饰类型、修饰词、时间周期、衍生指标等。
一般指标组成体系可以划分为:
原子指标、衍生指标、修饰类型、修饰词、时间周期。
如:
支付订单金额+最近7天+淘宝=最近7天淘宝的成交
表命名规范:
ODS:
ods_[业务库名]_{业务库原始表名}[_delta]
DWD:
dwd_{主题缩写}_{业务过程缩写}[_自定义标签缩写]_{单分区增量全量标识}
DWS:
dws_{数据域缩写}[_自定义标签缩写]_{刷新周期标识}
ADS:
ads_[_业务应用缩写][_维度][_自定义标签缩写]_{刷新周期标识}
DIM:
dim_{维度定义}
3.数据模型设计
维度建模是专门用于分析型数据库、数据仓库、数据集市建模的方法,维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。
维度表
表示对分析主题所属类型的描述。
比如"昨天早上张三在淘宝花费200元购买了一个皮包"。
那么以购买为主题进行分析,可从这段信息中提取三个维度:
时间维度(昨天早上),地点维度(淘宝),商品维度(皮包)。
通常来说维度表信息比较固定,且数据量小。
事实表
表示对分析主题的度量。
比如上面那个例子中,200元就是事实信息。
事实表包含了与各维度表相关联的外码,并通过JOIN方式与维度表关联。
事实表的度量通常是数值类型,且记录数会不断增加,表规模迅速增长。
维度建模常见的由星型模型、雪花模型和星座模型三种,数据中台设计一般采用星型模型。
Part2
二、数据资产管理
大家已经意识到数据是企业最宝贵的资产了,前面讲的都是企业数据建设的方法,那企业如何把自己的数据资产建好、管好和用好?
这不仅仅需要方法论和管理制度,更需要的一个可视化的数据管理工具,实现复杂的数据资产运维简单化,前面的数据中台系列文章开篇就曾介绍袋鼠云数栈大数据产品,它是一款高效的大数据实时/离线任务开发、任务调度和数据管理工具,它从以下三个方面实现数据资产的管理。
1.数据地图管理
数据地图是对整个数据中台内的数据进行统一查询、管理的“地图”,数据地图主要面向数据开发者,汇聚用户所有数据信息,通过元数据信息收集、数据血缘探查、数据权限申请授权等手段,帮助数据中心专有云完成数据信息的收集和管理,解决"有哪些数据可用"、"到哪里可以找到数据"的难题,并且提升数据资源的利用率。
2.数据模型管理
数据模型管理,主要是为解决架构设计和数据开发的不一致性,是为了约束平台使用者的表名、字段名的规范性,架构师从工具层合理的进行模型分层和统一开发规范,包括2部分,一个是规则配置,另一个是对表名、字段名的定期校验。
规则配置:
可以配置表名必须由哪几个元素组成,比如表名=数据仓库所属层级+表所属主题+数据更新周期+增量/全量,按照这个规则,表名就会是
dws_sale_channel_day_full,这样的话,这张表是做什么的就一目了然了。
定期校验:
可以对表名、字段名做定期校验,告诉你哪些表、哪些字段是不符合要求的,这样的话,平台长期运营下去,依然会处于比较健康的状态。
3.数据质量管理
在实际生产中,数据计算任务没有告警,但不代表数据就是正确的,比如源数据异常、代码逻辑修改等原因都会造成结果数据错误。
数据质量就是保障数据正确性的工具,主要包括这么几部分:
一是支持准确性校验规则,二是支持双表校验,三是输出校验报告。
数据准确性规则配置:
可以配置针对表的、字段的校验规则,比如这个表的数据量是不是波动很大,某个字段是不是有异常的值,这个字段的值会不会有很多空值。
双表校验配置:
数据迁移、重要逻辑变更时需要保证数据的一致性,传统方式采用人工编写SQL的校验方式,数栈·Valid提供自动化校验功能,仅需页面配置即可完成海量数据的一致性校验。
输出质量报告:
支持字段级、表级校验报告,具备历史数据统计功能,辅助定位数据质量的问题根源会定期的自动执行校验规则,输出校验报告。
总结
数据时代带来的挑战不仅仅是数据量的爆发式增长,更重要是如何管理好、治理好、利用好这些数据,显然传统的大数据建设方法论无法满足需求。
如果把大数据建设工作比如盖高楼的话,那么大数据平台开发和管理工具(数栈)就是打桩机、挖土机、推土机、塔吊...,过程中严苛、繁琐、体系的开发、治理、分析建设方法论(数据中台)就是楼层规划、户型设计、房屋建造....,数据服务就是业主个性化的装修。
袋鼠云数据中台建设方案就是集大数据平台产品+建设方法论+数据服务+数据运营经验的整体输出。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 阿里 数据 设计 资产 管理