商务数据的分析与应用----1-项目一---数据分析基础.ppt
- 文档编号:30853494
- 上传时间:2024-03-02
- 格式:PPT
- 页数:41
- 大小:30.37MB
商务数据的分析与应用----1-项目一---数据分析基础.ppt
《商务数据的分析与应用----1-项目一---数据分析基础.ppt》由会员分享,可在线阅读,更多相关《商务数据的分析与应用----1-项目一---数据分析基础.ppt(41页珍藏版)》请在冰豆网上搜索。
项目一数据分析基础理论篇1商务数据的分析与应用目录2任务一任务二了解数据和数据技术了解数据结构和数据结构化任务三数据处理和数据清洗123了解数据和数据技术任务一了解数据和数据技术了解数据结构和数据结构化数据处理和数据清洗3了解数据和数据技术一、什么是数据数字化的证据和依据,是事物存在和发展状态或者过程的数字化记录,是事物发生和发展留存下来的证据。
175cm小明的身高是175cm小明在2019年10月5日14时的身高是175cm仅仅是数值不完整数据完整数据4了解数据和数据技术二、数据的作用企业留存和积累数据与文字记载是一样的道理,企业把历史数据积累沉淀,然后不断分析和总结企业的发展轨迹和路径,研究过去的得失,从而肯定最优秀的做法。
通过对发展规律的探索,可以指导企业的经营和管理决策,使其更加符合市场的需求。
5了解数据和数据技术二、数据的作用成为企业预测市场未来的发展趋势、形成商业洞察力的依据。
企业留存和积累的数据越多就越有价值。
一方面可以当作证据另一方面也可以用来研究规律,6了解数据和数据技术三、数据的技术常见的数据技术包括:
数据采集技术数据存储技术数据传输技术数据处理和数据挖掘技术数据采集是指获取在事物发生和发展的过程中留存的数据。
数据存储是指数据以某种格式记录在计算机内部或外部存储介质上。
是数据源和数据宿之间传送数据的过程。
数据处理和数据挖掘就是在海量的数据中提取筛选出有用的数据。
(一)
(二)(三)(四)7了解数据和数据技术在12306网站上线伊始,因为购票人数太多,大量的访问请求无法及时处理,给服务器带来巨大的压力,网站一度瘫痪。
后来12306网站通过与阿里巴巴集团合作,利用分布式算法,提高了响应请求的速度,虽然消费者需要不断刷新才能获取新票源,但其有效地解决了高并发请求和响应的问题,这是数据处理技术升级的一个典型案例。
典型案例8了解数据和数据技术时代在变迁,技术在革新,在智能信息时代,人们的生活逐渐在“数据化”,而企业的运营管理活动也在“数据化”。
分析和挖掘数据是企业管理者必须掌握的基本技能,企业管理者要充分利用数据掌控各种内部或外部信息,提高个人的影响力和控制力,从而为企业创造更大的价值。
9典型案例任务二了解数据结构和数据结构化1233456什么是数据结构如何设计好的数据结构结构化数据和非结构化数据如何将非结构化数据结构化处理什么是单维数据表转换为单维数据表的意义10了解数据结构和数据结构化一、什么是数据结构数据结构是存储、组织数据的方式,是数据内部的构成方法。
包括3类:
11逻辑结构数据的存储结构数据的运算结构了解数据结构和数据结构化一、什么是数据结构表1-1员工信息登记表姓名籍贯性别民族年龄血型出生日期健康状况入职日期婚姻状况司龄生育状况入职岗位职级学历职序学位专业毕业院校薪级12数据主体:
就是被记录数据的事物,包括动态的事和静态的物。
数据表:
记录一系列数据的集合。
一条数据:
就是该数据集中某个员工的所有信息,一个员工对应一条数据,多个员工对应多条数据。
字段:
每条数据中对数据主体的属性描述。
了解数据结构和数据结构化一、什么是数据结构续表所属子公司工作经历起止日期工作单位和职位所属部门所属科室身份证号通信地址家庭住址联系电话家庭电话紧急联系人紧急联系人电话QQ号微信号电子邮箱社保号码工资卡开卡行工资卡号码岗位调动日期员工档案编号员工编号13了解数据结构和数据结构化一、什么是数据结构这个表格存在的设计问题就是数据结构的问题,优化数据结构能够提高数据管理的效率,如果数据结构不合理,则未来需要大量的时间进行数据处理和数据清洗,甚至对公司的信息系统资源造成巨大的浪费。
14了解数据结构和数据结构化二、如何设计好的数据结构数据结构是数据的组织形式,在组织数据之前,需要对数据进行分类。
表1-2静态数据和动态数据静态数据动态数据姓名入职信息(包括日期和岗位等信息,虽然在大多数情况下是一次性的,可以当作静态数据,但也可能存在多次入职、离职后再入职的情况)出生日期学历信息(学历、学校、日期等)性别工作经历信息(单位、职位、日期等)籍贯岗位调整信息(日期、新岗位名称等)民族子女信息(二孩全面开放后,可能存在多次生育的情况)15了解数据结构和数据结构化二、如何设计好的数据结构续表静态数据动态数据婚姻状态职级调整信息身份证号职序调整信息(限于篇幅,不一一列举)16了解数据结构和数据结构化二、如何设计好的数据结构原则上,一个好的数据结构,要么是描述静态信息的,要么是记录动态信息的,然后通过数据表之间的关联形成一个完整的相互关联的数据库。
17了解数据结构和数据结构化二、如何设计好的数据结构图1-2拆分员工信息登记表其中,最高学历信息可以从员工学历记录表中查询得到。
这种数据结构关系称作运算结构关系。
18了解数据结构和数据结构化二、如何设计好的数据结构数据结构是非常重要的概念,因为数据结构是数据的组织方式,而数据组织方式不同,存储和处理数据的效率也会不同。
19了解数据结构和数据结构化三、结构化数据和非结构化数据
(一)结构化数据结构化数据主要指在数据存储和数据处理过程中结构设计比较合理的数据。
例如:
表1-3员工基本信息姓名员工编号性别出生日期血型张小娟ID0008789女1983-10-29O型李文华ID0018732男1988-04-28A型该表即为结构化数据,随着员工人数的增多,表的结构不会改变,但数据可以不断累计。
20了解数据结构和数据结构化三、结构化数据和非结构化数据
(一)结构化数据目前大多数数据库都是结构化数据库,自结构化查询语言(StructuredQueryLanguage,SQL)发明以来,表状的结构化数据已经成为信息技术记录数据的标准,并且衍生了大量的数据处理软件,常用的有MySQL,DB2,Oracle,SQLServer等。
21由固定的行和列组成的数据表称为二维结构数据表,它是结构化数据。
如果行和列的数量不固定,即不能由固定的行和列组成二维结构数据表来表示和存储的数据,统称为非结构化数据。
部分非结构化的数据可以通过多表关联的方法进行结构化改造。
了解数据结构和数据结构化三、结构化数据和非结构化数据
(二)非结构化数据22了解数据结构和数据结构化四、如何将非结构化数据结构化处理如果数据是非结构化的,可通过多表关联的方式进行结构化处理。
在处理非结构化数据的过程中,最核心的方法就是对数据进行分类,即按照数据的行为(或者属性主体)将数据分为静态数据和动态数据,然后分别进行结构化处理。
对于静态数据,要采用单独的表格来记录事物的属性和要素。
然后将动态数据也建立成单独的表格并与静态数据进行关联,从而构成了动静结合的数据表集。
这种处理方法简称“静动分离,动静结合”。
23了解数据结构和数据结构化四、如何将非结构化数据结构化处理从某种意义上来说,客户的动态数据对企业更有价值,因为静态数据记录了客户的基本信息,而针对该客户的动态数据才能让企业对客户有更加深刻的理解。
当企业通过各种方式收集了客户的静态数据后,如果没有动态数据,如交易数据等,就不能形成完整的客户画像。
WHY?
HOW?
WHO?
WHEN?
WHAT?
课堂解疑24了解数据结构和数据结构化五、什么是单维数据表单维数据表是结构化数据表的一种形式,而且是最简单的形式。
它要求相同属性的字段统一且固定,所有的字段都在描述相同的数据主体。
单维数据表是结构化数据表,但结构化数据表不一定是单维数据表。
25了解数据结构和数据结构化五、什么是单维数据表例如表1-4客户表客户名称客户ID客户驻地客户购买产品1客户购买产品2客户购买产品3客户购买产品4客户购买产品5张丽AA325北京30001204350单维数据表强调的是每个数据条目描述的都是一个主体,要么是资源的描述数据,即静态数据,要么是资源的动作和行为,即动态数据。
26了解数据结构和数据结构化五、什么是单维数据表单维数据表首先必须得是结构化数据表,同时强调数据描述主体的一致性。
例如表1-5员工奖金汇总表月份(奖金/元)刘强李丽王小蒙赵思龙1月30003875360019002月34004325120043003月280012054500230012月400050006000320027了解数据结构和数据结构化五、什么是单维数据表将表1-5转换为单维数据表后,其形式如表1-6所示。
月份姓名奖金1月刘强30001月李丽38751月王小蒙36001月赵思龙19002月刘强34002月李丽43252月王小蒙12002月赵思龙430028了解数据结构和数据结构化五、什么是单维数据表续表3月刘强28003月李丽12053月王小蒙45003月赵思龙230012月刘强400012月李丽500012月王小蒙600012月赵思龙3200将结构化数据表转化为单维数据表的技巧在于如何审视数据主体,主体越明确,数据越精准,单维数据表结构对以后的数据统计汇总工作来说非常重要。
29了解数据结构和数据结构化六、转换为单维数据表的意义单维数据表的组织形式便于数据分析、数据表之间进行关联、数据建模,能够大幅度节省数据清洗的时间以及数据存储的空间,同时避免了数据更新时导致的数据不一致。
30了解数据结构和数据结构化六、转换为单维数据表的意义例如表1-73张数据表的结构员工基本信息表员工工资表员工岗位异动表姓名员工编号ID性别出生日期最高学历最高学历毕业院校最高学历专业入职日期婚姻状况身体状况血型身高体重*姓名工资条编码ID员工编号ID发薪月份*入职日期(用于计算司龄)*岗位(用于计算岗位工资)*出生日期(用于计算年龄)基本工资绩效工资最高学历(用于计算学历补贴)学历补贴应发工资五险一金(个人部分+公司部分共12项)出勤天数扣款实发工资*姓名员工编号ID岗位异动记录编码ID岗位调动日期*新岗位名称新岗位ID31了解数据结构和数据结构化六、转换为单维数据表的意义采用单维数据表结构的好处在于,除编码数据用于索引外不包含其他额外的信息。
通过以上单维数据表结构的建表原则,可以引申出另外一条基本原则:
一条需要录入的数据信息只能出现在一张表上(除编码索引外)。
AB32任务三数据处理和数据清洗123345什么是数据处理为什么要清洗数据“脏”数据为什么要清洗数据数据杂质和噪声如何进行数据清洗如何提高数据的清洗速度33数据处理和数据清洗一、什么是数据处理广义的数据处理包括所有的数据采集、存储、加工、分析、挖掘和展示等工作。
在数据处理过程中最大的工作是对数据进行清洗。
而狭义的数据处理仅仅包括从存储的数据中提取筛选出有用的数据,对有用的数据进行加工的过程。
广义&狭义34数据处理和数据清洗二、为什么要清洗数据“脏”数据通常将记录不规范、格式错误、含义不明确的数据称为“脏”数据。
(一)数据不规范
(二)数据不一致(三)数据标准不统一(四)数据格式不标准(五)数据有附加字段35数据处理和数据清洗三、为什么要清洗数据数据杂质和噪声在外部海量数据中,由于数据价值密度较低,所以数据中的杂质和噪声很多,需要大量的数据处理工作才能将有价值的数据和信息提炼出来。
而企业经营数据,特别是内部采集的数据,价值密度高,几乎所有的数据和信息都是有价值的,因此杂质和噪声就会少很多。
36数据处理和数据清洗三、为什么要清洗数据数据杂质和噪声
(一)数据杂质所谓数据杂质就是在数据集中出现了与数据记录本身无关的数据。
例如,企业生产线上的监控录像。
另外一种杂质是在数据采集或者记录过程中产生的。
例如,问卷调查。
(二)数据噪声所谓数据噪声,就是看似有用的数据,但仔细查看后发现该数据并非该数据集中应有的数据,或者仔细分析后发现并没有价值的数据。
也有一部分是无法解释的与其他数据有差异的数据。
37数据处理和数据清洗四、如何进行数据清洗所谓数据清洗,就是对原始数据进行规范化的处理,减少数据噪声,消除数据的不一致性,并对某些数据进行加工,以便数据处理软件和数据模型能够直接使用。
一般数据清洗工作占数据分析师工作量的70%以上,而且数据质量越差,这个比例越高。
提高数据清洗速度最有效的方法就是规范数据采集和数据记录,从源头把控数据质量。
程序化方法是提高数据清洗工作效率的有效手段。
38数据处理和数据清洗五、如何提高数据的清洗速度数据清洗工作一个非常重要的原则是:
永远给自己留下反悔的余地。
清洗数据时尽量不要破坏原始数据。
不能在原始数据集上直接修改数据,如果修改了某些有价值的数据,那么可能很难再找回来;所以要先备份数据后再清洗。
39数据处理和数据清洗五、如何提高数据的清洗速度内容详见课本P15此外,也可以利用第三方工具进行数据清洗。
在选择第三方数据清洗工具时要进行测评,用一个比较小的数据集进行测试之后再购买。
课堂解疑40谢谢观看!
41
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商务 数据 分析 应用 项目 基础