数学建模-数据预处理.pdf
- 文档编号:3217305
- 上传时间:2022-11-20
- 格式:PDF
- 页数:57
- 大小:800.63KB
数学建模-数据预处理.pdf
《数学建模-数据预处理.pdf》由会员分享,可在线阅读,更多相关《数学建模-数据预处理.pdf(57页珍藏版)》请在冰豆网上搜索。
1第第2222章章数据预处理数据预处理2第第2222章章:
数据预处理数据预处理为什么预处理数据为什么预处理数据?
数据清理数据清理数据集成数据集成数据归约数据归约离散化和概念分层产生离散化和概念分层产生小结小结3为什么数据预处理为什么数据预处理?
现实世界中的数据是脏的现实世界中的数据是脏的不完全不完全:
缺少属性值缺少属性值,缺少某些有趣的属性缺少某些有趣的属性,或仅包含聚集数据或仅包含聚集数据例例,occupation=occupation=occupation=occupation=“”“”“”“”噪音噪音:
包含错误或孤立点包含错误或孤立点例例,Salary=Salary=Salary=Salary=“-10-10-10-10”不一致不一致:
编码或名字存在差异编码或名字存在差异例例,Age=Age=Age=Age=“42424242”Birthday=Birthday=Birthday=Birthday=“03/07/201003/07/201003/07/201003/07/2010”例例,以前的等级以前的等级“1,2,31,2,31,2,31,2,3”,现在的等级现在的等级“A,B,CA,B,CA,B,CA,B,C”例例,重复记录间的差异重复记录间的差异4数据为什么脏数据为什么脏?
不完全数据源于不完全数据源于数据收集时未包含数据收集时未包含数据收集和数据分析时的不同考虑数据收集和数据分析时的不同考虑.人人/硬件硬件/软件问题软件问题噪音数据源于噪音数据源于收集收集录入录入变换变换不一致数据源于不一致数据源于不同的数据源不同的数据源违反函数依赖违反函数依赖5为什么数据预处理是重要的为什么数据预处理是重要的?
没有高质量的数据没有高质量的数据,就没有高质量的数据挖掘结果就没有高质量的数据挖掘结果!
高质量的决策必然依赖高质量的数据高质量的决策必然依赖高质量的数据例如例如,重复或遗漏的数据可能导致不正确或误重复或遗漏的数据可能导致不正确或误导的统计导的统计.数据仓库需要高质量数据的一致集成数据仓库需要高质量数据的一致集成数据提取数据提取,清理清理,和变换是建立数据仓库的最主要的和变换是建立数据仓库的最主要的工作工作BillBillBillBillInmonInmonInmonInmon6数据质量:
一个多维视角数据质量:
一个多维视角一种广泛接受的多角度一种广泛接受的多角度:
正确性正确性(Accuracy)Accuracy)Accuracy)Accuracy)完全性完全性(Completeness)Completeness)Completeness)Completeness)一致性一致性(Consistency)Consistency)Consistency)Consistency)合时合时(Timeliness)Timeliness)Timeliness)Timeliness):
timelyupdate?
timelyupdate?
timelyupdate?
timelyupdate?
可信性可信性(Believability)Believability)Believability)Believability)可解释性可解释性(Interpretability)Interpretability)Interpretability)Interpretability)可存取性可存取性(Accessibility)Accessibility)Accessibility)Accessibility)7数据预处理的主要任务数据预处理的主要任务数据清理数据清理填充缺失值填充缺失值,识别识别/去除离群点去除离群点,光滑噪音光滑噪音,并纠正数据中的不并纠正数据中的不一致一致数据集成数据集成多个数据库多个数据库,数据立方体数据立方体,或文件的集成或文件的集成数据变换数据变换规范化和聚集规范化和聚集数据归约数据归约得到数据的归约表示得到数据的归约表示,它小得多它小得多,但产生相同或类似的分析结但产生相同或类似的分析结果:
维度规约、数值规约、数据压缩果:
维度规约、数值规约、数据压缩数据离散化和概念分层数据离散化和概念分层8数据预处理的形式数据预处理的形式9第第2222章章:
数据预处理数据预处理为什么预处理数据为什么预处理数据?
数据清理数据清理数据集成数据集成数据归约数据归约离散化和概念分层产生离散化和概念分层产生小结小结10数据清理数据清理DataCleaningDataCleaningDataCleaningDataCleaning现实世界现实世界dededede数据是脏:
很多潜在的不正确的数据,比如,数据是脏:
很多潜在的不正确的数据,比如,仪器故障,人为或计算机错误,许多传输错误仪器故障,人为或计算机错误,许多传输错误incompleteincompleteincompleteincomplete:
缺少属性值缺少属性值,缺少某些有趣的属性缺少某些有趣的属性,或仅包含聚集数据或仅包含聚集数据e.g.,e.g.,e.g.,e.g.,职业职业=“”(missingdata)(missingdata)(missingdata)(missingdata)noisynoisynoisynoisy:
包含错误或孤立点包含错误或孤立点e.g.,e.g.,e.g.,e.g.,SalarySalarySalarySalary=“-10101010”(anerror)(anerror)(anerror)(anerror)inconsistentinconsistentinconsistentinconsistent:
编码或名字存在差异编码或名字存在差异,e.g.,e.g.,e.g.,e.g.,AgeAgeAgeAge=“42424242”,BirthdayBirthdayBirthdayBirthday=“03/07/201003/07/201003/07/201003/07/2010”以前的等级以前的等级“1,2,31,2,31,2,31,2,3”,现在等级现在等级“A,B,CA,B,CA,B,CA,B,C”重复记录间的差异重复记录间的差异有意的有意的(e.g.,(e.g.,(e.g.,(e.g.,变相丢失的数据变相丢失的数据)Jan.1aseveryoneJan.1aseveryoneJan.1aseveryoneJan.1aseveryonesbirthday?
sbirthday?
sbirthday?
sbirthday?
11如何处理缺失数据如何处理缺失数据?
忽略元组忽略元组:
缺少类别标签时常用缺少类别标签时常用(假定涉及分类假定涉及分类不是很有不是很有效,当每个属性的缺失百分比变化大时效,当每个属性的缺失百分比变化大时手工填写缺失数据手工填写缺失数据:
乏味乏味+费时费时+不可行不可行?
自动填充自动填充一个全局常量一个全局常量:
e.g.,:
e.g.,:
e.g.,:
e.g.,“unknownunknownunknownunknown”,anewclass?
!
anewclass?
!
anewclass?
!
anewclass?
!
使用属性均值使用属性均值与目标元组同一类的所有样本的属性均值与目标元组同一类的所有样本的属性均值:
更巧妙更巧妙最可能的值最可能的值:
基于推理的方法,如基于推理的方法,如贝叶斯公式或决策树贝叶斯公式或决策树12噪音数据噪音数据NoisyDataNoisyDataNoisyDataNoisyDataNoise:
Noise:
Noise:
Noise:
被测量的变量的随机误差或方差被测量的变量的随机误差或方差不正确的属性值可能由于不正确的属性值可能由于错误的数据收集工具错误的数据收集工具数据录入问题数据录入问题dataentryproblemsdataentryproblemsdataentryproblemsdataentryproblems数据传输问题数据传输问题datatransmissionproblemsdatatransmissionproblemsdatatransmissionproblemsdatatransmissionproblems技术限制技术限制technologylimitationtechnologylimitationtechnologylimitationtechnologylimitation不一致的命名惯例不一致的命名惯例inconsistencyinnamingconventioninconsistencyinnamingconventioninconsistencyinnamingconventioninconsistencyinnamingconvention其他需要数据清理的问题其他需要数据清理的问题重复记录重复记录duplicaterecordsduplicaterecordsduplicaterecordsduplicaterecords数据不完整数据不完整incompletedataincompletedataincompletedataincompletedata不一致的数据不一致的数据inconsistentdatainconsistentdatainconsistentdatainconsistentdata13如何处理噪音数据如何处理噪音数据?
分箱分箱Binningmethod:
Binningmethod:
Binningmethod:
Binningmethod:
排序数据,分布到等频排序数据,分布到等频/等宽的箱等宽的箱/桶中桶中箱均值光滑、箱中位数光滑、箱边界光滑箱均值光滑、箱中位数光滑、箱边界光滑,etc.,etc.,etc.,etc.聚类聚类ClusteringClusteringClusteringClustering检测和去除检测和去除离群点离群点/孤立点孤立点outliersoutliersoutliersoutliers计算机和人工检查相结合计算机和人工检查相结合人工检查可疑值人工检查可疑值(e.g.,dealwithpossibleoutliers)(e.g.,dealwithpossibleoutliers)(e.g.,dealwithpossibleoutliers)(e.g.,dealwithpossibleoutliers)回归回归RegressionRegressionRegressionRegression回归函数拟合数据回归函数拟合数据14分箱:
简单的离散化方法分箱:
简单的离散化方法等宽度等宽度Equal-widthEqual-widthEqual-widthEqual-width(distance)(distance)(distance)(distance)剖分剖分:
分成大小相等的分成大小相等的nnnn个区间个区间:
均匀网格均匀网格uniformgriduniformgriduniformgriduniformgrid若若AAAA和和BBBB是是属性的最低和最高取值属性的最低和最高取值,区间宽度为区间宽度为:
WWWW=(=(=(=(BBBBAAAA)/)/)/)/N.N.N.N.孤立点可能占据重要影响孤立点可能占据重要影响maydominatepresentationmaydominatepresentationmaydominatepresentationmaydominatepresentation倾斜的数据处理不好倾斜的数据处理不好.等频剖分等频剖分(frequency)/(frequency)/(frequency)/(frequency)/等深等深:
分成分成nnnn个区间个区间,每一个含近似相同数目的样
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数学 建模 数据 预处理