数据挖掘论文Word格式.doc
- 文档编号:14180800
- 上传时间:2022-10-19
- 格式:DOC
- 页数:8
- 大小:461KB
数据挖掘论文Word格式.doc
《数据挖掘论文Word格式.doc》由会员分享,可在线阅读,更多相关《数据挖掘论文Word格式.doc(8页珍藏版)》请在冰豆网上搜索。
客户流失,数据挖掘,决策树,聚类
引言:
客户的变动,往往意味着一个市场的变更和调整,一不小心甚至会对局部(区域)市场带来致命的打击。
这个现象在医药企业的处方产品中突显,一个医院由一个代表做到一定的销售量,但是这个医药代表离开后,那么销量的下滑是很明显的。
如果你是公司的管理者,请务必在关键时刻擦亮你的眼睛,以免你的客户在不经意间流失,给公司的市场运作带来不利影响。
当然,这其中的因素和地区的主管、经理也有很大的直接关系。
所以,我们通过数据挖掘来分析数据挖掘问题。
我们也可以对比已有的方法发现不足之处,然后进行改进。
一、数据挖掘
数据挖掘又称数据库中的知识发现,是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。
数据挖掘实施的步骤一般包括三个部分数据的准备、模型的建模型验证图数据挖掘的步骤图所示的各个步骤并不是线性的,要取得好的结果就要不断重复这些步骤。
在客户流失分析系统中,数据挖掘只是一小部分,却是关键的一个部分,系统中把数据挖掘得到的知识和市场的经验、客服的信息结合起来,应用于数据库中的数据进行流失客户的预测、分析,对确认有流失倾向的客户根据不同的情况进行预苦处理,包括套餐资费调整、服务方式更改、竞争对手调查等,同时将预誓客户名单通过公司的数据交换平台下发给各个业务分区,进行摸底跟踪,实施关怀工程。
整个系统的业务流程如图所示,其中流失客户的预测和分析是两个关键的环节,需要选择讨,实用案例,计算机系统应用年第期合适的数据挖掘算法,获取有用的模型和知识应用于系统中,才能进行科学的辅助决策。
二、数据挖掘在系统中的应用
流失又分为被动流失和主动流失,被动流失是因为客户欠费或不履行责任而被移动停机。
主动流失有
不同的原因,一类是客观原因限制所引起的异动,如搬迁等,另一类是客户主动放弃,如因为竞争对手的优惠政策,对目前的服务不满意等。
在这些群体中,那些主动流失的客户是我们要分析的对象,在这类群体中,用户价值和信用度高的可能流失客户是我们最关心的对象,如果能够成功预测出这类将要流失的客户,并且能够成功的挽留这类大客户,将给移动公司带来可观的利润。
三、基于数据挖掘的电信客户流失分析步骤
1、商业理解
商业理解是从业务角度来理解数据挖掘的目标和要求,再转化为数据挖掘问题。
本文的目标确定为:
针对目前在网客户进行流失概率的预测。
电信领域的客户流失有3方面的含义[3]:
一是指客户从本电信运营商转往到其他的电信运营
商;
二是指客户使用的手机品牌发生改变,从本电信运营商的高价值品牌转向低价值品牌;
三是指客户月平均消费量降低,从高价值客户成为低价值客户。
在以上3类客户流失中,第一类是客户流失分
析的重点,本文将第一类作为分析的对象。
而在第一类客户中,又可具体将其分为被动停机3个月、
主动退网和注销用户。
2、数据理解。
数据理解包括收集原始数据、数据描述、数据探索分析和数据质量描述。
(1)收集原始数据当进行数据挖掘时,首先要从企业数据仓库中取出一个与要搜索问题相关的数据子集。
该问题的数据来源是某电信公司某年度1月~7月在某地区的数据。
(2)数据描述
信息类别
数据源
时间窗口
流失自然
用户属性
相关行为
信息属性
在网自然
USER_BASIC_INFO
USER_BEHAVIOR_INFO
某年7月
某年1月、2月、3月
某年4月、5月、5月、6月某年7月
(3)数据探索分析。
在使用收集到的原始数据之前,必须要保证所有数据在数量和质量上符合要求。
在数据探索阶
段,对获取的各变量进行分析探索,选择对目标变量的影响相对较大的关键变量。
此处,通过可视化
的方式来展现,即利用Clementine中的分布图节点展示用户流失状态在每个变量上的分布图。
从各分布图得出,用户的自然属性,例如性别、年龄等信息缺失值比较多,且存在较多的非法数据,所以在本文的分析中,不选该类变量,该类变量不参与建模。
另外,像通话次数、通话时长等变量和客户流失概率之间存在着反比关系,即该类变量的值越大,则客户流失的概率相对来说就越小,所以在接下来的分析中,应该将该类变量或与该类变量相关的导出值作为分析的重点。
通过上面对样本数据变量的数据探索工作,对各变量属性有了基本的了解,可以有针对性地选择适用变量或对一些变量进行过滤。
3.数据准备。
数据准备阶段初步完成变量的选择和导出变量的生成,同时对一些存在数据质量问题的字段进行相应的处理。
在本次客户流失分析过程中,对数据的处理过程包括以下几个方面:
(1)整合数据。
首先将流失客户的行为信息进行整合。
为了便于后续建模,将行为信息按月份进行拆分与合并,并通过计算均值和比率来表示流失用户在流失前的消费行为突变情况。
具体计算方法如下:
FEEAVG=(FEE1+FEE2)/2FEEADDRATE=(FEE3+FEEAVG)/FEEAVG其中FEE1表示流失用户1月份的消费额;
FEE2表示流失用户2月份的消费额;
FEE3表示流失用户3月份的消费额;
FEEAVG表示流失用户在前2个月的消费额平均;
FEEADDRATE表示3月的消费额占其前2个月消费额平均值的比率,该指标反映了用户在离网前的消费行为突变情况。
其次将现有在网客户的行为信息进行整合。
整合方法同上。
最后,将用户自然属性和行为属性进行整合。
整合时将流失用户信息和在网用户信息分开进行整合。
流失用户的用户信息与其行为特征数据进行合并,在网用户的用户信息与其行为特征数据进行整合。
整合之将其拆分成训练集和测试集。
训练集用于训练模型,测试集用于对模型进行检验。
(2)清洗数据。
在数据探索分析阶段,通过观察各变量分布图,我们得到了性别和年龄这2个存在大量缺失值的字段,且通过变量分布图,发现这2个字段对于目标字段的分布没有显著影响,即客户流失在这2个字段上的分布不存在显著的差异,所以可以对这2个字段采用过滤的操作。
此外,对于在网状态字段,由于某些原因,可能有极少数属性值丢失了。
对于这部分丢失的值,可以加上默认值,假设为在网状态,或者直接过滤掉。
而不能将丢失的数据默认为离网,因为离网的记录在整个记录中比例过小,如果把丢失的记录直接加到离网中,势必会影响整个模型的可信度。
相比而言,丢失的记录与在网记录比只是很小的一部分,不会影响大的趋势。
当然,在不同的建模过程中,对于不同的原始数据集,对相同字段的处理是存在差异的。
(3)构造属性。
从数据集中得到的原始字段,并不是所有的都适合直接用来建模分析,例如,以上在整合数据阶段,利用导出节点,我们得到了消费额平均值字段和消费额增长率字段,并使用这些字段来对客户流失的情况做出更好的预测。
可见,在数据准备过程中,各个阶段之间是没有明确的界限的,各个阶段是交叉进行,并不断重复的过程,只有通过这种方式,才能得到我们所需要的用于建模的数据。
(4)选择数据。
选择数据过程包括字段的选择和记录的选择。
在从业务系统获得的数据中会有许多字段是和分析无关的,这些字段在数据整合过程中被过滤掉。
另外,从实际情况上看,国内电信企业每月的客户流失率一般在1%~3%,如果直接采用决策树模型,可能会因为数据概率太小而导致模型的失效,因此我们需要加大客户流失在总样本中的比例,但是这种过度抽样必须谨慎小心,要充分考虑它的负面效应。
4.建立模型。
运用数据准备阶段得到的训练集,并利用决策树对客户流失概率进行预测。
决策树方法是一种从机器学习中引出的一种较为通用并被深入研究的分类函数逼近方法,在本文中运用Clementine中的C5.0算法。
该算法速度快、内存占用小、修剪能力和交互验证的特征能够使预测更精确。
(1)C5.0决策树算法原理。
将原始数据中的ONTAG和OUTTAG合并为仅含2个变量,即离网与不离网的新字段———客户是否流失CHURN。
将CHURN作为目标字段,计算与CHURN相关的字段的信息增益的大小,按照由大到小的顺序对历史数据进行分类,最后得到历史数据的n个集合,每个集合满足一定的规律。
当新记录需要该模型对其确定CHURN的值,则看其字段满足哪条规律。
设S是训练样本数据集,该数据集中有m个
独立的类,记为Ci(i=1,2,⋯,m)。
Ri为数据集S中属于Ci类的子集,ri表示Ri中元组的数量。
集合S在分类中的期望信息量由以下公式给出[4]:
期望信息I(r1,r2,⋯,rm)=-Σmi=1Pilog2Pi其中Pi=ri/r,表示任意一个样本属于Ci类的概率(r为总样本个数、ri为类Ci中的样本个数)。
若属性A有v个不同的取值,分别为{a1,a2,⋯,av},根据属性A将数据集S划分为v个子集{S1,S2,⋯,Sv},其中Sj表示S中A的值为aj的那些样本。
如果A被选为决策属性,则这些样本将对应该节点的不同分枝。
设Sj包含类Ci的样本有sij个。
属性A的这种划分的期望信息称作A的熵:
E(A)=Σvj=1s1j+s2j+⋯+smjs·
I(s1j,s2j,⋯,smj)属性A作为决策分类属性的信息增益为Gain(A)=I(r1,r2,⋯,rm)-E(A)本模型中,S为用以建立模型的客户集,将客户集S分为两个类:
在网(C1)和离网(C2)。
Si(i=1,2)分别表示S中在网和离网的客户数。
C5.0决策树的工作原理是根据提供最大信息增益的字段分割样本。
然后通常会根据不同的字段再次分割由第一次分割定义的每个子样本,且此过程会重复下去,直到无法继续分割子样本。
最后,将重新检查最底层分割,并删除或修剪对模型值没有显著贡献的分割。
(2)模型构建。
建立数据模型的数据流程图如图1所示
图1中,TRAIN.dat是数据准备阶段得到的训练集。
使用Clementine的C5.0建模节点来建
立预测模型,将“churn”变量设置为“输出”,其他变量设置为“输入”。
决策树是对这种算法建立分割
的简单描述。
每一个终端节点描述了训练数据的一个特定子集,而训练数据集中的每一种情况(离
网或在网)恰好属于树上的一个终端节点。
以上模型得到的只是对用户离网状态的一个预测(离网或在网),我们所需要得到的不只是其状态,还要具体地了解其离网的可能性的大小,这样才能对高离失可能性的客户展开一定的挽留措施。
通过建立导出字段CHURNPROB来计算客户的离网可能性,其计算公式如下:
CHURNPROB=0.5+$CC-C
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 论文