数据挖掘应用案例RFM模型分析与客户细分.docx
- 文档编号:24791286
- 上传时间:2023-06-01
- 格式:DOCX
- 页数:20
- 大小:1.64MB
数据挖掘应用案例RFM模型分析与客户细分.docx
《数据挖掘应用案例RFM模型分析与客户细分.docx》由会员分享,可在线阅读,更多相关《数据挖掘应用案例RFM模型分析与客户细分.docx(20页珍藏版)》请在冰豆网上搜索。
数据挖掘应用案例RFM模型分析与客户细分
数据挖掘应用案例:
RFM模型分析与客户细分
分茨:
数据挖掘|标签:
市场研尤数据挖掘RFM模型
2012-01・2121:
39阅渎16854)评论(9)
拜年,祝大家新春快乐!
兔年就要过去了,本命年的最后一天再不更新博客有点对不住大家!
正好刚帮某电信行业完成一个数据挖掘工作,苴中的RFM模型还是有一泄代表性,就再把数据挖掘RFM模型的建模思路细肖与大家分享一下吧!
手机充值业务是一项主要电信业务形式,客户的充值行为记录正好满足RFM模型的交易数据要求。
根据美国数拯库营销研究所ArthurHughes的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标:
最近一次消费(Recency).消费频率(Frequency)、消费金额(Monetary)o
我早期两篇博文已详述了RFM思想和IBMModeler操作过程,有兴趣的朋友可以阅读!
RFM模型:
R(Recency)表示客户最近一次购买的时间有多远,F(Frequency)表示客户在最近一段时间内购买的次数,M(Monetary)表示客户在最近一段时间内购买的金额。
一般原始数据为3个字段:
客户ID、购买时间(日期格式)、购买金额,用数据挖掘软件处理,加权(考虑权重)得到RFM得分,进而可以进行客户细分,客户等级分类,CustomerLeveIValue得分排序等,实现数据库营销!
本次分析用的的软件工具:
IBN4SPSSStatistics19,IBMSPSSModeled4.1,TabIeau7o0,EXCEL和PPT
因为RFM分析仅是项目的一个小部分分析,但也而临海量数据的处理能力,这一点对计算机的内存和硬盘容量都有要求。
先说说对海量数据挖掘和数据处理的一点体会:
(仅指个人电脑操作平台而言)
・一般我们拿到的数拯都是压缩格式的文本文件,需要解压缩,都在G字节以上存储单位,一般最好在外巻电源移动硬盘存储:
如果客户不告知,你大槪是不知道有多少记录和字段的;
・Modeler挖掘软件默认安装一般都需要与C盘进行数据交换,至少需要100G空间预留,否则读取数据过程中将造成空间不足
・海量数据处理要有耐心,等待30分钟以上运行出结果是常有的现象,特别是在进行抽样、合并数据、数据重构、神经网络建模过程中,要有韧性,否则差一分钟中断就悲剧了,呵呵:
・数据挖掘的准备阶段和数据预处理时间占整个项目的70%,我这里说如果是超大数据集可能时间要占到90%以上。
一方而是处理费时,一方面可能就只能这台电脑处理,不能几台电脑同时操作;
・多带来不同,这是我一直强调的体验•所以海量数据需要用到抽样技术,用来査看数据和预操作,记住:
有时候即使样本数据正常,也可能全部数据有问题。
建议数据分隔符采用T存储;
•如何强调一个数据挖掘项目和挖掘工程师对行业的理解和业务的洞察都不为过,好的数据挖掘一泄是市场导向的,当然也需要1T人员与市场人员有好的沟通机制;
・数据挖掘会面临数据字典和语义层含义理解,在MetaData元数据管理和理解上下功夫会事半功倍,否则等数据重构完成发现问题又要推倒重来,悲剧;
・每次海量大数据挖掘工作时都是我上微博最多的时侯,它真的没我算的快,只好上微博等它,哈哈!
传统RFM分析转换为电信业务RFM分析主要思考:
模型
R(fiS)
F(确
M(fM®
茗户最近一次
茗户一定时期
言户一定时期
传统的RFM模型
购买距离分析
内购买该企业
内购买该企业
点的时间
产品的次数
产品的总金额
客户最后一次
客户一定时期
客户一定时期
电信业RFM模型
交费距离分析
内交费的次数
内的交费总额
点的时间
http;//Uy.SDhlLLDHJ
这里的RFM模型和进而细分客户仅是数据挖掘项目的一个小部分,假宦我们拿到一个月的客户充值行为数据集(实际上有六个月的数据),我们们先用1BMModeler软件构建一个分析流:
全满足RFM分析要求,一个月的数据就有3千万条交易记录!
Tatsle
Arnotaions
QFie二Ed«tOGenerate
30402097记录
dn
2195435X832011-06-01
recharoe
1000矶
3
2193493569
4
229血瓶。
5
2ni2V294
0
2295W/704
7
219618^264
8
21953M295
9
2198149326
10
219®驱2
11
2141799119
12
2183SM651
13
2197059121
14
2151174629
15
2292217714
16
2293052923
仃
21MMW992
18
2191555676
19
2197132802
20
2195511229
21
21954)3548
22
21頸2M262
23
2295775465
24
21<)41^848
26
26
2191145732
27
2295235姑6
28
2106226660
29
2193315169
30
2192675086
31
2193449695
32
2292378554
33
2194OS1194
2291%)也6
2011-0C-O12011-OC-O12O11-W-O12011-0C-012Q11-00-012011-M-012011-06-012011-06-012011-06-012011-06-012011-06-012011-06-012011-06-012011-06-012011-06-012011-06-012011-06-01
nV
oooo
Mooaooo
300需
00
eeeeeeeeeeeeeeee.
2011-06-01
1000
2011-06.01
1000
皿E1
2011-06-01
1000
(si白
2011-06-01
1300
:
2
20110601
1000
isiEi
2011-06-01
1000
2011-06-01
1000
:
0£
2011-06-01
1300
:
彳$
2011-06-01
1000
⑻E!
1000
isiE<
2011-06-01
1000
2011-06-01
2011-06-01
2011-06-01
2011-06-01
2011-06-01
艸F我们先用挖掘工具的RF何模型的RFM汇总卩•点和
RFM分析节点产生R(Recency)>F(Frequency)>M(Monetary);
d化!
ODUQ_201106:
W
2011X)7-01
'aTable(4Gelds.10,000r^cordv*2【耳回
dn
;R♦wroFr9 1 2191846M2 1 4 8CO3 Z一 21916从303 3 $ 3 2191646M5 1 u fiCODO 4 2101G4G30Q 10 2 2CODO 5 22代躬打0 14 1 [C回 4工一 21916463*1 t5 1 250^0 7 2191WWW 1 2 21916453T8 1 33 37030 g 2191646320 4 4 4CODO ia 7佃丸 17 1 it 2191645323 7 2 2830 仃 2191G463? 4 ? 4 35030 13 2191646327 ta 2CO30 14 219i€4$331 17 45030 15 2i9朮妨妁6 1 畑)0 1G 2191646338 i*i 2 12030 17 11 5 is 7191C4-: i341 1 7 3330 w 219164SM5 1 24 1紳0 2d KHU畑9 2 ZttOO Tawes轴cm hirpi//-h^rj? J^Dl^D-hj-hlug;-Li? JLLrrJrrj 接着我们采用RFM分析肖点就完成了RFM模型基础数拯重构和整理: am上少仆•詁Uj Rigg 0fW Scd •4 ・・4 TXrtC rtuArahw hitp: //sfjpnd乡kTc^ijLkdDyigJiULinjJJJ 现在我们得到了RFM模型的Recency_Score>Frequency_Score、Monetary_Score和RFM_Score: 这里对RFM得分进行了五等分切割,采用100、10、1加权得到RFM得分表明了125个RFM魔方块。 传统的RFM模型到此也就完成了,但125个细分市场太多啦无法针对性营销也需要识别客户特征和行为,有必要进一步细分客户群; 另外: RFM模型其实仅仅是一种数据处理方法,采用数据重构技术同样可以完成,只是这里固化了RFM模块更简单直接,但我们可以采用RFM构建数据的方式不为RFM也可用该模块进行数据重构. 我们可以将得到的数据导入到Tableau软件进行描述性分析: (数据挖掘软件在描述性和制表输岀方而非常弱智,哈哈) 我们也可以进行不同块的对比分析: 均值分析、块类别分析等等 ColumnsFrequencyScore RowsRecencyScoreJI、MonetaryScoreI Filters Marks AbeAutomatic▼ Text-(AVG(Monet・・)Colors(AVG(vouch・.) SizeII LevelofDetail RecencySc.. MonetarySc.. 1 23 4 5 F 1 7.243 C,t 2 19.651 】tjOII 1Q|1^( I6r^1 3 28.939 27.3S7 26.554 25.392 4 -«. 30上 4C.23E 40,278 42.350 5 1C5.155 107.036 106.436 132.C97 95,501 2 1 9298 2 ^.Cl1 •'― VqWXW I7,18£ 15.562 16x55 3 2BC01 28,924 27,825 26,785 25/44 4 «/«www 39.95E 41,512 42.647 5 1C5.729 103,191 9C.8S4 82.954 89.704 3 1 2 v3牙? 〔9EOG wL/ f&422 17,625 16,682 15.E67 3 28.9B^ 27,756 26.875 厶V.WW 4 4$978 &2 39.6&C 41.377 42,738 5 105.831 10)8^1 87.922 78,607 88? 310 4 1 9.13*1 7440 FrequencyScore 2 J7.59C- ib.oo l5t8S1 3 25W228,907 27,746 27,097 25f522. 4 4999143,OM 39,686 41,168 42.870 5 105.3371G0.652 87.769 77.930 93.685 1 JJ 7.7»w •1Wkr•/ e£7仁 2 1952118,331 17t3OC 16,607 3 26.0332&932 27,793 27,149 25.M2 4 4999043.437 39.717 41.199 42.613 5 这时候我们就可以看出Tableau可视化工具的方便性 |J丿"•以 Iw4«ll%4J -■■■■■* ■八 o£y uu<・__ •a.-<4OfcA-.H 畑I hrrp: //^rjEfnrTliblLiDShj-blDy-SDrjLL匚"Q 接下来,我们继续采用挖掘工具对R、F、M三个字段进行聚类分析,聚类分析主要采用: Kohonen^K-means>fIJTwo-step算法: 这时候我们要考虑是直接用R(Recency)、F(Frequency〉、M(Monetar y)三个变量还是要进行变换,因为R、F、M三个字段的测虽: 尺度不同最好对三个变量进行 标准化,例如: Z得分(实际情况可以选择线性插值法,比较法,对标法等标准化)! 另外一个 考虑: 就是FLF、M三个指标的权重该如何考虑,在现实营销中这三个指标重要性显然不 有资料研究表明: 对RFM各变量的指标权重问题,Hughes,Arthur认为RFM在衡量一个问题上的权重是一致的,因而并没有给予不同的划分。 而Stone,Bob通过对信用卡的实证分析,认为各个指标的权重并不相同,应该给予频度最高,近度次之,值度最低的权重; 这里我们采用加权方法: WR=2WF=3WM=5的简单加权法(实际情况需要专家或营销人员测泄);具体选择哪种聚类方法和聚类数需要反复测试和评估,同时也要比较三种方法哪种方式更理想! 下图是采用快速聚类的结果: 以及kohonen神经算法的聚类结果: Q忙*2、O' 接下来我们要识别聚类结果的意义和类分析: 这里我们可以采用C5.0规则来识别不同聚类的特征: 其中Two-step两阶段聚类特征图: 采用评估分析节点对c5。 0规则的模型识别能力进行判断: 1El,ej? E 匕 Annotations IC-POCY-KohonenSC-IKM-K-Means一IC-ST-TwoStep *$KXY-Kohoiien-・・X7.Y-O*.*5KM-K-Wean$--,cliister-r\H-TwoStej)-・“chistw■“ http: //shEfrjhiiDJ^Dsrjj-bJug-s 结果还不错,我们可以分别选择三种聚类方法,或者选择一种更易解释的聚类结果,这里选择Kohonen的聚类结果将聚类字段写入数据集后,为方便我们将数据导入SPSS软件进行均值分析和输出到ExceI软件! ClustersbyKohonen Customers RecencyFrequency Monetary R F M Customerlevel X=0.Y=0* 408193 6.000 4023 31833.346 形 knpoftanttodevelopcustomer X=0,Y=2* 2417225 1-864 7.009 48454.703 & 會 令 importanttokeepcustomers X=1.Y=O* 58770? 7,445 3.440 30953.199 0 Importanttodevelopcustouiei X=1.Y=1* 393471 5.000 4.471 33438.073 & Regiiarcustomers X=1.Y=2* 590925 4.000 4.835 37911.530 0 毎 令 Importantlc/heepcustomers X=2,Y=O* 455538 9-47-9 2.909 27218.998 會 $ 4 Novaluecu^kxiuefs X=2.Y=V 213258 11.01-6 2767 26052.026 含 0 8 Novaluecustcme X=2,Y=2* 431982 13-949 2307 22722,056 會 & & Novaluecustomecs X=3.Y=0* L38705 ]乙000 2393 21750.312 含 0 Novaluecustccnefs X=3,Y=l* 盟2099 16.950 1.945 20939. £ $ No•valuecustomers X=3,Y=2* 873951 24.117 1.4W 18068.153 會 Q Novaluecustcmefs Average 6853054 8.302 4.436 34672.520 h rip: //srj=frjhiiDJ£iDsrjj-rjJdg-surjlleurn 4 输出结果后将数据导入Excel,将R、F、M三个字段分类与该字段的均值进行比较,利用Excel软件的条件格式给岀与均值比较的趋势! 结合RFM模型魔方块的分类识别客户类型: 通过RFM分析将客户群体划分成重要保持客户、重要发展客户、重要挽留客户、一般重要客户、一般客户、无价值客户等六个级別;(有可能某个级别不存在); 另外一个考虑是针对R、F、M三个指标的标准化得分按聚类结果进行加权计算,然后进行综合得分排名,识别各个类别的客户价值水平: Kohonen R_Scor« F^Score M.Score RFM.WScore CustomerLevelValue X=0.Y=0* -0.304 -0.095 -0.074 -0.132 6 乂=0,Y^2* ・0.351 0.594 0.361 0.173 1 X=lrY=0* •0.113 •0.23 -0.098 ・0.146 8 X=l,Y=l* -0.436 0.008 -0.032 ・0.108 5 X=l.Y=2* -0.568 0.092 0.085 ・0.057 3 X=2rY=0* 0.156 •0.353 ・0.195 •0.172 10 X=2,Y=l* 0.359 -0.386 ・0.226 ・0.151 9 X=2fY=2^ 0.746 -0.492 -0.313 •0.14 7 X=3,Y=0* 0.489 -0.472 -0.339 0202 11 X=3,Y=l* 1.143 •0.576 -0.36 ・0.102 4 X=3,Y=2* 2.089 •0.689 山卍“miLd輕y丸jj-dJdy-5ynllcd/h 至此如果我们通过对RFM模型分析和进行的客户细分满意的话,可能分析就此结束! 如果我们还有客户背景资料信息库,可以将聚类结果和RFM得分作为自变量进行其他数据挖掘建模工作!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 应用 案例 RFM 模型 分析 客户 细分