1、通讯业务数据分析方案论文通话数据分析方案 摘 要用户分类是通讯公司改善通讯设施、拓展新的通讯业务的基石。用户价值包括当前价值和潜在价值两部分,对于通讯公司实现用户价值目标,最主要的两个用户信息变量为通话时间和通话频数。对用户的两个变量的离群数据进行分析,将用户分为49小类3大类,不同类别的用户应采取不同的管理策略。在此基础上构建用户分类器和用户分类模型,并进行用户分类的实例研究。本文主要完成的任务有:关于用户类型转化预测的研究中, 划分用户群体的原则是采用帕累托“二八法则”。对于问题一,根据给出的通话记录信息,采用帕累托“二八法则” 来划分用户群体,以用户的通话时间和通话频数这两个信息变量为指
2、标,可建立一个用户分类模型。对用户的两个变量的离群数据进行分析,将主叫和被叫均分为49小类,3大类。对于问题二,分析了主叫与被叫之间的关系,因其不存在必然的联系,同时根据现有的通讯公司的收费情况和运转方向,故可不考虑被叫。进而可根据问题一的分类结果,则可为通讯公司开发一项新的业务选择合理的用户作为推广人选。对于问题三,计算出每个通讯设施(基站)上调查的总的通话时间和通话频数,将基站划分成8个区域,则算出每个区域的相应的用户指标和基站个数,即可得相应区域的单位面积上的用户指标数t。观察用户指标数t与其对应的基站个数是否相协调,若相协调,则表明其通讯设备设置合理;否则,根据每区域的用户指标数t调整
3、各区域的基站个数。关键词:离群数据用户分类 通讯业务 通讯设施 通话时间 通话频数 帕累托“二八法则”一、问题重述与问题分析1.1 问题重述通讯技术的不断发展拉近了人与人之间的距离。电话作为主要的通讯工具之一悄无声息地将我们联系在一起,形成一个巨大的社交网络。这个巨大的社交网咯对当前的 通讯设备和业务提出了更高的要求。如何利用现有的通话记录数据进行概括分析,以便做出合理的决策,进而改善通讯设施、拓展新的通讯业务,依然是很多通讯公司所面临的一个难题。附件给出了一家通信公司公布的2009年6月份某地300个用户10天内的通话记录,试完成以下问题。1. 请根据这些通话记录信息建立数学模型以对用户分类
4、。2. 如果需要退出一款新的通信业务,如何合理选择部分用户作为首选推广人群。说明你的理由,并撰写一份不超过两页的给公司经理的建立。3. 该地现有的通信设施(如基站等)建设情况是否合理。如需改进,请给出合理的建议。 图一 基站的位置2.1 问题分析对用户分类的依据在于用户对通讯公司的效益会产生多大的影响,以用户的通话时间和通话频数为指标,通过对这两个变量参数的离群数据的挖掘,可以发现重要用户的有利信息。从而可根据帕累托“二八法则”对用户进行分类,即可分为49小类,3大类。对于问题二,选择合理用户作为新业务的推广人选,则要基于用户分类的基础上。同时,先要分析主叫与被叫之间的联系,若其之间无必然的联
5、系,同时根据现有的通讯公司的收费情况和运转方向,则可不考虑被叫。若其之间有相关的联系,则要同时考虑被叫情况。考虑主叫根据问题一得分类,则可从用户的当前价值和潜在价值两个维度分析,被叫同理。对于问题三,根据调查给出的通话记录,即可得每个通讯设施(基站)的通话总时间和通话总频数,分析其两种之间的关系,若其两者对反应基站的利用合理性能达到统一效果,则可选其一进行分析,否则用他们的综合效应来衡量基站的合理性。可利用相应区域的单位面积上的用户指标数t作为衡量指标,若t小,而其区域所占的基站数多,则表明基站设施不合理,否则设施合理。二、模型假设根据题意,可以进行如下假设:1、当前用户的消费习惯在短期时间内
6、没有很大变化2、现有的通讯设施对当地居民无很大的障碍3、通讯公司的效益大致符合帕累托“二八法则”4、通讯公司调查的通话记录数据具有代表性5、基站的地理位置以图中一个小方格为最小划分区域6、若基站处于方格线上,则认为该基站同时属于此相连的两个方格三、符号说明 变量名称 符号说明 A 通话数据 T 最高通话时间 P 最高通话频数 ti 第i阶段通话时间对应的人数比例 pi 第i阶段通话频数对应的人数比例 count(i,j) 落在ti、pi相应区间的人数比例 t 相应区域的单位面积上的用户指标数 Ti 第i个用户的通话总时间Ti Pi 第i个用户的通话总频数Pi其中i、j=1、2、3.7四、模型的
7、建立与求解本文模型的整体框架如下: 4.1 划分用户群体的原则采用帕累托“二八法则”。 即通讯公司80%收入来自20%的用户,70%的用户只提供了不足20%的利润,另有10%的用户不仅不会为通讯公司带来任何利润,甚至会削弱通讯公司的赢利水平。4.1 用户信息变量1、 用户通话时间用户在通讯公司调查的时间段内的通话总时间Ti2、 用户通话频数用户在通讯公司调查的时间段内的通话总频数Pi模型一 对问题一的求解1.1 模型的建立将给出的编号1300的用户的10天中的通话时间和通话频数这两个指标都从通话记录中提炼出来,并记录下最大的通话时间T和最大的通话频数P,同时将每个通话时间和通话频数段内占的用户
8、比绘画出来。进而将这两个指标综合起来,即可得综合指标下的用户比count。这样就可按帕累托“二八法则”建立一个用户分类模型。图二 主叫的分析图图三 被叫的分析图1.2 模型的求解 根据模型建立的过程中,对主叫、被叫的分析,被叫明显不满足帕累托“二八法则”,且考虑通讯公司现有的收费情况和运转模式,可以不考虑被叫,同时也为其分类。根据综合指标下的count(i,j),就可以顺利地将用户划分器分为49个空间,由帕累托“二八法则”约束条件,从count(i,j)最大的开始相加,直到加到用户比总和占0.2,则可得到第一类用户,同理可划分第二类、第三类用户。这样就实现了用户分类。其求解的程序代码见附录1.
9、1。其结果如下:countl = 0.0007 0.0040 0.0109 0.0128 0.0080 0.0033 0.0003 0.0023 0.0137 0.0374 0.0437 0.0273 0.0114 0.0009 0.0042 0.0253 0.0692 0.0811 0.0507 0.0211 0.0017 0.0051 0.0303 0.0829 0.0971 0.0607 0.0253 0.0020 0.0031 0.0187 0.0510 0.0597 0.0373 0.0156 0.0012 0.0011 0.0067 0.0182 0.0213 0.0133 0.0
10、056 0.0004 0.0002 0.0013 0.0036 0.0043 0.0027 0.0011 0.0001当3000=t5000时:k1 = -0.0060b1 =54当5000=t=6000时:k2 =-0.0060b2 =48.0000当0=t=3000时:k3 =-0.0060b3 =24当3000=t4000时:(3000,0) 结果分析: 当用户的通话时间t在3000=t=k1*t+b1时;或用户的通话时间t在5000=t=k2*t+b2时,则这一类用户为第一类用户,即为通讯公司赢得效益近80%的20%黄金用户。 当用户的通话时间t在0=t=3000这一范围时,其通话频数
11、满足p cover(i,2)时,应减少的基站数为(-n(i)-1)。五、模型的分析误差分析 对于模型一是使用了帕累托“二八法则”对用户进行分类,因通讯公司的效益可能不是完全符合这一原则,故会存在一些不可避免的误差,但这一法则在市场上对用户分类是比较经典的分类原则,故这一模型可用。 对于模型二,因在对主叫和被叫关系的分析下,其两者不存在很大的关系,故没有考虑被叫,这样对选择合理的推广用户会造成一些误差,但根据现有的通信公司的运转方向,其误差不会很大,故此模型也可用。 对于模型三,在分析通话时间和通话频数之间的关系中,发现其两者对反应基站设施是否合理性有同等的效应,故只考虑的通话时间作为衡量标准,
12、以相应区域的单位面积上的用户指标数t来判断基站设施的合理性,如此可能会造成一些误差,但其误差可忽略不计,故该模型可用来求解此问题。 灵敏度分析 对于模型一、三,灵敏度很好,模型的准确性很高。 对于模型二,由于主叫与被叫没有进行综合分析,其准确性还不是很高,但其灵敏度很好,因此模型可以使用。六、模型的评价、改进和推广6.1 模型的评价 优点: 充分的利用了已知数据来建立模型,使其具有很高的准确性和可行性 使用的准确的分类原则和适当的假设,使模型的准确性和实用性达到统一 运用了功能强大的Matlab工具使数据处理误差达到最小 缺点: 由于数据太多,没法使用工具进行模型的检验,只能一步一步地精化模型
13、6.2 模型的改进 对于模型一主要进行模型的验证 对于模型三,将用户通话时间和通话频数综合成衡量基站设施是否合理,这样得到的结果更加精确 主要是对模型二的改进,可以考虑被叫这一方面,通过对被叫进行分析,来改变公司现有的运转模式也是很有实效性的6.3 模型的推广 可充分使用到市场上用户分类,为企业和公司制定相关策略和管理奠定了基础。用户分类是企业用户关系管理战略的第一个基石,用户关系管理能帮助企业掌握用户的需求趋势,加强与用户的关系,有效地发掘和管理用户资源,获得市场竞争优势。总之,本文模型对市场管理的影响和效益是不可估量的。七、参考文献1:姜启源、谢金星、叶俊编,数学模型-3版,北京,高等教育
14、出版社,2003.8 2:吴建国、汪名杰、李虎军、刘仁云编,数学建模案例精编-1版,北京,中国水利水电出版社,2005.53:杨兰,卢润德.基于客户价值的客户分类方法研究J.现代管理科学,2007(11):95-962AndrisAZoltners,MichaelBMoorman.CVM模式基石之一: 客户分类J.商学院,2008(8):504:于红霞,汪波,钱荣.基于三维客户分类价值体系的客户关系管理研究J.商业经济与管理,2006(11):43-475王维兵,刘苗. 客户分类方法综述J.现代商业,2009(3):74-756夏火松.知识管理市场营销知识获取与共享模式M.北京:科学出版社,2
15、005:60附录:Matlab程序代码1.1 问题一的求解1.1.1 对主叫的分析clcclearA=xlsread(data.xls);A;n=size(A,1);max=0;%用二维数组person(1,2)表示人的信息,第一维通话时长,第二维通话次数for i=1:300 person(i,1)=0; person(i,2)=0;endfor i=1:n person(A(i,2),1)=person(A(i,2),1)+A(i,5); person(A(i,2),2)=person(A(i,2),2)+1;end%绘制图形for i=1:300 x(i)=i;endsubplot(2,
16、2,1)bar(person(:,1)title(用户通话时间图)xlabel(用户的编号1300)ylabel(10天内通话时间:分钟)subplot(2,2,2)bar(person(:,2)title(用户通话频数图)xlabel(用户的编号1300)ylabel(10天内通话次数)%T表示最高消费时间,P表示最高消费次数T=0;P=0;for i=1:300 if Tperson(i,1) T=person(i,1); end if P1000*(i-1)&person(j,1)6*(i-1)&person(j,2)=6*i p(i)=p(i)+1; end end p(i)=p(i)
17、/300;end%对每阶段的人数绘图subplot(2,2,3)bar(t)title(用户比例-通话时间图)xlabel(通话时长*1000)ylabel(用户比例)subplot(2,2,4)bar(p)title(用户比例-通话频数图)xlabel(通话次数*6)ylabel(用户比例)hold on%用矩形区域count(i,j)表示落在t,p相应区间的人数比例for i=1:7 for j=1:7 count(i,j)=t(i)*p(j); endend%找到消费时间最长次数最多的%20的人对应的区间prob=0;k=14;while prob=1&i=0.2 break; end
18、end end k=k-1;end m=i;n=j;t1=m+n-7;t2=n-1;k1=(m*6-n*6)/(n-1)*1000-(m+n-7)*1000);b1=m*6-k1*(n-1)*1000;k2=(m-2)*6-(m-1)*6)/(n*1000-(n-1)*1000);b2=(m-2)*6-k2*n*1000;%找到消费时间最短次数最少的%10的人对应的区间prob=0;k=0;while prob=1&j0.1 break; end end end k=k+1;end mm=i;nn=j;last=prob;for i=1:7 for j=1:7 countl(i,j)=coun
19、t(8-i,j); endenddisp(每个矩形区间内的人数比例。横坐标时间,总坐标频率)countldisp(当3000=t5000时:)k1b1disp(当5000=t=6000时:)k2b2disp(当0=t=3000时:)k3=(mm-1)*6-(mm+nn-2)*6)/(nn-1)*1000)b3=(mm+nn-2)*6disp(当3000=t4000时:)disp(3000,0)1.1.2 对被叫的分析clcclearA=xlsread(data.xls);A;n=size(A,1);max=0;%用二维数组person(1,2)表示人的信息,第一维通话时长,第二维通话次数for
20、 i=1:300 person(i,1)=0; person(i,2)=0;endfor i=1:n person(A(i,3),1)=person(A(i,3),1)+A(i,5); person(A(i,3),2)=person(A(i,3),2)+1;end%绘制图形for i=1:300 x(i)=i;endsubplot(2,2,1)bar(person(:,1)title(用户通话时间图)xlabel(用户的编号1300)ylabel(10天内通话时间:分钟)subplot(2,2,2)bar(person(:,2)title(用户通话频数图)xlabel(用户的编号1300)yl
21、abel(10天内通话次数)%T表示最高消费时间,P表示最高消费次数T=0;P=0;for i=1:300 if Tperson(i,1) T=person(i,1); end if P1000*(i-1)&person(j,1)6*(i-1)&person(j,2)=6*i p(i)=p(i)+1; end end p(i)=p(i)/300;end%对每阶段的人数绘图subplot(2,2,3)bar(t)title(用户比例-通话时间图)xlabel(通话时长*1000)ylabel(用户比例)subplot(2,2,4)bar(p)title(用户比例-通话频数图)xlabel(通话次
22、数*6)ylabel(用户比例)hold on%用矩形区域count(i,j)表示落在t,p相应区间的人数比例for i=1:7 for j=1:7 count(i,j)=t(i)*p(j); endend1.2 对问题二的求解1.2.1 主叫与被叫关系的分析clcclearA=xlsread(data.xls);A;n=size(A,1);max=0;%用二维数组person(1,2)表示人的信息,第一维通话时长,第二维通话次数for i=1:300 total(i,1)=0; total(i,2)=0; total(i,3)=0; total(i,4)=0;endfor i=1:n total(A(i,2),1)=total(A(i,2),1)+A(i,5); total(A(i,2),2)=total(A(i,2),2)+1; total(A(i,3),3)=total(A(i,3),3)+A(i,5); total(A(i,3),4)=total(A(i,3),4)+1;endxlswrite(total.xls,total);B=xlsread(paixu.xls);for i=1:300 x(i)=i; B(i,2)=B(i,2)*170;