换一换

冰豆网 > 资源分类 > DOCX文档下载

预览

实验二Clementine12购物篮分析关联规则Word文件下载.docx

资源ID：17675240 资源大小：31.07KB 全文页数：19页
资源格式： DOCX 下载积分：12金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要12金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

实验二Clementine12购物篮分析关联规则Word文件下载.docx

1、啤酒与尿布这两件看上去不相关的商品常常会出此刻同一个购物篮的现象。假如这个年青的父亲在卖场只好买到两件商品之一，则他很有可能会放弃购物而到另一家商铺，直到能够一次同时买到啤酒与尿布为止。沃尔玛发现了这一独到的现象，开始在卖场试试将啤酒与尿布摆放在相同的地区，让年青的父亲能够同时找到这两件商品，并很快地达成购物；而沃尔玛商场也能够让这些客户一次购置两件商品、而不是一件，进而获取了很好的商品销售收入，这就是“啤酒与尿布”故事的由来。自然“啤酒与尿布”的故事一定拥有技术方面的支持。 1993 年美国学者 Agrawal （个人翻译 - 艾格拉沃）提出经过剖析购物篮中的商品会合，进而找出商

2、品之间关系关系的关系算法，并依据商品之间的关系，找出客户的购置行为。艾格拉沃从数学及计算机算法角度提出了商品关系关系的计算方法 Aprior 算法。沃尔玛从上个世纪 90 年月试试将 Aprior 算法引入到 POS机数据剖析中，并获取了成功，于是产生了“啤酒与尿布”的故事。“啤酒和尿布”的故事为何产生于沃尔玛商场的卖场中？2卖场中“啤酒与尿布”的现象俯拾皆是，为何“啤酒与尿布”的故事只产生在沃尔玛的卖场中，而不是其余零售门店？这里有两个原由。第一个是沃尔玛先进的计算机技术是 “啤酒与尿布” 故事产生的强盛支持后盾。零售业目前使用的好多新技术都是沃尔玛领先“尝鲜”的，比方沃尔玛最早在门店试试

3、计算机记账，最早在门店收款台试试使用外形丑恶俗称 “牛眼” 的条码扫描器进行收款，世界上第一个发射个人通讯卫星等等。 “古人栽树，后代纳凉”，目前运用于门店管理的好多技术手段都是沃尔玛做了 “第一个吃螃蟹” 的，我们只可是坐收渔利而已。因为沃尔玛具备先进的技术手段， “啤酒与尿布”的故事在沃尔玛产生就一点也不奇异了。第二个原由是沃尔玛拥有一双锋利的慧眼。沃尔玛是一家极其讲究卖场现场管理的公司，沃尔玛首创人老沃尔顿最大的乐趣就是不断地在卖场巡视，更多地运用自己的双眼而不是数据来发现事实。所以不可以忽视的是，没有沃尔玛管理人员的慧眼，“啤酒与尿布”的故事也会吞没在大批的零售数据中。营销界

4、好多人关于 “啤酒与尿布” 的故事津津乐道，吹嘘得好像发现新大陆般！“啤酒与尿布”的故事就是商品交错销售，这种销售现象几乎和人类历史一样悠长，在先人披着兽皮互换贝壳、粮食、石斧等商品时，他们已经清楚地认识商品交错销售关于商品交易的重要性，一些聪慧的家伙会采纳各种举措鼓舞客户多互换一些商品（预计是一袋贝壳加一条鱼换一袋大米）。“啤酒与尿布”的故事不过对商品交错销售现象的一种现代解说，其实不是出现 “啤酒与尿布” 的故事之后，才存在商品交错销售的现象。从这个意义上讲，沃尔玛并无发现新大陆，只可是把我们置若罔闻的现象挖出来，并从中发现了商业价值。沃尔玛的首创人老沃尔顿说， retail

5、 is detail （零售就是细节）。研究商品关系关系的方法就是购物篮剖析，在购物篮剖析方面有两个值得我们学习的楷模，一个是美国的沃尔玛，另一个是日本的 7-11 便利店。相同是购物篮剖析，沃尔玛重申找出商品之间的关系关系，比方啤酒与尿布，而 7-11 便利店的重点在于找出影响商品销售的所有要素，比方碳酸饮料与气温的关系等等。换句话说，沃尔玛重点是剖析购物篮内商品之间的关系关系，而日本 7-11便利店的重点是从购物篮外面找影响商品销售的关系关系。美式购物篮剖析以沃尔玛为代表的美食购物篮剖析的目标一般是卖场面积巨大，往常都是上3万平方米，商品种类众多，大多在 10 万种以上，所以要经过

6、购物篮剖析找出吞没在不一样地区商品之间的关系关系，并将这些关系关系用于商品关系陈设、促销等详细工作中，是很难经过人工达成的。比方啤酒在酒类地区，尿布在婴儿用品地区，两个商品陈设地区相差几十米，甚至可能是“楼上、楼下”的陈设关系，用肉眼很难发现啤酒与尿布存在关系关系的规律。我们把找出购物篮中商品之间关系的方法称为 “美式购物篮” 剖析法，这种方法合适应用于近似沃尔玛这样的大卖场，用于找出不一样陈设地区商品之间的关系。英国的 Tesco 连锁商场、 Safeway 连锁商场也都是这种购物篮剖析的能手。我们这个课程所主要研究的目标也是这种美食购物篮。日式购物篮剖析日本这个国家很奇特，固然

7、身为岛国，可是经济发达。剖析日式购物篮的确能够看到日自己在经商方面的奇妙之处。日本的商场以 7-11 便利店为典型， 7-11便利店营业面积都很小，一般只有 100250 平方米，商品品种 300010000 种，是典型的“螺蛳壳里做道场” 。如我们在电影或许泡沫剧里面所见，日本好多门店的经营面积狭窄，站在门店里任何一个角落，所有的商品转个身就全看见了真切的仰头不见低头见，所以找出商品关系关系不是日本 7-11 便利店的重点：你就是找出来啤酒与尿布之间有“暗恋”关系，也没用！因为啤酒与尿布原来就在一同。自然日本 7-11 便利店这种有关陈设的故事也是有的，比方荞麦冷面与纳豆、鱼肉腊

8、肠与面包、酸奶与盒饭等等，可是毕竟起不到主要作用，日本 7-11 便利店更关注的是：气温由 28上升到 30，对碳酸类饮料、凉面的销售量会有什么影响？下雨的时候，关东煮的销售量会有什么变化？盒饭加酸奶、盒饭加罐装啤酒都是针对什么样的客户集体？他们什么时间到门店买这些商品？所以，日自己的重点是剖析所有影响商品销售的关系要素，比方天气、温度、时间、事件、客户集体等，这些要素我们称为商品有关性要素。日自己关于所有影响商品销售的关系要素研究得特别透辟，因这天本就会有气温 -碳酸饮料指数、空调指数、冰激凌指数，所以就不难理解为何 7-11 便利店会设置特意的气象部门，所以更能够理解为何日本

9、7-11 便利店会要求门店4每日 5 次将门店内外的温度、湿度上传回总部，供总部与商品销售进行对照剖析。与商品之间的关系关系对比，日本 7-11 便利店认为这些关系要素更重要。因为这是日本 7-11 便利店大批采纳的方式，我们也称为 “日式购物篮” 剖析法。“啤酒和尿布”故事包含什么样的含义？沃尔玛的“啤酒与尿布” 的故事实质上向我们揭露了零售业将来的赢利及生存模式。他突显了零售卖场中一个崭新的管理理念，即商品之间是拥有关系关系的，发现并利用这些商品之间的关系关系，能够在没法大幅增添门店客户数的前提下，经过增添购物篮中的商品数目达到增添销售额的目的，进而获取更大的经营利润。启迪一：购物

10、篮大于商品有在零售业工作经验的朋友都知道，老板查核大家的主要指标是商品销售额，你的薪资袋取决于商品的销售额。老板会将商品销售指标下发到个人，每个人都只会关注自己的“一亩三分地” ，卖啤酒的尽管闷头卖啤酒，卖尿布的尽管闷头卖尿布，每个柜台尽管自己的商品能否能进入客户手中的购物篮。卖啤酒的不关怀购物篮中的尿布，卖尿布的也冷视购物篮中的啤酒，只需别漏了自己柜台的东西就行了，因为漏了自己的商品，这个月的奖金就没了，人人只扫门前雪，长此过去商铺的整体效益自然不会好了，效益不好就要减员，大家都没好果子吃。反观沃尔玛的卖场管理系统中，购物篮是主要的管理对象，而不不过是商品。为何沃尔玛会以购物篮为

11、管理重点？沃尔玛认为商品销售量的冲刺不过短期行为，而零售公司的生命力取决于购物篮。一个小小的购物篮表现了客户的真切花费需乞降购物行为，每一只购物篮里都储藏着太多的客户信息。零售业的主旨是服务客户，沃尔玛认为商铺的管理中心应当是以购物篮为中心的顾客经营模式，商品排名只好表现商品自己的表现，而购物篮能够表现客户的购置行为及花费需求，关注购物篮能够使门店随时掌握客户的花费动向，进而使门店一直与客户保持一致。启迪二：购物篮方面的差距购物篮的表现形式就是我们常说的“客单价” ，客单价的高低直接反应了零售公司的经营效益。依据 AC 尼尔森 2006 年对国内零售公司的检查发现，从周一到周五正常

12、工作日，相同一个万米经营面积的大卖场，国内卖场的均匀客单价是 29 元，家乐福、沃尔玛、欧尚等国际零售巨头卖场的客单价为 75 元，好又5多、大润发、乐购等台资卖场客单价为 50 元。到了周末（周六、周日）的差距更大，国内卖场客单价为 35 元，台资卖场客单价为 80 元，外资卖场能够达到 149元，这就是我们国内公司在购物篮方面的差距。我们知道，销售额 =客单价客流数。在相同客流量的状况下，我们的公司因为客单价低，已经先失一着，销售业绩要比外资公司低 200，比台资公司低60。其余，销售额低会带来好多问题，比方毛利额低、通道费低、与供给商的话语权降低，甚至会直接影响到公司的生计。所

13、以，要想提高商业公司的销售业绩，一定改良公司购物篮，全面提高客单价，能够说零售公司的购物篮代表了公司的生计权！另占有关报导，客户到家乐福卖场的年均匀购物频度只有 9.8 次，可是在快速花费品的市场份额却比年均匀客户购物频度高达 51 次的华润苏果超出，家乐福、沃尔玛、易初莲花等外资零售公司不过利用客户几次上门购物的时机，就获取了远比国内零售同行高好多的快速花费品市场份额。特别要注意的是，沃尔玛、欧尚等外资零售公司在国内只有区区的十几家门店，竟然占有了特别大的市场份额，充足显示了这些外资零售公司在购物篮方面的确有“高招”。“啤酒与尿布”故事的依照是商品之间的有关性（也称关系性，英文名

14、称为association rule），商品有关性是指商品在卖场中不是孤立的，不一样商品在销售中会形成互相影响关系（也称关系关系），比方“啤酒与尿布” 故事中，尿布会影响啤酒的销量。在卖场中商品之间的关系关系俯拾皆是，比方咖啡的销量会影响到咖啡伴侣、方糖的销售量，牛奶的销量会影响面包的销售量等等。所谓事物之间的有关性是指当一个事物变化时，另一个事物也会发生变化。当事物之间的变化是互相抵消的，比方猪肉价钱上升、猪肉销量降落，我们称这种有关性是负有关；当事物之间的变化表现同一个方向发展时，比方气温上升、冷饮销量也上升，我们称这种有关性是正有关。有些事物的有关性不言而喻，有些则不是那

15、么显然。美国华尔街股票剖析师将女性超短裙的长度与道琼斯股票指数成立了关系，超短裙的长度与股票指数成反比趋向，听说十分灵验，这就是有关性在生活中的各种表现。商铺中的关系性更是俯拾皆是，比方烟酒销售的关系关系：当门店邻近有建筑工地时，低档烟、酒的销售就会上升；当邻近有高档社区时，中华烟、葡萄酒6的销售量就会上升。提到商品有关性，好多人认为就是数据剖析的事儿，其实关于商品有关性来说，更重要的是客户心理层面的要素，毕竟是人在提着购物篮，而不是猴子。客户在购物时的心理行为是产生商品之间关系关系最基本的原由，所以在找到购物篮规律时，一定要从客户消操心理层面解说这些关系关系，不然“啤酒与尿布

16、”会永久逗留在啤酒与尿布两个商品身上，而没有任何的推行意义。要想详尽认识商品有关性形成的客户心理要素，要进行大批的客户花费行为察看，建立客户购物篮场景，才可使“啤酒与尿布” 的故事弘扬光大。二、关系规则的观点关系规则发掘发现大批数据中项集之间风趣的关系或有关系系。它在数据挖掘中是一个重要的课题，近来几年已被业界所宽泛研究。关系规则发掘的一个典型例子是购物篮剖析。关系规则研究有助于发现交易数据库中不一样商品（项）之间的联系，找出顾客购置行为模式，如购置了某一商品对购置其余商品的影响。剖析结果能够应用于商品货架布局、货存安排以及根据购置模式对用户进行分类。Agrawal 等于 199

17、3 年第一提出了发掘顾客交易数据库中项集间的关系规则问题，此后诸多的研究人员对关系规则的发掘问题进行了大批的研究。他们的工作包含对原有的算法进行优化，如引入随机采样、并行的思想等，以提高算法发掘规则的效率；对关系规则的应用进行推行。近来也有独立于 Agrawal 的频集方法的工作，以防止频集方法的一些缺点，探究发掘关系规则的新方法。也有一些工作着重于对发掘到的模式的价值进行评估，他们提出的模型建议了一些值得考虑的研究方向。关系规则发掘能够发现存在于数据库中的项目或属性间的风趣关系，这些关系是早先未知的或许被隐蔽的。为了正确描述关系规则发掘问题，需要给出关系规则发掘问题的正式定义

18、，下边用事务数据库来定义关系规则。设 D 交易（transaction） T 的会合， D t1 ,t2 , ,t n ，这里交易 T 是项的会合，能够表述为： T t1 , t2 , ,tP 而且 T D 。 T 中的元素 i j j 1,2, , p 称为项。对应每一个交易有独一的表记，如交易号，记作 TID 。设 I i1 ,i2 , , im 是数据7集中所有项的会合， I 是二进制文字的会合。 I 中的任何子集称为项目集（itemset），若 |X| k ，则称会合 X 为 K 项集。设 t k 和 X 分别为 D 中的事务和项目集，假如 X tk ，称事务 t k 包含项目集 X

19、。项目集 X 的支持率 support（X） ,若support（X）不小于用户指定的最小支持率（记作：minsupport），则称 X 为屡次项目集，不然称 X 为非屡次项目集。设 X ， Y 是数据集 D 中的项目集。若 X Y ，则 support（X） support（Y ）；若 X Y ，假如 X 是非屡次项目集，则 Y 也是非频繁项目集；若 X Y ，假如 Y 是屡次项目集，则 X 也是屡次项目集。一个关系规则是形如 X Y 的蕴涵式，这里 X ，Y 都是项目集，且 X C1 ，Y 1 ，而且 X I Y ， X ， Y 分别称为关系规则 X Y 的前提和结论。一般使用支持

20、度（ support）和置信度（ confidence）两个参数来描述关系规则的属性。（1）支持度规则 X Y 在数据库 D 中的支持度（support）是交易集中同时包含 X ， Y 的事务数与所有事务数之比，记为 support（X Y） sup port （ X Y ）。支持度描述了 X ， Y 这两个项集在所有事务中同时出现的概率。（2）置信度规则 X Y 在事务集中的置信度（confidence）是指同时包含 X ，Y 的事务数与包含 X 的事务数之比，它用来权衡关系规则的可信程度。记为confidence （ XY ） support（XUY）。support（X）一般状

21、况下，只有关系规则的置信度大于希望可信度，才说明 X 的出现对 Y的出现有促使作用，也说了然它们之间的某种程度的有关性。给定一个事务集 D ，发掘关系规则的问题就是产生支持度和置信度分别大于用户早先给定的最小支持度和最小置信度的关系规则。关系规则发掘的任务就是要发掘出 D 中所有的强规则 X Y 。强规则 X Y 对应的项目集（X Y）必然是屡次项目集，屡次项目集（X Y）导出的关系规则 X Y 的置信度可由屡次项目集 X 和（X Y）的支持度计算。所以，能够把关系规则发掘区分为两个子问题：一个是找出所有的屡次项目集：即所有支持度不低于给定的最小支持度的项目集。另一个是

22、由屡次8项目集产生强关系规则：即从第一个子问题获取的屡次项目集中找出置信度不小于用户给定的最小置信度的规则。此中，第一个子问题是关系规则发掘算法的核心问题，是权衡关系规则发掘算法的标准。三、 Apriori 算法关系规则的算法相当多，此中经典算法 Apriori 是最有影响的发掘布尔关系规则屡次项目集的算法，同时大多半关系规则算法也都是经典算法 Apriori 的演绎和改良。 Apriori 算法是经过有候选项集的方法来产生屡次项集，它的中心思想：任何屡次项集的所有子集必定是屡次项集。在 Apriori 算法中，遍历数据库，获取大一项集 F1。假如 F1非空，由 F1产生长度为 2 的候

23、选项会合 C 2 ，对事务办理数据库中的每一个事务 t ，求出 t 在 C 2 中的所有子集 Ct ，关于 C t 中的每一个长度为 2 的候选用项集 c ，令 c 的计数 c. count加 1。当扫描事务办理数据库一遍后，挑选用出候选项会合 C 2 中所有计数知足最小支持度的项集构成了长度为 2 的屡次项会合。用以上步骤重复办理新获取的频繁项会合，直到没有屡次项会合产生。在这里，因为从候选项集中产生屡次项集的过程需要遍历数据库，所以怎样正确地产生最少量目的候选项集十分重点。候选项集产生的过程 Apriori -gen（Fk-1）被分为两个部分：结合与剪技。采纳这种方式，使得所有的

24、屡次项集既不会遗漏又不会重复。剪枝的目的是减少扫描数据库时需要比较的候选项集的数量。剪枝的原则是：候选项集 C 的 k 个长度为 k 1的子集都在 Fk 1 中，则保存 C ；不然 C 被剪枝。Apriori 算法的描述以下。输入：事务数据库 D ；最小支持度阀值 min_sup。输出： D 中的屡次项集 L 。方法：第 1 步产生屡次项集第 2 步产生屡次 k （2 end）项集9产生屡次候选 k 项集由屡次 k 1项集连结成为 k 项集检测 k 项集的所有的 k 1子集能否为屡次项集，假如该 k 项集就成为了屡次候选项集扫描事务数据库 D 对每个候选 k 项集计数达到最少支持度

25、的屡次候选 k 项成为屡次 k 项集。四、 Clementine 购物蓝剖析本次实验是以 clementine 软件中间的数据为数据根源睁开数据发掘工作的，数据样本为 Demos 文件夹里的文件，数据量为一千余条，保证了实验结果的依照性和靠谱性。实验的目的是鉴于关系规则，利用 clementine 实现市场购物篮剖析。SPSS Clementine 支持标准化的数据发掘流程，此刻将从此中的数据理解、数据准备、成立模型等几个方面进行本课题的研究。下列图 1 是整个数据流的图形：图 1 整体数据流此次实验的研究方法能够归纳为如图 2.10方法步骤数据发掘模式探究数据集成顾客基本信息GR

26、I 模型购置商品信息关系规则成立Rul不一样商品之间能否有关系Web 图形商品与客户群C5.0 模型客户群分类性别年纪能否有关系图 2 研究方法流程4.1 数据理解阶段数据准备是整个数据发掘过程的重要部分，数据质量越高，发掘结果正确性越高。第一选择“数据源”选项卡里面的固定文件节点，将其增添到数据流区，并导入文件数据。此时能够用“输出”选项卡里的表结点与数据文件连结，查察数据的状况。数据中间 18 个变量的状况可见下表 1.表 1 研究数据字段说明序号字段名字段含义字段取值Cardid购置此篮商品的客户的忠正整数诚卡表记符Value购物篮的总购置价钱正数pmethod购物篮的支付方法

27、CASH/CHQUE/CARDSex性别F/Mhomeown卡拥有者能否拥有住宅T/FIncome收入Age年纪Fruitveg果蔬11freshmeat鲜肉Dairy乳制品cannedveg罐装蔬菜12cannedmeat烤肉13frozenmeal冻肉14Beer啤酒15Wine酒16Softdrink饮料17Fish鱼18confectionery糖果在上述数据中间， 1-7 属于顾客信息， 8-18 属于购物篮订单的信息，每一个字段都属于一个订单项。4.2 数据准备阶段在数据表中间既无缺失值，又无数据重复性的问题出现，所以不需要对源数据做过多的数据过滤和预办理过程。考虑到数据属性关于数据发掘建模的影响，需要对数据的方向属性做改正，此时可增添“种类”节点，让数据源固定文件节点连结到“种类节点” 。种类节点使用：使用 Clementine 种类节点能接见每个字段的属性，能够很便利地扩大脚本内容以列出种类节点中显

注意事项

本文（实验二Clementine12购物篮分析关联规则Word文件下载.docx）为本站会员主动上传，冰豆网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰豆网（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。