定义2:假如在交易的数据库中出现 比例的交易记录包含 ,称为关联规则“ ”具有 支持度,描述为:support ,最小支持度记作为min_sup。
定义3:假如在交易的数据库中出现 比例的交易记录满足“若包含A就包含B”条件,称关联规则 具有 置信度,描述为:confidence  ,最小置信度记为min_conf。满足最小支持度和最小置信度的关联规则称为强关联规则[4]。
定义4:数据项的集合称为项集(itemset),包含 个数据项的项集称为 项集。假如设定的最小支持度min_sup与交易数据库 记录总数的乘积小于一个项集在数据库 中的出现的频度,则该项集符合最小支持度阀值,称该项集为频繁 项集[4]。
3.2 关联规则的几个度量值
现实生活中,关联规则应用的例子很多。零售业是关联规则应用的主要领域,其中一个比较经典案例就是“啤酒与尿布”的关联发现:知识发现人员通过对商场交易的数据进行分析后, 结果他们发现了这样的一条关联规则就是“当买啤酒的男顾客当中有大约七成的顾客会随便买尿布”。知识发现人员对这些信息进一步深入的分析发现, 原来这些孩子的父亲会在自己买啤酒的同时, 也常常会顺便给自己刚出生不久的子女购买一些尿布。通过这样的调查发现研究,从而给商场工作人员提供了一些有用的知识信息, 让他们通过改变商品之间的摆放位置,进而方便购物者的选购。
一个关联规则的属性一般用四个参数来描述:
1.支持度(Support):关联规则的支持度是交易集中同时包含X和Y的交易数与所有交易数之比,记为Sup(X→Y)=P(X∪Y)。反映了X和Y中所含的项在事务集中同时出现的频率。如果某天共有1000个顾客到商场购买物品,其中有100个顾客同时购买了啤酒和尿布,那么上述的关联规则的支持度就是10%。
2.置信度(Confidence):关联规则的置信度(也称可信度)是数据集中包含X和Y的交易数与包含X的交易数之比,记为Conf(X→Y)=P(X/Y),即置信度反映了在包含X的事务中,出现Y的条件概率。如上面所举的啤酒和尿布的例子,该关联规则的置信度就回答了这样一个问题:如果一个顾客购买了啤酒,那么他也购买尿布的可能性有多大呢?在上述例子中,购买啤酒的顾客中有70%的人购买了尿布, 所以置信度是70%。
3.期望可信度(Expected confidence):设D中有e%的交易支持数据项集B,e%称为关联规则A→B的期望可信度。期望可信度描述了在没有任何条件影响时,数据项集B在所有交易中出现的概率有多大。如果某天共有1000个顾客到商场购买物品,其中有200个顾客购买了尿布,则上述的关联规则的期望可信度就是20%。
4.作用度(Lift):作用度是可信度与期望可信度的比值。作用度描述数据项集A的出现对数据项集B的出现有多大的影响。因为数据项集B在所有交易数据库中出现的概率是期望可信度;而数据项集B在有数据项集A出现的事务中出现的概率是可信度,通过可信度对期望可信度的比值反映了在加入“数据项集A出现”的这个条件后,数据项集B的出现概率发生了多大的变化。在上例中作用度就是70%/20%=3.5。
可信度是对关联规则的准确度的衡量,支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性,显然支持度越大,关联规则越重要。有些关联规则可信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。
    期望可信度描述了在没有数据项集A的作用下,数据项集B本身的支持度;作用度描述了数据项集A对数据项集B的影响力的大小。作用度越大,说明数据项集B受数据项集A的影响越大。一般情况,对人们有用处的关联规则其作用度全部应大于1,因为只有当的期望可信度比关联规则可信度小时,才能说明A的出现对B的出现是有促进的作用,反之,如果当作用度小于1时,说明这样的关联规则没有什么意义。
上一篇:模糊推理系统及其仿真研究+文献综述
下一篇:贝叶斯分类器及其应用研究+源码+文献综述

线性调频测距雷达去速度模糊方法研究

MATLAB三星无源时差定位的配对模糊抑制技术

AT89C51单片机模糊控制的电...

规则几何体雷达截面积的FDTD计算

基于模糊中值滤波算法的EMCCD噪声抑制研究

双输入模糊PI控制器的设计

图像去模糊算法研究+文献综述

国内外无刷直流电动机研究现状

浅谈传统人文精神茬大學...

中国古代秘书擅权的发展和恶变

高校网球场馆运营管理初探【1805字】

谷度酒庄消费者回访调查问卷表

多元化刑事简易程序构建探讨【9365字】

浅谈新形势下妇产科护理...

《醉青春》导演作品阐述

辩护律师的作证义务和保...

拉力采集上位机软件开发任务书