2.2 关联模式
关联模式挖掘旨在从大量的数据当中发现特征之间或数据之间的相互依赖关系。这种存在于给定数据集中的频繁出现的关联模式,又称为关联规则。关联可分为简单关联、时序关联、因果关联等。这些关联并不总是事先知道,而是通过数据库中数据的关联分析获得的,其对商业决策具有重要价值。关联分析广泛用于市场营销、事务分析等应用领域。
挖掘关联知识的一个典型应用实例就是市场购物分析。根据被放到一个购物袋的(购物)内容记录数据而发现的不同(被购买)商品之间所存在的关联知识无疑将会帮助商家分析顾客的购买习惯,如图2.3所示。发现常在一起被购买的商品(关联知识)将帮助商家指定有针对性的市场策略。比如,顾客在购买牛奶时,是否也可能同时购买面包或会购买哪个牌子的面包,显然能够回答这些问题的有关信息肯定会有效地帮助商家进行针对性的促销,以及进行合适的货架商品摆放,如可将牛奶和面包放在相近的地方或许会促进两个商品的销售。
图2.3 市场购物分析示意描述
根据关联规则所涉及变量的多少,可以分为多维关联规则和单维关联规则。通常,关联规则具有:X ⇒ Y的形式,即“A1 ∧...∧ Am ⇒ B1 ∧...∧ Bn”的规则;其中,Ai (i∈{1,...,m}), Bj (j∈{1,...,n})是属性-值对。关联规则X ⇒ Y解释为“满足X中条件的数据库元组多半也满足Y中条件”。
例如:一个数据挖掘系统可以从一个商场的销售(交易事务处理)记录数据中,挖掘出如下所示的关联规则:
age(X,"20-29")∧income(X,"20K-30K") ⇒buys(X,"mp3") [support=2%,confidence=60%]
上述关联规则表示:该商场有的顾客年龄在20岁到29岁且收入在2万到3万之间,这群顾客中有60%的人购买了MP3,或者说这群顾客购买MP3的概率为六成。这一规则涉及年龄、收入和购买三个变量(即三维),可称为多维关联规则。
对于一名商场经理,或许更想知道哪些商品是常被一起购买的,描述这种情况的一条关联规则可能是:
Contains(X,"computer") ⇒contain(X,"software") [support=1%,confidence=60%]
上述关联规则表示:该商场 1%销售交易事务记录中包含“computer”和“software”两个商品;而对于一条包含(购买)“computer”商品的交易事务记录有60%可能也包含(购买)“software”商品。这条记录由于只涉及购买事务这一个变量,所以称为单维关联规则。