FP-Growth算法_丹追兵

http://blog.sina.com.cn/u/1874320195

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

FP-Growth算法

(2011-12-30 12:11:39)

标签：

fp-growth

数据挖掘

频繁模式挖掘

分类：数据挖掘

本文所采用图片均来自清华大学计算机系王建勇老师的课程《数据挖掘：原理与算法》

http://dbgroup.cs.tsinghua.edu.cn/wangjy/DM/DataMining.html

(Han, Pei and Yin @SIGMOD'00)

Apriori算法的一个主要瓶颈在于，为了获得较长的频繁模式，需要生成大量的候选短频繁模式。FP-Growth算法是针对这个瓶颈提出来的全新的一种算法模式。目前，在数据挖掘领域，Apriori和FP-Growth算法的引用次数均位列三甲。

FP的全称是Frequent Pattern，在算法中使用了一种称为频繁模式树（Frequent Pattern Tree）的数据结构。FP-tree是一种特殊的前缀树，由频繁项头表和项前缀树构成。所谓前缀树，是一种存储候选项集的数据结构，树的分支用项名标识，树的节点存储后缀项，路径表示项集。

FP-tree的生成方法：

http://s15/bmiddle/6fb7db434b54786f8fe5e&690
第二步根据支持度对频繁项进行排序是本算法的关键。第一点是，通过将支持度高的项排在前面，使得生成的FP-tree中，出现频繁的项更可能被共享，从而有效地节省算法运行所需要的空间。另一点是，通过这种排序，可以对FP-tree所包含的频繁模式进行互斥的空间拆分，得到相互独立的子集，而这些子集又组成了完整的信息。

FP-tree子集分割方法

如上图，求p为前缀的投影数据库：根据头表的指针找到FP-tree的两个p节点，搜索出从这两个节点到树的根节点路径节点信息（包含支持度）。然后累加路径节点信息的支持度，删除非频繁项。对剩下的频繁项按照上一节的方法构建FP-tree。过程如下图所示：

http://s13/bmiddle/6fb7db434b547a5fd64ac&690
http://s7/middle/6fb7db434b547a73767d6&690
FP-Growth算法流程：

基本思路是：不断地迭代FP-tree的构造和投影过程。

对于每个频繁项，构造它的条件投影数据库和投影FP-tree。对每个新构建的FP-tree重复这个过程，直到构造的新FP-tree为空，或者只包含一条路径。当构造的FP-tree为空时，其前缀即为频繁模式；当只包含一条路径时，通过枚举所有可能组合并与此树的前缀连接即可得到频繁模式。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：数据挖掘十大经典算法(4)：Apriori算法

后一篇：图挖掘

新浪BLOG意见反馈留言板　欢迎批评指正