加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

挑水果?选男朋友?让决策树来帮你

(2017-08-14 19:28:14)
标签:

人工智能

it

分类: 金融科技

 选择是一个人所能拥有的最重要的能力,也许是因为太重要了,许多人在现实中都有选择恐惧症。今天,我就来向你推荐一种好用的工具——决策树,这是一种简单但使用广泛的分类器,也可以看作是以实例为基础的归纳学习算法,它从一组无次序、无规则的元组中推理出树表示形式的分类规则,然后基于该规则建立决策树,对类别进行判断。决策树属于机器学习中监督学习的范畴,通过训练数据构建决策树,可以高效地对未知数据进行分类。说的更直白点,决策树就是一种像树一样层层分支、不断递进的决策工具。

 

http://mmbiz.qpic.cn/mmbiz_png/yz1j6Vadibv92a9872OKarRwUpLOE4HJSCL6AdWGrdG8f6JcZsCPPlnicUbNJ7pRBsLK5dSIqUaPia1mFjzNSVPKw/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1

 比方说吧,很多人都爱吃木瓜,判断一个木瓜好不好吃,可以先看木瓜的颜色,如果颜色不在浅绿到浅黄之间,就不用看其他的了,直接判断这个木瓜味道不好;否则,转而测试它的软硬程度,如果用手掌压木瓜会产生轻微的变形,那么这个木瓜肯定好吃,否则就不好吃。决策树上每个内部节点表示一个特征,每个分支代表一个特征的取值,每个叶节点代表一种类别,由此构造出相应的决策树如下: 

http://s16/mw690/003egBYCzy7drc6fAOH7f&690
    只用决策树判断一个木瓜好不好吃,也未免太大材小用了!其实寻找另一半是人生中最重要的决策,我们也可以用决策树来找男朋友,通过四个决策节点“长相、学历、收入、上进”排除了“丑、笨、穷还不努力的人”,选出“帅气聪明收入一般且非常努力”的潜力股。选出了这样的男朋友,假设他也对你情有独钟,那你们牵手就一定会幸福吗?那可不一定。因为在上述的决策节点中,我们漏掉了一个重要的因素——性格,一个人的性格如何对于亲密关系来说太重要了,但是性格或者说是脾气对不熟悉的人来说很难判断,只有长期相处才会了解,那么一开始做决策时我们只能通过从别人那里了解或是根据初步印象,再用概率的方式来估计,比如说我看那天他开车时,路况非常堵,他还是镇定自若、谈笑风生,八成脾气不错;想的再多一点,在这样一个充满诱惑的时代,他会一直对你忠诚吗?另外,在今天的市场经济社会里,没有钱也比较难熬,所谓的“贫贱夫妻百事哀”,你所看重的潜力股现在收入不高,虽然他聪明又努力,将来就一定会很富有吗?所有这些因素都不是确定的,只能用概率来判断了。那根据你从别人那里了解的和平时对他的观察,你估计他脾气好的概率是80%,出轨的概率是40%,有钱的概率是30%,现在你用下面的决策树测试一下,就可以判断这个潜力股是你可以考虑的对象

http://s15/mw690/003egBYCzy7drbZzzZA0e&690

 在机器学习中,构建一棵决策树的实际算法是基于启发式思想比如贪婪方法,逐步构建决策树,在每个节点采用局部最优策略。具体而言,从单节点(根节点)开始递归的生成一棵树,将实例数最多的类作为该叶子节点的类标记;然后进行一系列迭代,每迭代一次,通过信息增益来测试拆分一个叶子结点的效果;然后,在所有可能的拆分中,选择最大化信息增益的拆分法,或者不拆分(此时所对应的数据的熵足够小)。通俗一点说,就是在样本所有特征中,有一些特征在分类时起决定性作用,找到这些具有决定性作用的特征,根据其决定性程度来构造一个倒立的树——决定性作用最大的那个特征作为根节点,该特征将数据集划分为若干个子集,然后递归找到各分支下子数据集中次大的决定性特征,继续划分子集,直到数据集中所有数据都属于同一类,也即所有的节点都只有一个类型,则为叶节点。所以,构造决策树的过程本质上就是根据数据特征将数据集分类的递归过程,我们需要解决的第一个问题就是,当前数据集上哪个特征在划分数据分类时起决定性作用,通常选取能最大程度减小数据集分类的不确定性的特征。在上述男朋友候选对象决策树的构造中,我们认为脾气好坏在候选对象分类中决定性作用最大,其次为忠诚度,最后为未来有钱与否。

 这里用到了三个概念,首先是信息熵,这是1948年由信息论之父克劳德·香农提出的,它解决了对信息的量化度量问题。信息量的大小跟事情不确定性的变化有关,信息熵就是平均而言发生一个事件我们得到的信息量大小,如果这件事发生的概率是1,则其信息熵为0,意思就是说了跟没说一样;反过来,如果这件事发生的概率极微,那么它的信息熵趋向于无穷大。在决策树中信息熵针对的不是事件,而是随机变量,它反映了随机变量的不确定性,可用H(D)表示对数据集D进行分类的不确定性,这个值越大,不确定性越大,预测的难度越大;而条件熵H(Y|X)是在已知随机变量X的条件下,随机变量Y的不确定性,这里用H(D|A)来表示在特征A给定的条件下对数据集D进行分类的不确定性;信息增益则是指由于分类特征而使得对数据集的分类的不确定性减小的程度,可以用g(D|A)= H(D)- H(D|A)来表示。决策树以信息熵的下降速度为选取特征的标准,即在每个节点选取尚未被用来划分的具有最高信息增益的特征作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样例。也就是说,如果一种特征分类的信息增益大于另一种特征,那么在这个问题决策中,采用这个特征分类更佳。

 在金融领域,决策树的一个典型应用是在信用卡欺诈检测中。我们可以根据用户在一段时间内的信用卡交易,建立决策树模型,识别哪些交易是用户操作的,可以依据的特征有:用户的IP、用户的电脑、用户交易金额以及用户的交易时间。另外,由于在检测欺诈时需要考虑的因素很多,可能多达几百个,可以考虑采用决策树的随机森林方法。随机森林是用随机的方式建立一个森林,森林由很多的决策树组成,每一棵决策树之间没有关联;建立森林之后,当一个新的输入样本进入时,让森林中的每一棵决策树分别判断,看看这个样本应该属于哪一类;然后根据哪一类被选择最多,就预测这个样本为哪一类。在这里,每一棵决策树就像一个精通某个专业领域的专家,面对一个新的问题,可以让不同领域的专家处理这个问题,最终由各位专家投票得到结果。

 决策树易于理解和实现,而且执行效率高,构建一次决策树,就可以反复使用。下次,再面临什么选择问题时,你就不用再纠结了,试试决策树吧!

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有