ELM算法1_言忧_新浪博客

http://blog.sina.com.cn/u/1655728170

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

ELM算法1

(2013-02-18 13:25:58)

分类：机器学习

ELM(Extreme Learning Machine)是一种新型神经网络算法，最早由Huang于2004年提出【Extreme learning

machine: a new learning scheme of feedforward neural networks】。

与SVM，传统神经网络相比，ELM的训练速度非常快，需要人工干扰较少，对于异质的数据集其泛化能力很强。

Huang在【Extreme learning machines: a survey，2011】这篇论文中对ELM进行了总结，包括最初的ELM算法和后来被发展延伸的ELM算法(比如在线序列ELM算法、增量ELM算法和集成ELM算法等)，里面的很多知识点值得学习。

ELM的原理

从神经网络的结构上来看，ELM是一个简单的SLFN，SLFN示意图如下：

http://s5/bmiddle/62b0682agd5f9bb021744&690
该SLFN包括三层：输入层、隐含层和输出层（忽略输入层则为两层）。其中隐含层包括L个隐含神经元，一般情况下L远小于N，输出层的输出为m维的向量，对于二分类问题，显然该向量是一维的。

对于一个训练数据样本，忽略输入层和隐含层而只考虑隐含层神经元的输出和输出层，则神经网络的输出函数表达式为：http://s4/small/62b0682agd5f9f196b673&690ai和bi分别表示了第i个径向基函数节点的中心和影响因子。

神经网络输出函数可以写成：http://s8/small/62b0682agd5fa2efebde7&690，其中：

http://s4/mw690/62b0682agd5fa5fb76963&690

如果神经网络能够无误差的预测训练样本，那么隐含层和输出层的权值是有解的，特别的，当L=N时，肯定有解。但是实际问题中，L往往是远小于N的，那么求解权值向量的问题是无解的，即网络输出和实际值之间有误差，可以定义代价函数为：http://s14/mw690/62b0682agd5fa4852cbcd&690

接下来如何求解最优的权值向量，使得损失函数J最小呢？

针对这个问题ELM分两种情况解决：

a.如果H是列满秩的，那么可以通过最小二乘找到最佳的权值，其解为：http://s15/mw690/62b0682agd5fa5062388e&690

b.如果H是非列满秩的，则使用奇异值分解求解H的广义逆来计算最佳权值。

和BP使用梯度下降迭代更新所有层之间权值不同，ELM不调整SLFN的输入层和隐含层的权值，这些权值是随即设定的，因此ELM的训练速度非常快。ELM注重于隐含层到输出层的权值的选取，其采用的方法是最小二乘。

ELM算法一般可以描述如下：

http://s13/mw690/62b0682agd5fa5cb0704c&690
在Huang的survey中描述了一种思想，该思想把SVM也看成了神经网络，该思想把神经网络的输入层到最后一层隐含层的部分或者SVM核函数映射的部分都看成了从输入空间到一个新的空间的转换，然后，BP会将误差反向传播更新权值使得误差最小化，而SVM则力求找到最大分界间隔的分界面，将新空间映射到输出空间，从这个角度来看，SVM确实可以看成是一种神经网络。

ELM最初算法就如上所述，从2004年至今，后来的学者对其进行了很多改进，主要包括对输入层和隐含层权值随即确定权值的优化、求解隐含层和输出层权值的优化（使得ELM更适应于噪声数据集）、核函数ELM以及加入了正则化项的损失函数（求解结构风险而不再是经验风险）、ELM和其他方法相结合等。ELM为神经网络的结构设计提供了一个新的思路，使我们更好地理解神经网络，但是还有很多问题需要解决，比如隐含层节点个数的确定，正则化项的选择等等。作为一个性能很好的机器，我们也可以将其应用到诸多交叉学科的应用中。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：机器学习笔记（四）朴素贝叶斯法和决策树

后一篇：拉格朗日对偶性和似然函数

新浪BLOG意见反馈留言板　欢迎批评指正