加载中…
个人资料
leo鱼
leo鱼
  • 博客等级:
  • 博客积分:0
  • 博客访问:122,807
  • 关注人气:16
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
搜博主文章
访客
加载中…
评论
加载中…
留言
加载中…
博文
标签:

归一化

标准化

分类: 数据挖掘
归一化方法:
1、把数变为(0,1)之间的小数
  主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。
2、把有量纲表达式变为无量纲表达式
  归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。 
标准化方法:       
    数据的标准化是将数
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2015-10-09 18:20)
标签:

平滑

分类: 时间序列
简单的全期平均法是对时间数列的过去数据一个不漏地全部加以同等利用;移动平均法则不考虑较远期的数据,并在加权移动平均法中给予近期资料更大的权重;而指数平滑法则兼容了全期平均和移动平均所长,不舍弃过去的数据,但是仅给予逐渐减弱的影响程度,即随着数据的远离,赋予逐渐收敛为零的权数。
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

转载

分类: hadoop

mapreduce中,一个job的map个数, 每个map处理的数据量是如何决定的呢? 另外每个map又是如何读取输入文件的内容呢? 用户是否可以自己决定如何输入, 决定map个数呢? 这篇文章将详细讲述hadoop中各种InputFormat的功能和如何编写自定义的InputFor

阅读  ┆ 评论  ┆ 转载原文 ┆ 收藏 
(2015-09-18 17:41)
分类: hadoop
1.shuffle、partition、combine
combine和partition都是函数,map到reduce中间的步骤应该只有shuffle!

combine分为map端和reduce端,作用是把同一个key的键值对合并在一起,可以自定义的。
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2015-08-26 18:38)
标签:

pca

分类: 数据挖掘
http://www.360doc.com/content/13/1124/02/9482_331688889.shtml
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

em

最大似然估计

分类: 数据挖掘

机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到这个世界上,还吸引了那么多世人的目光。

       我希望自己能通俗地把它理解或者说明白,但是,

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2015-08-18 16:49)
标签:

svm

r

k折交叉验证

分类: 数据挖掘

1.数据准备本地文件格式:

 

hour15, hour15diff, hour17, hour17diff, addrate, lastflag, res

23.7475, -9.3125, 30.5800, -12.7600, -3.4475, 0, 0

24.6150, -10.3050, 31.7625,

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2015-07-28 19:27)
标签:

感知机

分类: 数据挖掘

概念

感知机是二分类模型,输入实例的特征向量,输出实例的±类别。

感知机模型

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2015-07-01 10:26)
标签:

时间序列去毛尖

差分阈值滤波

分类: 时间序列

现象

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2015-06-26 12:44)
标签:

随机森林

分类: 数据挖掘

随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候投票决定测试样本的最终类别。下面我们再详细说一下随机森林是如何构建的。


随机森林主要包括4个部分:随机选择样本;随机选择特征;构建决策树;随机森林投票分类。

 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
  

新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有