R语言数据集合并、数据增减、不等长合并

标签:
r语言大数据分析数据分析师数据挖掘 |
数据选取与简单操作:
http://www.cda.cn/uploadfile/image/20170420/20170420072033_14542.png
一、数据合并
1、merge()函数
最常用merge()函数,但是这个函数使用时候这两种情况需要注意:
1、merge(a,b),纯粹地把两个数据集合在一起,没有沟通a、b数据集的by,这样出现的数据很多,相当于a*b条数据;
2、merge函数是匹配到a,b数据集的并,都有的才匹配出来,如果a、b数据集ID不同,要用all=T(下面有all用法的代码)。
[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片
[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片
merge的all用法
[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片
其中,all=T代表全连接,all.x=T代表左联结;all.y=T代表右连接
2、dplyr包
dplyr包的数据合并,
一般用left_join(x,y,by="name")
需要这个x数据集是全集,比较大。
http://www.cda.cn/uploadfile/image/20170420/20170420072131_16452.png
http://www.cda.cn/uploadfile/image/20170420/20170420072143_41363.png
3、paste函数
生成一长串字符向量。
[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片
[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片
4、cbind和rbind函数
cbind()和rbind(),cbind()按照纵向方向,或者说按列的方式将矩阵连接到一起。
rbind()按照横向的方向,或者说按行的方式将矩阵连接到一起
rbind/cbind对数据合并的要求比较严格:合并的变量名必须一致;数据等长;指标顺序必须一致。相比来说,其他一些方法要好一些,有dplyr,sqldf中的union
5、sqldf包
利用SQL语句来写,进行数据合并,适合数据库熟悉的人,可参考:
R语言︱
数据库SQL-R连接与SQL语句执行(RODBC、sqldf包)
二、数据增减
[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片
或用dplyr包中的mutate函数
[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片
筛选变量服从某值的子集
[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片
三、数据纵横加总
R使用rowSums函数对行求和,使用colSums函数对列求和。
四、不等长合并
1、plyr包
rbind.fill函数可以很好将数据进行合并,并且补齐没有匹配到的缺失值为NA。
[plain] view plain copy
print?在CODE上查看代码片派生到我的代码片
核心函数是plyr包中的rbind.fill函数(合并的数据,必须是data.frame),do.call可以用来批量执行。(do.call用法)
关于do.call其他用法(R语言 函数do.call()使用 )
有一个list,想把里面的所有元素相加求和。发现了两个很有意思的函数
list <- list(matrix(1:25, ncol = 5), matrix(4:28,
ncol = 5), matrix(21:45, ncol=5))
list.sum<-do.call(sum,list)
list.sum<-do.call(cbind,list)
do.call() 是告诉list一个函数,然后list里的所有元素来执行这个函数。
2、dplyr包
dplyr::bind_rows()
[html] view plain copy
print?在CODE上查看代码片派生到我的代码片