标签:
r语言实战缺失值处理vimmice多重插补 |
分类: R |
缺失值(NA),是导致我们计算错误的一大来源,处理缺失数据在实际的应用中有着较为重要的作用。
使用函数中内置的缺失值处理参数:在一般的计算函数如sum中,就包括了na.rm=T/F来控制是否忽略缺失值,默认不忽略,计算结果为NA,若忽略,则返回排除缺失值之后的计算结果。
使用na.omiit()函数处理:na.omit()函数可以把含有缺失值(NA)的向量的元素、矩阵和数据框的行删除。对向量和矩阵,删除后返回一个omit对象,并且显示删除了元素的下标或矩阵的行号,返回对象名称;对数据框,则直接返回去除缺失所在行之后的数据框对象。具体可使用example(na.omit)查看。
完整的处理步骤包含:
1、识别缺失数据;
2、检查导致缺失数据的原因;
3、删除含缺失值的实例或用合理的值代替(插补)缺失值。
很明显的是,识别缺失数据是可以由机器完成的,但是,缺失数据原因的检查,以及选择删除还是使用某种合理值代替缺失数据均需要人工来选择,需要对数据的收集过程有所理解才能知道数据缺失原因,知道数据的含义及实际作用才能理解使用什么样的值才合理(
标签:
r语言实战广义线性logistic回归poisson回归glm |
分类: R |
我们知道,OLS回归的要求是假设因变量是正态分布(还有独立性、线性及同方差性),但是,我们在使用时,因变量通常会出现二值变量(如是/否、通过/不通过之类)或多分类变量(如优/良/中/差等),又或者为计数变量(如一周的交通事故次数这类非负有限值)。而广义线性回归就是能够解决此类问题的回归。书中只介绍了Logistic回归及泊松回归两个回归的一般方法(像稳健、多项、有序等并未涉及)。
http://s4/mw690/002gSfimzy79wzGrNTl13&690
分 布 族 | 默认的连接函数 |
---|---|
binomial | (link = “logit”) |
标签:
r语言实战置换检验重抽样自助法boot |
分类: R |
双样本均值检验的时候,假设检验的方法就是,检查正态性、独立性、方差齐性,分别对应的参数非参数方法进行假设检验,但是,这些方法都要求样本数必须有多少多少,但是,由于试验时,各种条件的限制,导致样本量过小,此时以上方法几乎都会失真,置换检验就应运而生了。
Permutation test 置换检验是Fisher于20世纪30年代提出的一种基于大量计算 (computationally
intensive),利用样本数据的全(或随机)排列,进行统计推断的方法,因其对总体分布自由,应用较为广泛,特别适用于总体分布未知的小样本资料,以及某些难以用常规方法分析资料的假设检验问题。在具体使用上它和Bootstrap
Methods类似,通过对样本进行顺序上的置换,重新计算统计检验量,构造经验分布,然后在此基础上求出P-value进行推断。
置换检验的操作方法:假设有两组待检数据,A组有m个数据,B组有n个数据,均值差为d0,现把所有数据放在一起进行随机抽取,抽出m个放入A组,剩下n个放入B组,计算A、B两组的均值差记为d1,再放在一起进行随机重抽m、n两组,得到均值差记为d2,重复这个步骤k次得到(d3……dk),于是d1……dk可以画出一张正态图
标签:
r语言实战功效样本量pwr |
分类: R |
功效及样本量在概率论与数理统计的假设检验部分里面有说明,可以返回查看原理,这里以R语言实战的描述简单复习一下。
以书中例子说明,两组玩手机开车试验,它们的统计量应该是双总体,标准差未知的配对t检验,所以,若它们没有什么区别,则零假设为它们的反应时间之差为0,所以实际统计量应该是
标签:
r语言实战方差分析协方差anova多元方差 |
分类: R |
组间因子,组内因子,水平:组间因子和组同因子的区别是,组间因子对所有测试对象进行分组,而组内因子则把所有测试对象归为同一组,水平则是因子的分类值
单因素方差分析,多因素方差分析,协方差分析,多元方差分析,协变量:单因素,多因素都是一元方差分析,只有一个因变量(y),协方差分析也是,多元就是有多个因变量,协变量的意思其实就是不感兴趣或不能控制的变量,把它从自变量(可控制变量)中剔除出去的变量,它代表着每个测试对象的某些初始状态。
均衡设计,非均衡设计:分组时,各组的观测数若相同,则为均衡设计,否则为非均衡设计。
下面看两个图表,代表的是因子数、协变量、因变量的数目不同时,方差的叫法不同,以及一个书上的例子。
http://img.blog.csdn.net/20161230160151997?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5u
标签:
r语言实战回归岭回归多重共线异方差 |
分类: R |
首先,是之前的文章,数理统计里面的简单回归分析,这里简单回顾一下:
简单回归分析的原理:最小二乘法,即使回归函数与实际值之差的平方和最小。所以它在R中也称为OLS模型,它能实现的回归分析为简单线性回归、多项式回归以及多元线性回归。
模型中的称谓:自变量、解释变量及预测变量为x,因变量、结果变量、效标变量及预测响应变量为y,用x,y解释对我们从小就学习y=a+bx的人来说是最容易理解不过了。
使用OLS的前提条件:正态性(对于固定的x,y呈正态分布);独立性(各个y值之间独立);线性(y和x是线性关系,这也是简单回归分析需要先做相关性检验);同方差性(y的方差不变,不会因为x的水平不同而改变,意思即为,y是观察值,它应该是不会随机某个变量的改变而拿到我们的观察值跟着变化的)。
然后是在R中的实现,R中实现OLS很简单,就一个函数lm(),其使用方法为:fit<-lm(formula,data),其中formula表达式的的形式为:Y~X1+X2+X3……+Xk,~左边为响应变量,右边为预测变量。对这个表达式,还有一个表来说明它的使