叙述性统计(DescriptiveStatistics)

分类: R基礎 |
叙述性统计 (Descriptive Statistics)
1. 使用时机: 拿到数据时,对数据的某些基本特征进行分析了解。
2. 分析类型: 数据基本特性分析。
3. 数据范例: 咪路调查淡水河口弹涂鱼的体长(cm),资料如下:
4. 输入数据放进R的基本数据结构:
步骤: 用小c将数据放入名称为len的vector (R最基本数据结构)。
5. 数据的最大值、最小值及范围(maximum, minimum and Range):
步骤: 使用基础模块(base)的max、min及range函数。
max(len)
[1]
17.3
min(len)
[1]
10.7
range(len)
[1] 10.7
17.3
6. 资料的平均值、中数、众数(Measure of central tendency: mean, median, mode)
步骤一: 使用基础模块(base)的mean及median函数。
mean(len)
[1]
14.51538
median(len)
[1]
14.6
第一步: 安装modeest程序套件。
help(mfv)
mfv(len)
[1] 12.9 13.9
14.3 14.6 14.8 15.4 15.5
7. 资料的四分位数(Quartiles and the Interquartile range (IQR)):
步骤: 使用基础模块(base)的quantile及IQR函数。
quantile(len)
10.700
[1]
1.575
8. 数据的变异数、标准偏差及标准误差(variance, standard deviation, standard error):
步骤一: 使用基础模块(base)的var及sd函数。
var(len)
[1]
2.109354
sd(len)
[1]
1.452361
sem <- sd(len)/sqrt(length(len))
sem
[1] 0.2848315
# sqrt函数功能为开方(根号) 。
# length函数功能为取得len中数据个数(样本数) 。
步骤三: 计算平均值的95%信赖区间(95% confidence intervals of the mean)。
ci95 <- c(mean(len) - 1.96 * sem, mean(len) + 1.96 * sem)
ci95
[1] 13.95711
15.07365
CV <- (sd(len) / mean(len)) * 100
CV
[1] 10.00567
9. 绝对中位差(median absolute deviation; MAD):
步骤: 使用基础模块(base)的mad函数。
mad(len)
[1] 1.26021
10. 资料总整理:
步骤: 使用基础模块(base)的summary函数。
summary(len)
11. 画图看数据分布方法一:
dat <- data.frame(Len, Fish)
http://s9/mw690/0078lazCzy7krqiCw0E18&690
12. 画图看数据分布方法二:
dat <- data.frame(Len, Fish)
gghistogram(dat, x = "Len", bins = 9, add = "mean")
http://s6/mw690/0078lazCzy7krqkVXJre5&690
第五步: 使用ggpubr程序套件的ggecdf画累加曲线(Empirical cumulative distribution curve)。
ggecdf(dat, x = "Len")
http://s15/mw690/0078lazCzy7krqmcezs4e&690
来劲了吗? 想知道更多?? 补充资料(链接):
1. Mean (https://en.wikipedia.org/wiki/Mean)
2. Median (https://en.wikipedia.org/wiki/Median)
3. Mode (https://en.wikipedia.org/wiki/Mode_(statistics))
4. Variance (https://en.wikipedia.org/wiki/Variance)
5. Standard deviation (https://en.wikipedia.org/wiki/Standard_deviation)
6. Standard error (https://en.wikipedia.org/wiki/Standard_error)
7. Coefficient of variation (https://en.wikipedia.org/wiki/Coefficient_of_variation)
8. Quantile (https://en.wikipedia.org/wiki/Quantile)
9. Box plot (https://en.wikipedia.org/wiki/Box_plot)
10. Confidence interval (https://en.wikipedia.org/wiki/Confidence_interval)
11. Median absolute deviation (https://en.wikipedia.org/wiki/Median_absolute_deviation)
12. Empirical distribution function (https://en.wikipedia.org/wiki/Empirical_distribution_function)
13. 关于R基础,R绘图及统计快速入门:
14. Zar, JH. 2010. Biostatistical Analysis, Fifth Edition, Pearson.