《统计学》读书笔记
(2016-06-02 17:19:02)分类: 12杨迪/10寒宵/07余琪 |
本书由三位统计学专家共同著作。
本书首先回答什么是统计学?
统计学是描述现象,解释现象以及预测未来的工具;是通过样本反应总体的工具。
统计学中总体包括有限总体和无限总体。
抽取好样本的核心要义在于精度和调查成本的协同。
抽样种类包括:概率抽样、简单随机抽样(随机化程序)、分层抽样、系统抽样(r+k,r+2k)。
而非概率抽样包括了方便抽样以及判断抽样。
由于现实原因,数据收集时抽样误差不可避免,因此样本结果与总体真值会有误差,样本量越大,抽样误差越小。而非抽样误差是可避免的,其中包括调查问卷设计误差、回答误差、理解误差等。
数据展示是统计学展现给读者的界面。其中包括条形图、饼图、环形图、直方图(面积;数值型数据)、茎叶图、箱线图(数据分布)、线图。多变量数据图示还可采用散点图、气泡图、雷达图。
数据概括性度量是其中数据处理核心。
概括度量包括集中趋势,常用众数(最多)、中位数(排序中间)、四分位数、平均数(简单平均;加权平均)等数统计。
离散程度包括异众比例(非众数比例)、四分位差(数据越小,说明中间数据越集中)、极差(最大减最小)、平均差(各变量与平均数相差绝对值平均数)、方差(运用最广测量离散的系数)、标准差。
概率与概率分布是统计学准确性和概括性的核心。其中的正态分布是统计学的研究基石。整体分布代表着经验型现实分布,如身高等,以平均质量为中心上下摆动的现实经验在统计学图形上的表现。正态分布是后面很多概念的一个经验性的基础。
英国学者费希尔把抽样分布、参数估计、假设验证
参数估计是样本概括总体的关键步骤,
一元线性回归作为研究两个变量的关系的统计学经典方法,常被用于地理学及城市规划中。核心在于将不确定的数量关系的相关关系表达。
相关关系要解决的问题有以下四个:
1.变量间是否存在关系?2.如果有,存在什么样的关系?3.关系强度?4.样本关系能否代表总体变量关系?
对于第一个问题1.变量间是否存在关系?常用相关系数(Pearson相关系数)进行验证。同时利用显著性检验来考察样本相关系数可靠性。
对于第二个问题用一元线性回归模型解决,回归模型的实际概念是最小二乘估计。
对于第三个问题关系强度?利用判定系数R2判定。
最后进行模型检验,包括线性关系检验(检验能否用线性关系表示);回归系数检验(检验自变量对因变量是否有影响)以及残差检验。
建立回归模型的目的在于预测未来,从而为人们的判断提供信息。包括点预测及区间预测。
指数作为无量纲化工具常常被用于城市研究。
指数分类包括个体指数、总体指数。数量指数、质量指数。简单指数、加权指数。常用加权方法包括利用已有数据加权:如零售价格指数,以及主观加权:指数编制人员主观决定(专家打分法)。