IBM一些不明白的地方和答案的收集 For大一【校友分享】
(2012-06-01 16:04:51)
标签:
宁波诺丁汉大学诺丁汉ibm大一商科商学院校园 |
分类: 学术分享 |
唐正 2011届
虽说大一孩子谈虎色变的IBM考试已经过去,
但是对一题得2分,错一题扣1分的批改方式还是弄得人心惶惶,不知挂科率又是多少。
这里分享唐正的IBM Notes,以备下一届新生未雨绸缪
IBM一些不明白的地方和答案的收集
来源:
Lecture 2:
1.
基数标量 (Nominal level measurement)
也可称为基数变量、名义变项。用基数变量来测量一个对象,其结果是给该对象贴上一个标签,以显示该对象属于哪个类别。例如,对一个气球的颜色进行测量,其可能的结果为红,黄,绿等不同的颜色类。同理,一个人的性别也是一个基数变量,因为该变量只能在‘男’或者‘女’中选值。
基数变量只能用来比较相等或者不相等,而不能比较大小,更不能用来进行四则算术运算。以性别为例,两个人的性别只能用相同与否来区分,而讨论‘谁的性别大’,或者‘两个人性别的和是多少’等问题是没有意义的。
在统计学中,一个基数变量的分布情况可以用众数和分散度(Statistical dispersion)来描述。
序数标量 (Ordinal level measurement)
也称序数变量、次序变项。序数变量也用来描述一个对象的类别,但与基数变量不同的是,序数变量的类别有一定的顺序或大小。序数变量之间除比较是否相等外,还可以比较大小。但是,加减乘除的运算仍然不能用在序数标量中。例如,一场比赛中选手的名次(第一,第二,第三等等)就是一个序数变量。我们可以比较两个选手的名次谁靠前,但我们不能比较第一名和第二名的差距比第二名和第三名的差距哪个更大。
序数变量的分布可以用众数和中位数来描述。
区间标量 (Interval level measurement)
也称等距变项。区间9变量具有序数变量所有的特性。除了能比较大小外,区间测量值之间的差别也可以比较大小。区间测量值可以相加和相减,其结果仍然有意义。另一方面,由于区间变量的零点可以任意取,所以乘法和除法运算的结果不唯一,因而是没有意义的。年份就是一个区间变量。
区间变量可以用众数,中位数或者算术平均值来描述。
比率标量 (Ratio level measurement)
也称比率变项。比率标量具有区间标量的所有特点,同时它也允许乘除运算。大多数物理量,如质量,长度或者能量等等都是比率标量。比率标量可以用众数,中位数,算术平均数和几何平均数来描述。
区间和比率标量有时一起被称作‘真测量’,尽管有人认为序数标量也具备‘真测量’的要素。但有一点毋庸置疑,就是只有区间和比率标量可以有计量单位(units of measurement)。
Lecture 3
1.
简单说:是为了保证估计的无偏性!
推到过程:
1.总体方差为σ2,均值为μ
S=[(X1-X)^2+(X2-X)^2....+(Xn-X)^2]/(n-1)
X表示样本均值=(X1+X2+...+Xn)/n
设A=(X1-X)^2+(X2-X)^2....+(Xn-X)^2
E(A)=E[(X1-X)^2+(X2-X)^2....+(Xn-X)^2]
=E[(X1)^2-2X*X1+X^2+(X2)^2-2X*X2+X^2+(X2-X)^2....+(Xn)^2-2X*Xn+X^2]
=E[(X1)^2+(X2)^2...+(Xn)^2+nX^2-2X*(X1+X2+...+Xn)]
=E[(X1)^2+(X2)^2...+(Xn)^2+nX^2-2X*(nX)]
=E[(X1)^2+(X2)^2...+(Xn)^2-nX^2]
而E(Xi)^2=D(Xi)+[E(Xi)]^2=σ2+μ2
E(X)^2=D(X)+[E(X)]^2=σ2/n+μ2
所以E(A)=E[(X1-X)^2+(X2-X)^2....+(Xn-X)^2]
=n(σ2+μ2)-n(σ2/n+μ2)
=(n-1)σ2
故为了保证样本方差的无偏性(即保证估计量的数学期望等于实际值,在此即要保证样本方差的期望等于总体方差),应取:
S=[(X1-X)^2+(X2-X)^2....+(Xn-X)^2]/(n-1)
从而保证:E(S)=E(A)/(n-1)=(n-1)σ2/(n-1)=σ2
2. Coefficient of Variance变异系数
在概率论和统计学中,变异系数(Coefficient of Variation),又称“离散系数”,是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比[1]:
变异系数只在平均值不为零时有定义,而且一般适用于平均值大于零的情况。变异系数也被称为标准离差率或单位风险。
变异系数只对由比率标量计算出来的数值有意义。举例来说,对于一个气温的分布,使用开尔文或摄氏度来计算的话并不会改变标准差的值,但是温度的平均值会改变,因此使用不同的温标的话得出的变异系数是不同的。也就是说,使用区间标量得到的变异系数是没有意义的。
变异系数与标准差
优点
比起标准差来,变异系数的好处是不需要参照数据的平均值。变异系数是一个无量纲量,因此在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。
缺陷
当平均值接近于0的时候,微小的扰动也会对变异系数产生巨大影响,因此造成精确度不足。
变异系数无法发展出类似于均值的置信区间的工具。
Lecture 3
1.
当人们尝试探究两种变量是否具有相关性的时候,比如新生录取率与性别,报酬与性别等,会分别对之进行分组研究。辛普森悖论是在这种研究中,在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方,会在总评中反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年E.H.辛普森在他发表的论文中,该现象才算正式被描述解释。后来就以他的名字命名该悖论。
请看下面的例子
一所美国高校的两个学院,分别是法学院和商学院,新学期招生。人们怀疑这两个学院有性别歧视。现作如下统计:
法学院
性别 |
录取 |
拒收 |
总数 |
录取比例 |
男生 |
8 |
45 |
53 |
15.1% |
女生 |
51 |
101 |
152 |
33.6% |
合计 |
59 |
146 |
205 |
|
商学院
性别 |
录取 |
拒收 |
总数 |
录取比例 |
男生 |
201 |
50 |
251 |
80.1% |
女生 |
92 |
9 |
101 |
91.1% |
合计 |
293 |
59 |
352 |
|
根据上面两个表格来看,女生在两个学院都被优先录取。即女生的录取比率较高。现在将两学院的数据汇总:
性别 |
录取 |
拒收 |
总数 |
录取比例 |
男生 |
209 |
95 |
304 |
68.8% |
女生 |
143 |
110 |
253 |
56.5% |
合计 |
352 |
205 |
557 |
|
在总评中,女生的录取比率反而比男生低.
就上述例子说,导致辛普森悖论有两个前提。
1. 两个分组的录取率相差很大,就是说法学院录取率很低,而商学院却很高。而同时两种性别的申请者分布比重相反。女性申请者的大部分分布在法学院,相反,男性申请者大部分分布于商学院。结果在数量上来说,拒收率高的法学院拒收了很多的女生,男生虽然有更高的拒收率,但被拒收的数量却相对不算多。而录取率很高的商学院录取了很多男生。使得最后汇总的时候,男生在数量上反而占优。
2. 有潜在因素影响着录取情况。就是说,性别并非是录取率高低的唯一因素,甚至可能是毫无影响的。至于在学院中出现的比率差,可能是随机事件。又或者是其他因素作用,比如入学成绩,却刚好出现这种录取比例,使人牵强误认为这是由性别差异而造成的。
为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时必需了解清楚情况,是否存在潜在因素,综合考虑。
2.
1、连续性数据譬如多少公斤,可以是1公斤,2公斤。在1和2公斤之间可以连续的用一个数值来表示的。譬如1.2345678……公斤。小数点后要多少位取决于您要用多少精度来决定的。
2、间断性数据也叫离散型数据,只能是一个个数值来表示的。中间没有办法连续起来的。譬如,1个2个。通常用于合格不合格,来了没有来,同意不同意……。统计得到的数据。
3、有时候,连续类型数据也可以转化为离散类型的数据。譬如,公斤、长度等是可以用连续类型数据表示的。当您规定了公差后,可以按照公差来判定合格不合格,变成离散类型的数据了。
4、有的离散类型数据也可以变化为连续类型的。譬如,合格不合格数量是离散的,但是,用百分比来表示的时候,又可以变成连续类型数据了。
Lecture 4
1. Null (Ho ) and Alternate Hypothesis
(H1)
http://www.doc88.com/p-096200767237.html
上面网址是中文PPt所在,私以为组织的比印度叔叔的好很多,看到第二遍的时候,完全摸不着头脑的正态分布和假设测定渐渐都懂了诶~