标签:
科学统计与义务教育 |
回“统计与中国义务教育(续)”
[215.3-1中位数Q2和四分位数Q1和Q3的计算]
计算四分位数有“差分法”,但没弄明白,或许就是以下算法。
经验上有“一对一”和“一对多”的区别。先讨论一对一的。这是实际在用的,不知是否符合“差分法”。
另外,这作为[215.4]等的启发,[215.4]等则作深化。
一对一:
中位数Q2计算有两种情况:
C=2n+1(奇数),取d=(C-1)/2(必是整数),Q2=sd+1。这时Q2是一点(某s);
C=2n(偶数),取d=int((C-1)/2),Q2=(sd+sd+1)/2。这时Q2不是一点(两点平均)。
按以上讨论中位数类推四分位数计算——在几何或物理上似无不可,有四种情况:
C=4n+1(如:1,12345,123456789,123456789ABCD)。这时Q1、Q2、Q3都是一点。d=(C-1)/4,则Q1=sd+1,Q2=s2d+1,Q3=s3d+1;Q0=s0d+1=s1,Q4=s4d+1=sk=sC;
以下d=int((C-1)/4)——以上d也是。
C=4n+2(如:123456)。这时Q1=3sd+1/4+sd+2/4,Q2=2s2d+1/4+2s2d+2/4=(S2d+1+S2d+2)/2,Q3=s3d+1/4+3s3d+2/4;
C=4n+3(如:1234567)。这时Q1=sd+1/2+sd+2/2,Q2=s2d+2,Q3=s3d+1/2+s3d+2/2;
C=4n+0(如:1234,12345678)。这时Q1=sd+1/4+3sd+2/4,Q2=2s2d+1/4+2s2d+2/4=(Sd+1+Sd+2)/2,Q3=3s3d+1/4+s3d+2/4。
Excel函数,v是涉及的所有取值:quartile(v,0)=min(v), quartile(v,1), quartile(v,2)= median(v), quartile(v,3), quartile(v,4)=max(v)。
一对多:
如上讨论的“一对一”仅一个表(的一个数值类型字段)。“一对多”如:以一套房总价计(1套房计1)还是以每平方米单价计(每平方米计1,一套房对应多个平方米)。这就有以套房计的房价和以每平方米单价计的房价——这是讨论S和A,s和a(更多以下讨论)的不同。
如:以学校校舍面积计(1校计1,校际差异)还是以生均校舍面积(1生计1,生际差异)——从讨论每位学生实际享受待遇(办学条件)来说,当以“1生计 1”来讨论中位数(分别有一半学生在该水平以上和以下)和四分位数等。但校舍面积只能按学校(而不能按学生)测量、统计,而一所学校有多个学生(一对多)——不像学生的身高、体重、视力(一对一)。
“1校计1”的中位数是按学校数说有一半(半数)学校的学生在该水平以上和以下,但这“一半学校”的学生未必对应“一半学生”——“讨论每位学生实际享受待遇”,而“一半学校”可能只有占学生总数40%甚至30%等的学生,另“一半学校”则相应有60%或70%等的学生。
这时,计学生总数为S,按生均校舍面积(含学校)排序,自小到大累计学生数s,当s=S/4、S/2、3S/4(这总有,按四舍五入取整。对应的学生不是一人而是这个学校)时对应(学校的)生均校舍面积就是所求(“讨论每位学生实际享受待遇”), 所对应学校就是这样待遇学校的代表(这不一定都有意义)。
如果(在如上)累计学生数的同时累加学校(数或面积,累加学校数计算“校均学生数”),就得到对应四组包含的学校数(不一定是整数)——这里没有直接意义,但可讨论诸如“80%的学生在30%的学校(数或面积)就读”(等价“30%的学校(数或面积)有80%的学生就读”)一类。
可注意到“一对多”包含“一对一”。如上例改为:计学校总数为C,按学校校舍面积排序自小到大累计学校数c,当c=C/4、C/2、3C/4时对应的学校就是各四分位数——如果正是整数的话,不是整数则也如“一对一”讨论的那样的处理。
这样的“一对多”累计学生、学校、校舍面积以及计算s=S/4等方法在以下讨论中用到。而且未必要s=S/4而可“任意”(如s/S=20%),另外,不必是对应学校的校舍面积和生均校舍面积而可以是学校数和校均学生数等。
就“一对多”来说,C/4等对应的不是一个点(学生),而是一个区间(一个学校、县的学生)。这可以理解。但对将讨论的“20%”等计来说,不能或者计入该区间或者不计,而要拆分该区间,以部分计入。

加载中…