佳文共赏:
寸草报晖:法晚预测一本线(2012-06-21
20:02:11)
晨雾 / 转贴
【晨雾按语】昨天(6月20日)晨雾转帖了《法制晚报预测北京一本线文516分理485分》。在文章后面从影响一本线的几个因素以及高招基本常识角度写了点评。由于法晚的预测过程实际到概率统计学。晨雾在最后一条点评写到:“晨雾特别希望我们2012家长中的优秀专家“寸草报晖”能给与评论”。对于“寸草报晖”,我们2012家长应当已经十分熟悉了。她今年采用数据、图表的分析方式为2012家长提供了大量的帮助。今天晚上,晨雾果然看到了寸草报晖对法晚预测写出了十分专业的评论文章。晨雾转帖如下。
---------------------------------------------------------
一本线的预测,版本很多,寸草比较喜欢
晨雾老师 和
春来茶馆
庆姐的预测,还有E度论坛上各位有才网友的预测,他们从各自不同角度出发,在自己所了解的情况、掌握的信息范围内采用不尽相同的方法来预测,不管最终结果是否符合实际,都能引起家长的共鸣和讨论,为高考战壕里的战友们提高参考,陪家长走过这难熬的一段时间。
晨雾老师偏理性,考虑各种因素,征集考生预估,相信数据;庆姐偏感性,直觉更强;论坛里的才友们,方法更是多样,甚至于还有信息来源。寸草觉得,偏理性偏感性都行,这些预测者都是考虑了许多关键因素的,只不过侧重点不同所获信息不同罢了,相应的群体都能从中得到启发和参考。如果预测和实际差在正负5分内,就算很准了。
不过今年法晚出的这个根据统计数据的预测,寸草觉得意义不大。无意义在以下几点:
首先,这个预测抛开了影响一本线的主要关键直接变量,而是避重就轻选取了一个连次要都不算的衍生出来的非直接变量进行分析,从而预测。
寸草想法,一本线的划定取决于两个数据,一个是考生分数分布,一个是一批次计划录取人数(含预定的提档比例)。如果有了这两个数据,任何人都可以划出一本线。反过来说,只给出其中一个数据,想必谁也无法划定。可是法晚记者有办法,用了一个新鲜的估计绝大多数人都看不懂的统计方法,建了个数据模型,就可以预估一本线了。如果真是这样,我可以更大胆些,根据近些年北京生源人数变化、高校在京扩招缩招趋势,预测高校在京计划录取人数,推测理科实际录取人数或文科扩招比例,从而进一步提前预测北京一本线,明年后年的,就这么定了。估计没人答应。
扩展开来,决定一本线的这两个数据,又都有其影响因素。影响考生分数分布的最主要因素是命题难度(含区分度及难度线性,又受判卷松紧度影响),其它因素还有报考人数(又受弃考人数影响)、照顾加分人数及其分布等;一批计划录取人数,在制定前,高校就考虑了考生人数及整体水平变化做了相应调整。预定的划线比例,则会考虑提前批影响、一批高校提档比例、考生放弃录取情况等。晨雾老师和庆姐以及才友们的预测,都考虑了这些因素,只不过这些因素有些对一本线影响很小,忽略而已。
法晚记者抛开了这些影响因素,特别是命题难度(含区分度)这个最重要因素,别出心裁在理科实际录取人数(文科在扩招比例)上做文章,舍本逐末,看起来怪别扭的。
要说理科实际录取人数(文科扩招比例)与一本线有点关系没有,在分数分布确定后,远点也能扯上,不过肯定不是“息息相关”。怎么说呢,这两个参数本来就是计划录取人数和实际提档情况衍生出来的,实际提档情况又有很多次级影响因素,本来都不很稳定,文科的扩招比例更是经过了再次换算衍生,用这样的变量来做统计,在我们日常工作中是觉得不可行的,也许只有记者才有这种创意,。
其次,退一步,就算我们默认了记者的创意,看看记者的分析是否靠谱。先声明一下,寸草不是学统计的,统计这个深奥的概念只是在工作中偶有简单的应用。工作中的经验,记者的分析有几个问题。一是统计样本严重不足,只取了08年以来近四年的数据。想做这方面分析,记者手里肯定有库存,08年以前的数据肯定有,没有的话也必然能找到。为什么不加上呢?我看了一下哈,如果记者加上07年以前的数据,就没法建模了,因为07年以前的一本线起伏波动很大,要做一个回归方程的话,看不出来相关性,统计意义就没有了。比如05、06、07年的理科一本线分别是470、528、531,到08年是502,这种离散程度,怕记者也看不过去。二是即使用这四年的数据,标准差也很大;三是概率保证,要保证置信程度,该保证概率通常情况下选取为95%(显著性水平为0.05),记者选为85%,大大降低了可信度;四是模型拟合优度,如果在四个数据的情况下,该优度大于95%才可认为统计有意义;五是一个模型,如果有意义,文理应该能兼顾,顶多也就是微调而已。综合这些,如果严肃点,记者的模型是毫无意义的。如果要是一笑而已,那牵强附会也就罢了。
再次,再退一步,就算默认记者的这个模型有意义,也过不了“检验”这一关。说老实话,记者这个模型我没太看懂。(理科:y理=0.5874-0.62×x-0.9424×x2-0.46×x3;文科:y文=0.8574-1.395×z-0.776×z2+1.367×z3;一本线估计值=y×标准差+平均值;辅助说明注:x为实际录取率,y为标准化之后的一本线分数,z为一本扩招人数占招生计划的比例。)那两个多项式,不知道记者是不是建了回归方程,我套用了公示的好几组数据,都没有得出该三次多项式,没猜出来记者是用那两组数据建的,还是记者有所保留了。粗估一下,这两个多项公式,算出来的
Y 值是个小于1的正值,随 X 和 Z
不同,结果都在0.4以内,套在“一本线估计值=y×标准差+平均值”里,得出了的每年一本线估计值非常接近,和已有实际误差比较大,比如11年比实际高了8.4分。那这个误差是比较大的,可信度不高。由于没能深刻理解记者的深奥模型,所以以上套用也可能不准确。
再再退一步,预测就预测了呗,还信心不足,再和晨雾老师预测的数据“根据近年预测的标准差为权重加权平均”,实际上也就是做了个算术平均,多没必要啊。
说了这么多,以寸草愚见,法晚这种预测纯属数字游戏,毫无意义。万一靠谱,也属巧合。不信法晚明年还会套用这个模型。
如果法晚真想认真预测的话,还不如好好分析命题难度等那几个关键因素,像晨雾老师一样收集考生估分样本,在样本合理的情况下,建个模型或许还有点意义。
最最后,更正法晚的一个错误:“与往年相比,今年录取率将“文升理降”。一本、二本、三本中,预计文科录取率为74%,比去年增长近4个百分点;理科录取率为83%,比去年有所降低”。这句话中,文理74%、83%这个录取率不是一本、二本、三本的总计录取率,实际本科录取率没那么高,这是含了专科录取的。
寸草不才,粗浅看法,也博人一笑。反正后天就出分了,真相就要大白了。
愿孩子们在在端午佳节,人人糕棕!
信息来源:2012-06-21
新浪博客 寸草报晖的BLOG
http://blog.sina.com.cn/s/blog_7c28c91b01015lwv.html
加载中,请稍候......