加载中…
个人资料
拾史释世拭视时势
拾史释世拭视时势
  • 博客等级:
  • 博客积分:0
  • 博客访问:6,823
  • 关注人气:6
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
分类
评论
加载中…
留言
加载中…
访客
加载中…
搜博主文章
博文
(2015-01-28 10:49)
一个小组的头二名,在决赛中相遇,好大的缘分啊。
从预测的角度看,这是最有意思的数据了,说什么也不能放过。

首先,让我们分析一下,这二个队上次相遇后,数据有何发生变化?
韩国队:依然未失一球,防守能力,所有队中的最好;90分钟内,二场进了二球,进攻能力应该说并不太足。
澳大利亚队:未失一球,防守数据更好;90分钟内,每场都进了二球,进攻能力所有队中的最强。

韩国队似乎没有什么更多的有利因素了。反到是澳大利亚队让人们重拾起几条优势:主场,失利的教训,进攻能力。

重新测算了一下二个队的相互能力。这二个队预期的进球数分别为:分别为0.64和0.32,与上一次的比率关系并没有变化(请看前面的博文)。
应该说,主场优势、进攻能力,一切都已经包含在数据中了。不应该反复强调。
二队90分钟内最大的可能性还是踢平(46%的机会);但韩国队的胜率还是澳大利亚队的二倍,1:0的获胜机会还有25%的机会(获胜机会大概有38%),所以一切真的看二队的发挥了。

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
8强赛中,4场结果大致对了三个,日本对阿联酋的比赛真是大跌眼镜。但想来那些专家方法也是如此吧?
虽然四强赛多了一轮数据,但数据如何调整却犯了难。时间有点紧,现有的数据未经过论证,就算是尝试一下新的方法吧。

还是只预测90分钟内的比赛结果。
韩国和伊拉克的期望进球数分别为0.98和0.33,所以,韩国与伊拉克90分钟内踢平的可能性比较大,但另一个概率比较大的分数是1:0,它同样有着26%的可能性。按统计的测算来看最大的可能性是0:0;但如果加入点情感 还是觉得1:0更可能一些。
澳大利亚与阿联酋的期望进球数差得比较多一些5.6和1.4,这样,澳大利亚与阿联酋的比赛最大的可能性就是踢成大比分了。

所以,决赛很有可能韩国与澳大利亚再踢一回了。
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
上二场比分预测完后,看到无人捧场,就无心再发后续的结果了。
但昨晚看到比赛的结果后,对预测的效果很兴奋,就鼓励自己再把后续的预测记录下来,作为后续的证明。

日本对阿联酋的比赛,90分钟内的最大可能比分是2:0,该比分发生的概率是15%;
伊朗对伊拉克的比赛,90分钟内的最大可能比分是0:0,(后续比赛还是伊朗胜的面大),该比分发生的概率是60%。

1/2决赛,相对于前面数据又多了一轮,预测有了更多的依据。再想想如何设计这时的模型。
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

这是一种比较简单的方法。用世界杯的结果回测看起来也还行。

从各家自己的透露的方法来看,百度、微软及其它几家在世界杯中使用的方法大多都同ESPN的方法差不多(ESPN指数方法)。这种方法不仅考虑球队的相对成绩,还要考虑每个人的能力。但这种引用计算能力的方法,常常带来杀敌一千自损2000的效果,真看不出来是否有效。

分析家们非常喜欢使用各队的历史数据。但从中超的数据分析中感到,历史数据真的应该看轻些。任何圈子里总是只闻新人笑,那管故人哭。王大雷说的对,“打澳洲,历史战绩占优没意义,比赛还是要认真去准备”。

从二个小组赛中得到相互之间的数据是:

韩国与乌兹别克的进球期望值分别是:0.65,0.34;90分钟内最可能的比分是0:0,打平的概率是37%,(当然是韩国胜的面大)

中国与澳大利亚的进球期望值分别是:1.05,3.08;90分钟内最可能的比分是1:3,中国队输的概率是76%,还有挺大可能是平局(所以,中国队在加练点球)

但胜负不是靠预测出来的,而是靠争取的,更何况胜负都有可能。我们还是要为中国队加油。


阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

也许,推崇大数据就得批判抽样。那么,在人口统计问题中就先看看抽样问题。多年来,我国每年都做人口抽样调查工作。一般是选取人口总数的千分之一左右做为抽样调查一番。这一工作肯定会有误差,看到天津的一份说明描述,他们的误差大概不到千分之0.5。那么实际效果如何?

 

1)  抽样误差可能有多大?

前些日子,许多人非常关注婴儿比例失调问题,有的人认为这会给社会带来潜在的问题。为了了解婴儿性别比例失调的问题,并验证这一数字的准确性,我们分别从2012年(这是当前能得到的最近的数字),2007年年龄数字分布中找到数据:

 

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

写这个题目就意味着山东鲁能实力占优,也就是想为江苏舜天找回点场子的意思。

眼下中超排名已经说明了这一点,表明山东鲁能占了绝大部分的优势。剩下的优势也只能从剩下的角度看一看了,找点冷门啥的。不服气者写过好多文章,有说要为中国教练争口气的,也有说山东鲁能对阵江苏舜天三年多无一胜绩。这些也许有一定道理,还有什么道理呢?

 

对中超分析了整个赛季,可以说数据就在手中。也就觉得应该说点。

首先,我们说对阵史不足为凭(对此,大多数人也许持怀疑态度)。我们不说曼联现状,我们不用举阿尔滨降级的例子。我们只说今年恒大队中超二次败于长春亚泰,难道就能下结论下次恒大队遇到长春亚泰就是输的面大?所以,鲁能凶猛的进攻并不会畏惧以前不胜的数据描述。那么,江苏舜天除了这嘴上说一说的优势,还有什么优势呢?

我们来看防守能力。在进攻能力上,山东鲁能与江苏舜天相比优势太大了。相比之下,防守能力,江苏舜天与山东鲁能还接近一些。所以,江苏舜天首先要抓好防守才有希望。这当然是大家都明白的道理。从以往的阵形上看,江苏的防守拉的比较长,这对于山东的穿透性的进攻特点是合适的。在前面顶住传球的人

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
(2014-10-25 15:04)
前些日子,篮球解说大神杨毅写的博文中,对CBA的数据表露了很深的怨念(“数据时代的大学生U联赛)。
“CBA联赛的数据统计多年来以差闻名,错误百出,根本无法作为专业性分析的依据。”他说得挺有道理。今年在分析中超比赛数据的时候,本也想看看CBA的数据,一看才发现没法下手,搞搞NBA的数据还容易些。

昨天,虎朴篮球论坛中,federersfan 翻译了一段ESPN有关篮球正负值的文章(“篮球数据的“明日之星”:真实正负值(RPM)”),RPM对评价球员的表现
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
标签:

数据分析

预测

我们中国人常说“别把话说死,别把事做绝”,这体现了我们评价时的倾向性,话说死了不好。但在预测中,自信的人更容易有吸引力一些。
在预测中,人们会有二种风格。比如,预测股票,有些人会说,“明天大盘一定会跌1%以上”,而喜欢说得活一点的会说“大盘向下的可能性挺大”。听的人还是觉得预测者们话说的死一些更容易把握他的意思。
又比如,新浪体育与腾讯体育在预测中超足球比分时容易喜欢说”XX队不败“,这体现出了预测者对结果把握不定的心态;而搜狐体育的预测一般比较干脆,直接说出胜负平中的一种。
当然,这只是结果预测描述的差异。拿中超结果预测来说,每场比赛,所有队胜、负、平都有一定的机会,大家对机会的理解大多时候都差不多、并不象想像的那么大差异,差别只在于思考的方式上。

说话是说死还是说活,这只是表现的技巧,更大的差异是思考中的认死理还是认活理。
”认死理“只是一种有些贬义的描述。实际中,这些人会喜欢抓住事物的本质,愿意一击即中。他们凭借着本能,善于反应出第一印象,根据些许蛛丝马迹,见叶知秋,因而常有大的斩获。他们并不是浮光掠影、浅尝辄止,反而
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

在考虑比赛的胜负时,首要考虑的是足球基本面各方面因素。一个好的预测模型或者一个好的预测专家似乎也应该把这些方面考虑到。那么应该如何判断和运用各方面因素呢?

1)胜负排名(不用解释)

2)球队心理状态

 我把球队关系等各方面环境因素都归于其中。这种状态有好多方面的原因,但很难描述清楚。更衣室不和的消息大多是以小道消息的方式传出,很难定性(更不要说定量了)。但诸如积分排名的影响是很明显的,球队能拿出什么状态似乎也有参考依据可判断的,但这些落实到数字上很难确切,范围显得特别大。实际上的效果是,当二队实力差距比较大时,结果很难判断;只有实力非常接近时,才可适当考虑。

3)近来状况的变化

状况稳定时,应该说球队的状况同排名一致。只有状况变化时,才应该考虑最近的战绩是否会带来长期的影响。考虑状况的变化,实际上是检查现有数据有效程度与范围。过去的数据需要适当退火,而新数据赋予更大的权重。但这个变化区间并不是一成不变的,所以才有考虑近期状况是否变化的说法。

4)交战历史

交战历史,所有球类比赛、所有预测专家似乎都非常看重。我从数据的观察中得到的体会是,

阅读  ┆ 评论  ┆ 转载 ┆ 收藏 

女排在世界排球锦标赛中进入决赛,发挥不错,引来一片赞誉。这些年人们已经习惯女排输球了,有了好成绩大家当然高兴。

纵观世锦赛成绩,上一次进入决赛还是16年前,那次也是郎平教练。所以,人们说郎指导给女排世锦赛带来好运。

中国队成绩
阅读  ┆ 评论  ┆ 转载 ┆ 收藏 
  

新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

新浪公司 版权所有