在世界杯的球迷狂欢中另辟蹊径——微软大数据预测哪支球队将问鼎最终冠军?

标签:
世界杯结果预测david微软研究院 |
分类: 技术 |
编者按:6月13日,2014巴西世界杯开幕,足球将陪伴球迷们度过这个夏天!享受看球过程,也期待最终结果——冠军终将属于谁?微软研究员兼经济学家David Rothschild结合基础赛事数据和预测市场的数据,暂定巴西队夺冠呼声最高。但随着比赛开始以及更多新数据的产生,是否会有变数呢?
文章译自:Seeking Answers amid World Cup Excitement
微软研究院研究员兼经济学家David Rothschild
想必对许多关注微软研究院动态的读者来说,David Rothschild这个名字并不陌生。穿梭于大数据中,他曾预测过一些全球瞩目的公众事件的结果,拥有骄人的战绩,包括2012年美国总统大选(2012 U.S. presidential election)、2013年和2014年奥斯卡金像奖(2013 and 2014 Academy Awards)、2014年美国全国大学体育协会男子篮球巡回赛(2014 NCAA men’s basketball tournament)以及最近的印度大选(India’s general election)等。
那么,下一个能让他展示预测神力的大事件是什么?
当然是世界杯!它无疑已经成为地球上最受欢迎的体育赛事之一。
今年的东道主巴西曾获得过五次冠军,是目前为止获得冠军次数最多的国家,也是1930年首次开赛以来唯一参加过所有巡回赛的国家。在1930年的赛事中,32支男子国家队在巴西12个城市展开64场角逐——从6月12日巴西对克罗地亚第一场球赛开始,直至7月13日在里约热内卢的马拉卡纳体育场上演决赛的巅峰对决。
Rothschild将会密切关注今年的赛事变化,但他的兴趣点却稍微有别于大多数球迷的民族热情。对他来说,每一次预测以及由此作出的微调,都旨在改善越来越准确的预测模型——而这个模型的应用范围将远远不止于预测赛事。
“体育是非常可预测的,”他解释说:“但世界杯要特殊得多。在这一方面,它与政治更相似。一般而言,我们已经十分了解巴西队会如何对抗克罗地亚队,就好比我已经十分了解美国的共和党候选人会怎么对抗民主党候选人。但是,这其中的不确定性又要远高于纽约洋基队如何对抗西雅图水手队——因为后者之间对决的60多场棒球比赛的数据已经记录在案。
“话虽这么说,但随着时间的推移,我们会学到越来越多的方法,来获取我们所需的数据,以纯粹的数据方式来解答一个特质事件。”
眼下,Rothschild的模型与英国博彩交易所“Betfair”的模型有很多相似之处,后者还向Rothschild的模型提供了一些驱动数据。两个模型目前都认为巴西夺冠的可能性最大,这是考虑到东道国辉煌历史业绩之后的一个合理假设。
可是,一旦赛事启动,一切都可能随之改变。
“我已经创建了一个完整的模型,”Rothschild解释说:“但我在很大程度上依赖于预测市场的数据。原因很简单:纯粹基本模型的问题是——即使是最好的基本模型也缺乏数据,因为世界杯每四年才举行一次,而且没有任何常规赛。其中有很多特质是难以从历史数据集中捕捉到的。
“基础数据和预测市场数据都将随着世界杯的进展而更新。这些预测每隔几分钟就会更新一次,而且我也会公布所有场次的赛前预测。”
从体育的角度上看,世界杯的特殊性将会有助于加强和扩展Rothschild的模型。
“通常情况下,体育季后赛实际上并不能在很大程度上更新预测。队伍已经参加了长时间的常规赛,而一支队伍在任何特定的季后赛中的比赛方式并不能提供太多新的、有意义的信息。”他解释说:“但世界杯并不是这样,它没有常规赛,所以每场比赛都能告诉我很多信息,而且比赛持续时间较长,意味着我可以在每场比赛之后慎重地更新,更不用说在比赛期间了。”
“虽然在球迷眼中,世界杯期间贯穿的主题是乐趣,但这并不会影响我们的研究方法:为正确的问题提供准确、量化、实时更新的统计数据。”
运动可以为数以百万计的人提供工作之余的闲暇娱乐,甚至有时结果充满了戏剧性——例如在1990年,当时名不见经传的喀麦隆雄狮队首场比赛击败了卫冕冠军阿根廷队,让整个世界大跌眼镜。但对于Rothschild而言,最终的结果仅仅意味着自己距离目标又接近了一步——他要使用细粒度数据来预测任何领域的个体和总体结果。所以即便充满戏剧性,这样的比赛仍然是非常有用的。
“为数据收集和分析构建更通用的模型,体育赛事起着非常重要的作用,”他说:“如果你认识到棒球常规赛和世界杯比赛的巨大区别,就可以理解体育运动提供了各种各样的范例,帮助我们创建与具体领域无关的预测技术。”
“这项技术正在帮助我们回答一些比体育赛事更重大的问题,并将涵盖众多议题和数据类型。”
相关阅读