标签:
杂谈 |
看名字就知道,“Guess the correlation”是一个猜相关系数的游戏。
有的人一定在想,wtf?这什么鬼?相关系数是啥?
我最开始也是这个想法,不过当我打开那个游戏网页的时候,我好像打开了一个新世界的大门,就像当初我打开了2048、Hex FRVR这些游戏一样,玩起来根本停不下来。
首先介绍下这个游戏,左边一张相关图,然后右边就是简单的猜相关系数,从0-1填写内容,保留两位有效数字。
点击guess之后,你会得到正确的结果,会出现三种情况:
1. 误差≥0.10,那么掉1点血;
2. 0.05<误差<0.10,加1分;
3. 误差≤0.05,恢复1点血,加5分。
首先要说的是,这不是一个随便的游戏,你想玩它,要先了解什么是相关系数。这里提到的相关系数,全名为“皮尔逊相关系数”。
皮尔逊相关系数的变化范围为-1到1。 系数的值为1意味着X和Y可以很好的由直线方程来描述,所有的数据点都很好的落在一条直线上,且Y随着X的增加而增加。系数的值为-1意味着所有的数据点都落在直线上,且Y随着X的增加而减少。系数的值为0意味着两个变量之间没有线性关系。
计算公式:
http://1.im.guokr.com/G4tOxxFaZ-mpfZBTQZXXn5xReWoAxJe8ATRx4JJPCM8EAgAAOAAAAFBO.png
好我们忽略上面这步。
图片来自wikipedia
从图上我们可以看到,当相关图上的点,越密集、越靠近于一条线上的时候,它们的相关性就越强。根据相关系数来规定相关性的强弱。
http://3.im.guokr.com/s_hnzfJRnomdNqfYT_aW6gkdlCadBj4EIlTEH1wBZA7oAQAAIgEAAEpQ.jpg
道理都懂,那么如何才能准确、高效的猜出游戏中相关图的相关系数呢?分享一个我的套路。
1. 观察相关图上点的分布情况,哪里密集,哪里疏松;
2. 判断相关性强弱,是否可以大体拟合到一条直线上;
3. 根据强、弱相关性的定义来给相关图规定一个猜测的区间;
4. 猜!
如下面这个图:
http://3.im.guokr.com/3rW4f--YwyvqmBzlly0c0i_n4CwuEceSQRlXoulNpFRSAwAABgMAAEpQ.jpg
1. 点较分散,大多点集中在y=x附近;
2. 其相关性约为中、强相关;
3. 给定一个可行区间:[0.4, 0.6]
另外,其实误差在0.05范围内都可以加高分,所以没必要才后面的第二位小数。所以规定好区间后,猜0.x0、0.x5这种就好了。
其他栗子:
栗子1:
http://1.im.guokr.com/1_VHQ8Dp7M8nOtSNFePvc7Wbl1H-SiQUKk9r5sDUJ6pIAwAAHgMAAEpQ.jpg
1. 点分散,集中区域左上;
2. 不能很好的想象出一条直线进行拟合;
3. 基本gg———>0
栗子2:
1. 点密集;
2. 明显集中在y=x附近,强相关;
3. 猜测区域:[0.7, 0.9]
栗子3:
http://3.im.guokr.com/7jRZOort8msFG1-EkIA53Pr1vvbta1uX_s7W3-YvCqs0AwAAEAMAAEpQ.jpg
………………1!
栗子4:
http://2.im.guokr.com/VLY_QKLfjwyo9n7VI6lO0gNgR94JZ3keSzUkq0IA4ylQAwAA5gIAAEpQ.jpg
1. 点集中在中央;
2. 隐约可以想象出一条直线拟合,中强相关;
3. 相关性区间:[0.4, 0.6]
栗子5:
http://1.im.guokr.com/5c_AAzsRdXnIeNyDbvLljhjgg5ECT4ZPkdohGk1097BUAwAAFgMAAEpQ.jpg
1. 点分散;
2. 无法想象出拟合线;
3. 相关性区间:[0, 0.2]
当然,如果你是实验狗,那么当我没说-。-
另外,最高分两千多……