博弈论(4)——Best responses的应用 & 迭代的BR

标签:
博弈论杂谈 |
分类: 博弈论 |
以踢足球为例子作为博弈:
http://s3/mw690/737adf53h7b15c4d8dbd2&690responses的应用
射门的收益就是进球的概率,相反守门员就是其进球概率的相反数。
明显这个没有优势策略,只能用BEST RESPONSE的方法解决,以守门员向右扑的概率为x轴,看看收益的期望:
http://s16/mw690/737adf53hced9bb1f796f&690responses的应用
Lesson:Do not choose a strategy that is never a BR to any belief.
当然现实中考虑到角度和准确度、力度的制约问题,真实的曲线应该如下:
http://s10/mw690/737adf53hced9caa69039&690responses的应用
---------
下面给出BEST RESPONSE的定义:
定义:
http://s6/mw690/737adf53hced9e1e06b65&690responses的应用
或者说s^i是使得ui(si,p)期望最大的解
--------------------------------------------------
下面再举个合作的例子,这里的例子是连续非离散的注意
http://s12/mw690/737adf53hceda02bf39eb&690responses的应用
收益中的s1与s2的乘积可以理解为合作增益,系数b是合作力度,减去的是成本。这是研究大锅饭下的协作问题。
其实对于参与人1来说就是要:
shttp://s7/mw690/737adf53hceda0b9b90b6&690responses的应用
使其一阶导数为0,二阶导师为负即可。可解的:
http://s9/mw690/737adf53hceda120cd698&690responses的应用
这里假设了b为1/4,画出了上述图形,我们可以看出对于s2的不同选择,对于s1的BR是[1,2]因此根据上面的Lesson,我们不应该选择[0,1]和[2,4]区间。对玩家2同理。这样无限循环下迭代剔除永远不可能是BR的区域,再剔除。。。最终会收敛到焦点处
http://s8/mw690/737adf53hceda2ab66c37&690responses的应用
我们可以看出结果并不是高效的,原因是在分配方法。其实我们可以如下理解最终趋于焦点的事实。当双方都在点上的时候,双方都会坚持自己的选择,因为都是双方的BR,一旦偏离。由于双方都要求再BR上,无论谁调整都会导致向焦点靠拢。
这个现象就做纳什均衡
http://s2/mw690/737adf53hceda4e493761&690responses的应用