第8章 博弈论
1.考虑下面的博弈:
a.找到纯策略纳什均衡(如果存在)。
b.在均衡中各个参与人只会在前两个行动之间随机选择,找到此时的混合策略纳什均衡。
c.计算问题a、b中得到的均衡中各个参与人的期望收益。
d.画出这个博弈的扩展式。
解:a.用划线法求解纯策略纳什均衡
对于参与人1来说:
1选择A,则参与人2会选择E;1选择B,那么参与人2选择D;1选择C,2会选择F;
同理,对于参与人2来说:
2选择D,则参与人1会选择A;2选择E,那么参与人1选择B;2选择F,1会选择C;
综合上述,此博弈的纯策略纳什均衡为:(C,F)。
b.在均衡中各个参与人只会在前两个行动之间随机选择,此时的博弈矩阵如下:
设参与人1选择A的概率为r,参与人2选择D的概率为c,那么参与人1的期望收益为:
①若,则随着r的增加参与人1的期望收益值增加;
②若,则随着r的增加参与人1的期望收益值减小;
③若,则参与人1的期望收益值的变化不受r的影响。
同理,参与人2的期望收益为:
①若,则随着c的增加参与人2的期望收益值减小;
②若,则随着c的增加参与人2的期望收益值增加;
③若,则参与人2的期望收益值的变化不受c的影响。
综上所述,该博弈的混合策略纳什均衡为:参与人1选择A、B策略的概率各占;参与人2选择D、E策略的概率也各占。
c.在a中,参与人的纯策略纳什均衡点为(C,F),此时两人的期望收益均为4。
在b中,参与人的混合策略均衡为参与人1分别以的概率选择A、B策略;参与人2分别以的概率选择D、E策略,此时:
d.以参与人1先做出选择为例,该博弈的扩展式如图8-1所示。
图8-1 博弈的扩展式
2.在图8.3的性别之战中,混合策略纳什均衡会与收益的数值相关。为了得到一个一般解,假设该博弈的收益矩阵是:
其中,K≥1。请说明混合策略纳什均衡与K取值的关系。
解:假设参与人妻子以概率r欣赏芭蕾舞,丈夫以概率s欣赏芭蕾舞,则妻子的期望效用为:
丈夫的期望效用为:
因而可得混合策略纳什均衡为:
3.胆小鬼博弈描述的是,在一条单行道上,两个血气方刚的年轻人面对面地驾车加速冲向对方。第一个转向的人会被打上胆小鬼的烙印,而没有转向的人则会受到其他年轻人的尊重。当然,如果双方都不转向,两个人都会因为撞车而死亡。胆小鬼博弈的收益矩阵如下图所示。
a.画出博弈的扩展式。
b.找出博弈的纯策略纳什均衡。
c.计算混合策略纳什均衡,作为答案的一部分,画出混合策略的最优反应函数图形。
d.假定博弈是序贯进行的,其中年轻人1首先行动,他扔掉了汽车的方向盘以此来承诺他不会选择转向。此时年轻人2应该选择怎样的策略?写出这个序贯博弈的标准式和扩展式。
e.利用序贯博弈的标准式求出纳什均衡。
f.求出这个序贯博弈的严格子博弈。运用逆向归纳法求解子博弈完美均衡,并且解释为什么另一个纳什均衡是不合理的。
解:a.分别用A、B代表年轻人1和年轻人2。则该博弈的扩展形式如图8-2所示。
图8-2 博弈的扩展形式
b.用划线法可以找出该博弈存在两个纳什均衡:(转向,不转向)、(不转向,转向)。
c.设年轻人1选择转向的概率为r,年轻人2选择转向的概率为c,那么年轻人1的期望收益为:
①若,则随着r的增加年轻1的期望收益值减小;
②若,则随着r的增加年轻人1的期望收益值增加;
③若,则年轻人1的期望收益值的变化不受r的影响。
同理,参与人2的期望收益为:
①若,则随着c的增加年轻人2的期望收益值减小;
②若,则随着c的增加年轻人2的期望收益值增加;
③若,则年轻人2的期望收益值的变化不受c的影响。
综上所述,该博弈的混合策略纳什均衡为:年轻人1选择转向、不转向策略的概率各占;参与人2选择转向、不转向策略的概率也各占。混合策略的最优反应图像如图8-3所示。
图8-3 最优反应曲线
d.如果该博弈是序贯进行的,其中年轻人1首先行动,他扔掉了汽车的方向盘以此来承诺他不会选择转向。此时这个序贯博弈的标准式和扩展式分别如表8-1、图8-4所示。
表8-1 年轻人承诺不转向时的博弈的标准式
图8-4 年轻人承诺不转向时的博弈的扩展式
e.由表8-1可求出该序贯博弈有三个纳什均衡:年轻人1转向,年轻人2永远不转;年轻人1不转,年轻人2总是选择转向;年轻人1不转,年轻人2选择与年轻人1相反的做法。
f.这个序贯博弈的严格子博弈均衡是年轻人2的选择策略总是与年轻人1的策略相反。e中年轻人1选择不转向,年轻人2总是选择转向是不合理的,因为年轻人2在察觉到年轻人1有可能转向时他会选择不转向。同理,年轻人1转向,年轻人2总是选择不转向也是不合理的,因为如果他察觉年轻人1可能会选择不转向,年轻人2会选择转向。
4.两个邻居i=1,2,同时选择自己花费多少时间li来修剪草坪。每小时的平均收益为:10-li+lj/2。
同时,机会成本为每小时4元。房主i的平均收益随邻居j除草时间的增加而增加,这是由于邻居环境的美化能够增加房产的价值。
a.计算纳什均衡。
b.画出最优反应函数,并且在图中标出纳什均衡。
c.用图形说明,如果邻居的平均收益函数的截距由10变为一个比10小的数值,纳什均衡如何变化。
解:a.对于房主来说其利润函数为:
利润最大化的一阶条件:
解得房主的反应函数:
①
同理可解得邻居的反应函数:
②
联立①②两式可以求出纳什均衡解:
b.房主和邻居最优反应函数如图8-5所示,图中E点表示纳什均衡解。
图8-5 房主和邻居最优反应函数
c.如果邻居的平均收益函数的截距由10变为一个比10小的数值a(0<a<10),类似于a中的方法,可解得此时房主和邻居的最优反应函数分别为:
与原先的最优反应函数相比较,房主的最优反应曲线向左移动并且邻居的最优反应曲线向下平移,此时纳什均衡所花费的时间变少,E′表示新的纳什均衡点,如图8-6所示。
图8-6 平均收益函数的截距变小时的纳什均衡
5.奥斯卡奖获奖电影《美丽心灵》用戏剧的手法讲述了约翰·纳什的一生,其中有一个镜头阐述了纳什在学术上的贡献:他和他的男研究生在酒吧中闲聊的过程时,想到了纳什均衡的概念。他们注意到酒吧中有几个女生,其中一个女性是金发的,其他的都是深褐色头发,他们都认为金发的女生要比深褐色头发的女生更有魅力。纳什把这一场景视为几个男学生之间的博奔。假设n个男生同时接近这些女生。如果男生i单独接近金发女生,那么他就能成功地和金发女生约会,得到a的收益。如果接近金发女生的男生人数多于1个,那么由于竞争,这些男生都得不到金发女生的青睐,他们只能得到0的收益。然而,如果男生i接近深褐色头发的女生,他们一定能够与深褐色头发女生约会,获得b>0的收益,因为深褐色头发的女生数量比男学生的数量多。也就是说,i一定能够与深褐色头发的女生约会。同时因为金发女生更迷人,所以a>b。
a.证明这个博弈不存在一个对称的纯策略纳什均衡。
b.求解出对称的混合策略纳什均衡,即令P为一个男生选择接近金发女生的概率,求解P*。
c.证明下面结论:酒吧中男生越多,b里的均衡中,至少有一个男生成功约会金发女生的概率越低。
注:这个与直觉矛盾的结论最初出现于S.Anderson and M Engers,“Participa— tion Games:Market Entry,Coordination,and the Beautiful Blond.”Journal of Economic Behavior&Organization 63(2007):120-137。
解:a.如果所有男生都选择与金发女生约会,则会有男生背离这个选择而与深褐色头发女生约会,因为当接近金发女生的男生人数多于1时,他们的收益均为0,而与深褐色头发女生约会能获得正的收益。如果所有男生都选择与深褐色头发女生约会,也会有男生背离这个选择而与金色女生约会,因为与金色女生约会获得的收益大于与深褐色头发女生约会获得的收益。所以这个博弈不存在一个对称的纯策略纳什均衡。
b.与深褐色头发女生约会获得确定的收益b,与金发女生约会获得的收益=a(1-p)n-1,对称的混合策略纳什均衡是使得两者的收益相等,即
c.至少有一个男生成功约会金发女生的概率为,因为a>b,则b/a<1,n/(n-1)随着n的增大而变小,则随着n的变大而变大,因此,至少有一个男生成功约会金发女生的概率随着n的增大而变小。
6.下面的博弈是囚徒困境的一个版本,其中收益与图8.1中的博弈有些许变化。
a.说明这个博弈的纳什均衡与普通的囚徒困境博弈相似,同时两个参与人都有占优策略。
b.假设这个阶段博弈重复无限次。计算出贴现因子在什么范围内,两个嫌疑人能够在各个阶段都采取合作策略(保持沉默)。描述其中使用的触发策略。
解:a.先找该博弈的纳什均衡。
对于嫌疑人1来说,如果他选择“告发”,嫌疑人2会选择“告发”,因为0>-1;如果他选择“沉默”,嫌疑人2会选择“告发”,因为3>1。不难看出,“告发”对于嫌疑人2来说是占优策略选择。
对于嫌疑人2来说,如果他选择“告发”,嫌疑人1会选择“告发”,因为0>-1;如果他选择“沉默”,嫌疑人2会选择“告发”,因为3>1。即可知“告发”对于嫌疑人1来说也是占优策略选择。
综上所述,双方的纳什均衡是(告发,告发),不论对于嫌疑人1还是嫌疑人2来说,“告发”都是占优的。这也与普通的囚徒困境博弈相似,符合常理。
b.当博弈重复无限次时,纳什均衡为(沉默,沉默)。假设从某一局(记为t=1)博弈开始,嫌疑人1选择告发,而嫌疑人2选择沉默,那么从下一局博弈开始,嫌疑人2为报复嫌疑人1的告发行为,选择一直告发,此时,博弈的纳什均衡为(告发,告发)。
嫌疑人1选择告发时,其收益为:
嫌疑人1选择沉默时,其收益为:
当时,两个嫌疑人能够在各个阶段都采取合作策略,此时
解得:。
因此,当贴现因子大于2/3时,两个嫌疑人都采取合作策略,当贴现因子小于2/3时,将触发背叛合作的行为。
7.回到练习题8.5中两个邻居之问的博弈。参与人i修剪草坪的每小时平均收益还是10-li+lj/2。
参与人2的机会成本保持4不变;而参与人1的机会成本则会以相同的概率变为3或5,参与人1的成本是他的私人信息。
a.求解贝叶斯—纳什均衡。
b.用最优反应函数图形表示贝叶斯—纳什均衡。
c.哪种类型的参与人1倾向于向参与人2传递真实的信号?哪种类型的参与人1倾向于隐藏自己的私人信息?
解:a.当参与人1的机会成本为3时:
对于参与人1来说其利润函数为:
利润最大化的一阶条件:
解得参与人1的反应函数:
①
同样的分析可得,当参与人1的机会成本为5时,,参与人1的反应函数为:
②
参与人2的利润函数为:
解得参与人2的反应函数为:
③
其中:
④
联立①②③④两式可以求出纳什均衡解:
b.如图8-7所示,BRHC(l2)表示参与人1机会成本为5时的最优反应函数,BRLC(l2)表示参与人1机会成本为3时的最优反应函数,BR2(l1)表示参与人2的最优反应函数,HC点表示参与人1机会成本为5时最优纳什均衡点,LC点表示参与人1机会成本为3时最优纳什均衡点。
图8-7 贝叶斯纳什均衡
c.当参与人1的机会成本为3时,贝叶斯纳什均衡下的收益为20.25,全信息下均衡为,代入利润函数:
求得参与人1的收益为20.55>20.25,此时,参与人1倾向于向参与人2传递真实的信号;当参与人1的机会成本为5时,贝叶斯纳什均衡下的收益为12.25,全信息下的均衡为,代入利润函数:
求得参与人1的收益为12.02<12.25,此时参与人1倾向于隐藏自己的私人信息。
8.在德克萨斯扑克中,参与人2首先从标准牌堆中抽出一张纸牌,并且将纸牌背对自己,让参与人1看到纸牌的大小,而自己不看。参与人1首先行动,决定是保留还是盖牌。如果参与人1盖牌,他必须向参与人2支付50美元;如果参与人1选择保留,则参与人2开始行动。参与人2可以选择盖牌和开牌。如果参与人2盖牌,她必须向参与人1支付50美元;而如果参与人2选择开牌,则双方查看纸牌的大小。如果是小牌(2-8),参与人2就输100美元给参与人1。而如果是大牌(9,10,J,Q,K,A),参与人1就输100美元给参与人2。
a.画出博弈的扩展式。
b.求解杂合均衡。
c.计算各参与人的期望收益。
解:a.图8-8给出了参与人1和参与人2博弈的扩展式,参与人1首先能看到牌的大小,参与人2在行动前只能观察到参与人1的行动。Pr(H)和Pr(L)分别表示在观察到参与人1行动前,参与人2对牌大小的信念。
图8-8 博弈的扩展式
b.在一个混合均衡中,至少有一个参与者的选择策略是混合策略。如果参与者1看到是小牌,他的纯策略均衡是选择保留,那么当他看到的是大牌时,他的选择策略一定是随机的。这是因为如果参与人1的纯策略选择是要么保留要么盖牌,参与人2的最优反应同样也是一个纯策略,此时的均衡不可能是混合均衡。
设参与人1看到大牌后选择保留的概率是α,则看到大牌后选择盖牌的概率是1-α;设参与人2看到大牌后选择保留的概率是β,则看到大牌后选择盖牌的概率是1-β。
β应保证参与人2在保留和盖牌之间的选择是无差异的,即参与人2看到大牌后选择保留的收益为:β(-100)+50(1-β)与参与人2看到大牌后选择盖牌的收益=-50相等,因此有
解得β*=2/3。
要保证参与人2的策略选择是随机的,则由其在保留和盖牌之间的选择是无差异的,参与人2的保留收益为:
其中是一种后验概率,即参与人1在大牌情况下保留的概率。
参与人2的盖牌收益=-50,根据
解得。根据后验概率满足贝叶斯法则,有
联立方程,解得α*=7/18。
综合之,在混合均衡中,参与人1看到小牌总是会选择保留,看到大牌后选择保留的概率是7/18,选择盖牌的概率是11/18。参与人2在保留和盖牌之间的选择是随机的,其概率分别是2/3和1/3。参与人2的后验信念是如果参与人1选择盖牌,则参与人1的牌面是大牌,若参与人1选择保留,则参与人1有1/4的概率是大牌,3/4的概率是小牌。
c.看到小牌的期望收益=(100)(2/3)+(50)(1/3)=83.3,看到大牌的期望收益=-50(因为在均衡状态下参与人在看到大牌后保留和盖牌的期望效用一样,都是-50)。在给定看到大牌和小牌的先验概率,参与人1的期望收益=(83.3)(7/13)+(-50)(6/13)=21.8,参与人2的期望收益=-50(因为在均衡状态下参与人2在保留和盖牌之间的效用一样。)由此可看到,此博弈是对参与人1有利的。
分析问题
9.最后通牒博弈中的公平
考察之前讨论过的最后通牒博弈。首先行动的参与人提出一个分配1美元的方案。令r为另一个参与人得到的份额(即先行动的参与人自己保留1-r),其中0≤r≤1/2。然后第二个参与人行动,选择接受或者拒绝这个提案。如果回应人接受提案,两个参与人会按照提案获得相应的收益;如果回应人拒绝,两个参与人就什么都得不到。如果回应人接受或者拒绝一个提案的收益是无差异的,回应人就会选择接受。
a.假设参与人只在意金钱收益。请证明在前文中提到的结果是最后通牒博弈的唯一子博弈完美均衡。
b.比较最后通牒博弈和独裁者博弈的结果(在之前内容中也提到过),即提案人在决策时并不会考虑回应人的行动(实际上这个博弈并不是策略博弈)。
c.现在假定参与人会同时考虑公平和金钱。引用Fehr和Schmidt的文献,假定参与人的效用函数为:
其中,x1为参与人1的收益,x2为参与人2的收益(对于参与人2,对称的效用函数同样成立)。函数中的第一项反映了参与人对金钱的渴望,第二项反映了对公平的考虑,即两个参与人的收益不能相差太多。参数a衡量了参与人对公平的偏好。假设a<1/2。
1.求解在最后通牒博弈中回应人的均衡策略。
2.在考虑到回应人的行动后,求解提案人的均衡策略r*。提示:r*会是一个角点解,并且与a的取值有关。
3.在公平偏好下,比较最后通牒博弈和独裁者博弈结果的区别。并且找到与前文中实验结果匹配的结果,特别是最后通牒博弈比独裁者博弈分配方式更公平的结果。最后通牒博弈是否存在最公平的分配方式?
解:a.参与人1的收益为π1=1-r,参与人2的收益为,当r=ε(其中ε为任意小的正数)时,参与人2选择接受提案,此时,参与人1面临的选择为:,因此参与人1选择r=ε。所以存在唯一的子博弈完美均衡,即r=ε。
b.在独裁者博弈中,博弈的均衡提案为r=0,此时与最后通牒博弈相比,参与人2的境况变差而参与人1的境况变好。
c.1.回应人面临的选择问题为:
解得r2=r1。
2.提案人面临的选择问题为:
解得当a<1/2时,r2=r1=0,当a≥1/2时,。
又因为假设a<1/2,所以r*=0。
3.在公平偏好下,参与人1不仅仅考虑自己所能获得的金钱,同时要考虑参与人2所获得的金钱对自己的效用的影响,因此参与人1会适当的考虑提案的公平。而在最后通牒博弈和独裁者博弈中,参与人1的效用只与自己所能获得的金钱有关,而同参与人2所能获得的金钱无关,因此参与人1只会考虑自己所能获得的金钱,而不会考虑参与人2所能获得的金钱。
由前文实验的结果可知最后倾向于50,-50,因此可知参与人是公平偏好的,并且a≥1/2,当时,,此时分配最公平。
10.坏孩子定理
在《论家庭》(A Treatise on the Famity,Cambridge,MA:Harvard University Press,1981)中,诺贝尔奖得主加里·贝克尔提出了著名的坏孩子定理。坏孩子定理是由一个序贯博弈得出,博弈是在一个潜在的坏孩子(参与人1)和孩子的家长(参与人2)中进行。孩子首先行动,选择能够影响他自己收入和父母收入的行动r。然后,父母行动,决定留给孩子的遗产L。孩子在乎自己的效用,不过父母则是最大化,其中α>0反映父母的利他程度。请证明,在子博弈完美均衡中,孩子会选择合适的r,使得Y1+Y2取得最大值,即使他没有利他倾向。提示:运用逆向归纳法,首先求解父母的最优化问题,由一阶条件可以得到均衡的L*;尽管不能得出L*的精确值,但是L*的微分关于r的函数可以运用隐函数法则得出(在孩子的第一阶段最优化问题中求解)。
解:在第二阶段,父母选择遗产数位L,其效用最大化问题为
Max
对上式求最大值可转化为求:
虽然不能解得确定的L*(r),但可以利用隐函数法则可解得L*的微分关于r的函数
在第一阶段,孩子的效用最大化问题为:
Max
对上式求最大值可转化为求:
由上述等式可得,所以,在子博弈完美均衡中,孩子会选择合适的r,使得Y1+Y2取得最大值,即使他没有利他倾向。
11.另一种冷酷策略
假设囚徒困境阶段博弈(参看图8.1)重复进行无限次。
a.参与人能否利用以牙还牙策略得到合作的结果,即在出现背离时只转向阶段博弈纳什均衡一个回合,在这个回合后就回到合作策略?两个回合的惩罚够不够?
b.假设参与人会使用下面的策略,即在出现背离时,会转向阶段博奔纳什均衡10个回合,然后才回到合作策略。计算能够实现合作并且最大化双方总收益的临界贴现因子的取值。
解:a.沿着均衡路径,每个参与人在每个时期都选择保持沉默,则每个人各个时期可以获得2的收益,其总收益的贴现值为2/(1-δ),如果在出现背离时会采取以牙还牙的策略,则在一个回合后回到合作策略的贴现值为。因为在背离的第一阶段,收益为3,第二阶段是不合作的惩罚,收益为1,第三阶段回到合作的策略上,收益为2,后各期收益均为2。要使参与者在一个回合后回到合作,则要
解得。
如果采取两个回合的惩罚,则在两个回合后回到合作策略的贴现值为
要使参与者在两个回合后回到合作,则要
解得。
b.如果采取10个回合的惩罚,则在10个回合后回到合作策略的贴现值为:
要使参与者在两个回合后回到合作,则要
可解得,这个结果接近于在无限重复博弈中得到的贴现因子。
12.完美贝叶斯均衡的精炼
回忆例8.9中的劳动市场信号博弈。
a.找到符合下面条件的混同均衡:在均衡中,两种类型的参与人都选择不接受教育(NE),同时企业只雇用没有接受教育的工人。并且具体指出信念和策略。
b.找到符合下面条件的混同均衡:在均衡中,两种类型的参与人都选择不接受教育(NE),同时企业不会雇用没有接受过教育的工人。在这个混同均衡中,指出企业对能力低的参与人条件与接受教育的最小后验信念。为什么更自然的想法是低能力的工人几乎不会背离到E,因此接受教育的工人一定的高能力的?Cho和Kreps的概念——直观标准(intuitive criterion)是一个更复杂的对完美贝叶斯均衡的精炼,能够用来排除基于不合理后验信念得出的均衡。参看1 K Cho and D.M.Kreps,“Signalling Games and Stable Equilibria,”Quarterly如urrazl of Economics 102(1987):179-221。
解:a.因为企业只雇用没有接受教育的工人(对于工人来说,所有类型的工人都有获得最高收益的可能,因为他们被录用并且没有花费教育成本),则企业提供工作的期望收益为
当
可得。根据贝叶斯法则,在这个混同均衡中,后验信念与先验一样,即。所以混同均衡的条件是,即当,企业会通过观察选择受过教育的工人,而当,企业不会给受过教育的工人提供工作。
b.因为企业不会雇用没有接受过教育的工人,由此可得,高能力的工人不会偏离到E,除非公司选择不雇佣受过教育的工人,当超出均衡的后验信念得到满足,即或,企业才会偏向于选择不雇佣受过教育的工人。假设,则认为低能力工人永远偏离到E,是不合理的。不论公司选择什么策略,若低能力工人接受教育,则其收益是负的;不接受教育,其收益是非负的。相反,高能力工人则有激励背离到E,因为当他接受教育并且得到雇佣,其收益是正的。直观标准限制了不平衡的后验信念。因为与所需条件是不一致的,因此直观标准排除了不合理的后验信念得出的均衡。