第三节 非协同博弈基础
协同博弈是博弈论中的经典理论,在很多时候我们都要对这个问题进行讨论。与协同博弈相对应的是非协同博弈。然而,这个理论也相对比较复杂,所以在这一节中我们仅仅对非协同博弈理论作一些基础的介绍,为同学们以后更深入的学习作好准备。
3.1 策略与收益函数
我们在这里的分析仅限于有限标准式博弈。准确地说,令I={1,2, …, n}表示博弈方集合,这里n是正整数。对于每个博弈方i∈I来说,令Si表示他的有限纯策略集合。为了表示的方便,我们将用正整数来表示每个博弈方的纯策略,从而,每个博弈方i∈I的纯策略集合表示为Si={1,2, …, mi},整数mi≥2。纯策略向量s=(s1, s2, …, sn)称为纯策略组合,其中si是博弈方i∈I的纯策略。因此,博弈中的纯策略组合的集合是各博弈方纯策略集合的卡特尔积S=xiSi,有时候又被称为博弈的纯策略空间。
对任何策略组合s∈S和博弈方i∈I,令πi(s)∈R表示博弈方i相应的收益。在经济学中,收益通常是企业的利润或者是消费者的效用。对每个博弈方i∈I,实数πi(s)的有限并定义了第i个博弈方的收益函数π1:S→R。博弈的组合纯策略收益函数 π:S→Rn对每个纯策略组合 s 赋予了完全的收益向量π(s)=(π1(s), π2(s), …, πn(s))。
用纯策略的术语来说,标准式的博弈可以总结为一个三元组G=(I, S, π),其中,I是它的博弈方集合,S是它的纯策略空间,π是它的组合收益函数。在只有两个博弈方的特殊情形下,我们可以方便地将收益函数π1和π2分别写成一个m1×m2矩阵。我们通常将博弈方1的收益矩阵表示为A=(ahk),这里对每个h∈S1和 k∈S2, ahk=π1(h, k);类似地,将博弈方2的收益矩阵表示为B=(bhk),这里bhk=π2(h, k)。矩阵中的每一行都对应着博弈方2的一个纯策略。任何两人博弈都可以重复地由一个对应的收益矩阵对(A, B)来表示,这里博弈方1可以被视为行博弈方,博弈方2可以被视为列博弈方。
下面,我们来看一个囚徒困境的例子。
在这个两人博弈中每个博弈方只有两个纯策略。下面的一对收益矩阵给出了典型的收益组合
显然,不论博弈方2用什么策略,博弈方1的第二个纯策略(背叛)带来的收益都高于他的第一个纯策略(合作)带来的收益;矩阵A第二行的每个元素都高于第一行对应的元素。类似地,博弈方2的第二个纯策略带来的收益高于他的第一个纯策略带来的收益;矩阵B第二列的每个元素都高于第一列对应的元素。因此,个人理性会导致每个博弈方选择他的第二个纯战略(背叛)。所谓的困境是指,如果这两个博弈方都选择他们的第一个纯策略(合作),他们都会得到更高的收益。
3.2 混合策略空间的几何分析
博弈方i的混合策略是指他的纯策略集合Si上的概率分布。由于对每个博弈方i∈I, Si都是有限的,所以我们可以把博弈方i的任何混合策略xi表示为mi维欧基里德空间Rmi中的向量xi,其第h个坐标xih∈R是xi赋予该博弈方第h个纯策略的概率。
被某个混合策略xi赋予正概率的纯策略集合称为xi的支集,表示为:
由于概率xih(h=1,2, …, mi)都是非负的并且和为1,所以向量x∈Rmi包含于mi空间的单纯形Δi,可定义为:
图4-1(a)和(b)分别表示了mi=2和mi=3的情形。
图4-1 单纯形Δi的几何表示
(a)mi=2时的单纯形Δi。(b)mi=3时的单纯形Δi。
博弈方i的混合策略单纯形Δi是mi-1维的。因此,不失去任何信息,我们可以研究从单纯形Δi⊂Rmi到mi-1维欧基里德空间的某个投影。图4-2(a)和(b)分别表示了mi=2(投向xi1轴)和mi=3(投向(xi1, xi2)平面)的情形。
图4-2 单纯形Δi的投影
(a)mi=2时的单纯形Δi的投影。(b)mi=3时的单纯形Δi的投影。
单纯形Δi的顶点是mi维空间的单位向量,表示为=(1,0,0, …,0),=(0,1,0, …,0), …,=(0,0,0, …,1)。每个这样的顶点表示博弈方i赋予他的第h个纯策略的概率为1。从这一点来看,纯策略只不过是特殊的、极端的混合策略。
混合策略单纯形Δi是它所有顶点的凸包;每个混合策略xi∈Δi是单位向量或者纯策略的凸组合:
如果一个子集Xi⊂Δi是某些纯策略非空子集的凸包,那么Xi称为Δi的一个面。特别地,Xi=Δi是一个面;而且对h∈Si,每个纯策略单点集也是面。
集合
被称为Δi的内部。相应地,这个子集中的非空混合策略被称为内部的或者完全混同的;这些策略对所有博弈方的纯策略赋予了正的概率,因此对所有的i∈I,它们有完全的支集C(xi)=Si。Δi中非内部策略的集合被称为Δi的边界,表示为:
注意Δi的边界是其支集C(xi)为策略集Si的真子集的策略xi的集合。我们还可以将bd(Δi)视为Δi边界面的并,这里的边界面是Si的某个真子集张成的面。
混合策略组合是向量x=(x1, x2, …, xn),其中每个元素x∈Δi是博弈方i∈I的一个混合策略。因此,混合策略组合x是该博弈的混合策略空间
中的一个点。其中,Ψ是 n 个单位单纯形 Δi的笛卡儿积,是 Rmi中的一个(m-n)维多面体,m=m1+m2+…+mn是博弈中纯策略的总数。
3.3 混合策略收益函数
按照前面讨论中所运用的非协同博弈标准方法,所有博弈方的随机化在统计上是独立的。因此,当混合策略组合 x∈Ψ被采用时,某个纯策略 s=(s1, s2, …, sn)∈S被采用的概率就是相应的每个博弈方的混合策略xi∈Δi赋予他的纯策略si∈Si的概率之积:
i=1
混合策略组合x∈Ψ带给博弈方i的期望收益是:
实数ui(x)可以简称为第i个博弈方得自策略组合x的收益。注意该收益是每个博弈方混合策略的线性函数。为了看清这一点,必须首先注意到,由于采取纯策略sj=k∈Sj在概率上等价于采取混合策略,因此我们可以将博任何x∈Ψ和i, j∈I弈方j运用他的第k个纯策略时博弈方i得到的收益记做。从而,对
也就是说,可以将收益ui(x)当做博弈方j的每种纯策略下博弈方i得到的收益的加权和来计算,加权概率为博弈方j赋予他的每个纯策略的概率。