第4章认识博弈论(3)

实际上，在重复型的囚徒困境中，签订合作协议并不是很困难，困难的是合作协议达成之后，是否对博弈各方具有很强的约束力，能够使得博弈参与者都不会有私自改变主意的动机。比如由爱情而引出的婚姻，俗话说“婚姻是走向爱情的坟墓”，但从博弈论的角度来看，婚姻恰恰是男女双方签订的一种具有一定约束力的协议，一旦某方背叛婚姻，他（或她）就会受到家庭的压力与社会舆论的谴责。

现在，博弈专家已经用数学证明，在无穷次重复博弈的情况下，合作可能是相对稳固的一种状态。因为任何一次背叛都会导致对方在下一轮博弈中进行报复，而双方都采取合作态度则会带来合作收益，两方都相安无事地处下去。

如何与对手达成合作？

在囚徒困境中，我们已经知道了这样一个道理：从个体的眼光看，决策目标是在与对手的一系列对局中尽可能地最大化自己的利益。这使得博弈参与者会受到背叛利益的短期诱惑，总是想赢对方，结果可能得不偿失。

因为对方也会全力反击，招致双方都难以全身而退，造成两败俱伤的局面。在这种情况下，即使双方都没有继续对抗下去的意愿，但开弓没有回头箭，他们只能咬紧牙关，硬着头皮撑下去。但是通过与对方建立双方合作的模式却可以使双方都得到更多的长期利益。

在陷入囚徒困境中应如何表现，才能尽可能地与对手达成合作呢？以下是对参与者的两个简单的建议：

不要嫉妒

在大多数博弈中，人们都习惯于考虑零和对局：一方赢，就预示着另一方必输。然而生活中的大多数对局情况都是非零和的，不是此消彼长的关系，而是双方可以都做得很好或是很差。双方达成合作是极有可能的，只是并不一定都能实现而已。

人们在很多情况下都倾向于采用相对标准，把对方的成功与自己的成功对立起来，认为对方成功了自己就一定失败。这种标准的直接后果就是会引起人的嫉妒心，导致自己选择的策略企图抵消对方已经得到的优势。

在囚徒困境的模式下，抵消对方优势的唯一途径就是通过背叛来实现。如此便会进入一个恶性循环的怪圈，背叛会导致更多的背叛和双方都受到惩罚的结局。可以说，嫉妒的出发点是自我保护，但其结果却是自我毁灭。

在任何一局非零和的博弈中，你没有必要非得比对方做得更好。要求自己比对方做得好不是一个很好的标准，除非你的目的是消灭对方。因为这个目的在大多数情况下是不可能或者说很难实现的。尤其是当你要和许多不同的对手打交道时，就更不要去嫉妒对方的成功。因为在重复囚徒困境中，其他人的成功是你成功的前提。

举一个大家都比较常见的例子。一家商店从供应商那儿购买商品，妒忌供应商的利润是完全没有必要的。任何由妒忌而引起的企图通过不按时付账等不合作行为来减少供方利润的做法，都是对自己不利的鲁莽举动，都将激起供方的诸如拖延发货、不愿意打折扣或者不提供市场变化的信息等报复行为。商店就会付出极大的代价为自己的妒忌心理埋单。

不要首先背叛，耍小聪明

博弈论专家通过辩证分析指出，只要对方有意合作，你也积极配合，促成合作就会有好处。表明对方是否有合作意愿的最好的特征就是对方的出发点是否善良，是否不首先背叛。

当博弈一方使用一些不善良的出发点行事时，他往往会使用相当复杂的方法来试探自己的这个出发点能否逃脱对方的惩罚。比如尝试在第一步背叛，等第一步的结果显示对方进行报复的话，就马上撤回。或者是在背叛前等待十几步，看对方能否被哄骗或被偶尔占便宜。如果能的话，那就更频繁地、肆无忌惮地增加背叛的砝码，直到受到对方的反击再被迫撤回。

但需要指出的一点是，这些尝试背叛的策略的表现都不怎么好。因为背叛策略的实施者没有考虑自己的行为可能引起的对方的变化，事实上对方对你所采取的策略是有反应的，他将会把你的行为看作是你是否会回报合作的信号。你自己的行为会映射到你自己身上，自食其果，由此而导致的冲突的代价是很高的。

当然，你也可以尝试一种比较保险的方式，即先背叛对方直到对方合作，才开始合作。然而，这是一个理论上较保险，而实际上很有风险的策略，因为你的最初的背叛可能引起对方的报复，使你处于要么被占便宜，要么彼此背叛、两败俱伤的两难境地。如果你发现对方报复了，再惩罚对方的报复，而对方再对你的惩罚进行报复……这种循环就会一直延续下去，后果可想而知。

有的参与者会耍一些小聪明，比如采取相当复杂的策略，以至于打乱对方的常规思维，让对方摸不准自己的思路而陷入不知所措的困境。当然，作为对方而言，他也会采用一个随机的策略，其行为效果就显得你对对方的选择不反应。如果你给对方的感觉是无反应的，对方当然就猜不透你是如何想的，自然也感受不到来自你的促成合作的激励，也就不会去积极地促成合作。因此策略复杂到不可理解是非常危险的。

“一报还一报”策略

现在，人们对博弈论的研究非常广泛，以至于有人形象地说“最新的经济学和管理科学都已经用博弈论的理论和工具重新写过了”。虽说有些夸张，但也绝非言过其实，博弈论在现代生活中确实占了很大比重。博弈参与者有很多有趣且富于哲理的选择策略，适用于重复博弈的“一报还一报”就是其中之一。

“一报还一报”策略大致是这样的：它总是以合作开局，在第一步合作，但从此以后就采取“以其人之道，还治其人之身”的策略，采用对方上一步的选择。也就是说，“一报还一报”意味着在对方每背叛一次之后，自己就背叛一次，而永远不先背叛对方。

“一报还一报”是一种综合了善意性、宽容性、报复性、适应性和清晰性的合作策略，无论对于个人还是对于组织，其行为方式都有很大的指导意义。总的来说，它比竞赛中的其他策略做得都好。

“一报还一报”的善意性

“一报还一报”策略放弃了占他人便宜的可能性，永远不先背叛对方，把自己的利益建立在他人的损失之上。从这一特点来看，它是善意的。因为采用试图以占便宜为出发点的策略而引来的问题是多种多样的。

首先，如果一个策略用背叛来试探是否可以占他人的便宜，那么它就得冒被那些可激怒的规则报复的风险；其次，若双方的报复反击一旦开始，就会陷入恶性循环之中，双方都很难全身而退，得到解脱。而“一报还一报”的这种善意性可防止博弈参与者陷入不必要的麻烦之中。

“一报还一报”的善意性使得其从来没有一次在游戏中使运用者比对方得到更多的好处。事实上，他也不可能比对方多得好处。因为这个策略总是让对方先背叛，这就注定了策略实施者的背叛次数肯定比对方少。所以“一报还一报”不是让运用者得到与对方一样多的好处，就是比对方略少。“一报还一报”之所以会获得比其他任何策略更多的总体利益，就是因为它不是靠打击对方，而是靠从对方引出对双方都有好处的行为。

“一报还一报”的宽容性

“一报还一报”策略还给出了一个简单但又很有力量的建议：无论对方的选择是合作还是背叛，自己都要回报：在下一轮博弈中对对手的前一次合作给予简单的回报，哪怕以前这个对手曾经背叛过自己。并且“一报还一报”总是在对方每次背叛之后只报复一次。这点足以说明其具有宽容性。它的这种宽容性有助于重新恢复合作。

“一报还一报”的报复性

“一报还一报”策略的运用者会采取背叛的行动来惩罚对手前一次的背叛，从这个意义上来说它又是报复性的。“一报还一报”从不先背叛对方，但是不管过去相处的关系如何好，它总能被对方的一个背叛所激怒，而迅速作出反应，给予相同程度的报复行为。它的这种报复性使对方试着背叛一次之后就不敢再背叛，增大了转向合作的概率。

“一报还一报”的适应性

“一报还一报”能在众多的策略中独占鳌头，比其他任何策略表现得都好，足以说明它是一个很具适应性的策略，它不仅可与最初的各种策略相处得很好，而且能与那些可能在未来群体中占较大份额的成功策略相处得很好。它只会在与其他成功的策略相互交流中繁荣起来，而绝不会毁坏自己得到进一步改善的基础。任何想占“一报还一报”便宜的策略最终将伤害自己，屈服于“一报还一报”。

“一报还一报”的清晰性

“一报还一报”在竞赛中能够取得成功的另一个重要原因是它具有很大的清晰性，极易被对方理解，从而引出长期合作。让对方清楚地意识到你愿意合作是“一报还一报”成功的诀窍所在。当你选用“一报还一报”策略时，对方很容易理解你在干什么，接下来要干什么，是打算合作还是想要背叛，接着会根据你的反应而做出相应的回应。

在博弈过程中，你的任何一次背叛都容易被对方感受到，进而可能迫使对方采取一对一的报复。而你所做的任何一次促进合作的努力，对方也会在第一时间感受到。此时，对方能轻易地分析出应付你的“一报还一报”的最好方式就是与你达成合作，互利互惠。当你遇到对方使用“一报还一报”策略时，也只有马上和他合作才是你的最佳选择，这样你将可以在下一步博弈中得到合作。

“一报还一报”策略的伟大胜利，对人类和其他生物的合作行为的形成具有深刻含义。爱克斯罗德在《合作进化》一书中指出：“‘一报还一报’策略能导致社会各个领域的合作，包括在最无指望的环境中的合作。”

举个最明显的例子就是在第一次世界大战中“自己活，也让他人活”原则的产生。当时在作战前线的战壕里，军队纪律规定自己的士兵不准乱开枪杀人，希望促使对方也这么做。结果证明，这个原则得到了很好的实行，给了当时陷入困境数月的双方军队以相互了解、相互适应的机会。

即使是“一报还一报”这种有效的破解囚徒困境的策略，也不是万能的，也难免会产生使双方都陷入两败俱伤的危险。

首先，当“一报还一报”策略重复使用，纠缠在一起的时候，就会使博弈双方陷入循环报复的局面，致使任何一方都难以脱身；其次，由于“一报还一报”的核心是对对方的任何行为都要给予及时有效的回报，就是说当遭遇他人侵犯时也一定会“以牙还牙”，毫不妥协。

但需强调一点的是，这种策略的前提是“人不犯我，我不犯人”，这样可大大降低博弈参与者相互伤害的几率。总的来说，“一报还一报”策略还是利大于弊，目前应该算是一种有效的破解囚徒困境的理想策略。

第4章 认识博弈论(3)

第4章认识博弈论(3)