本帖最後由 南山28子 於 2022-6-16 22:21 編輯
这个雄心勃勃的研究的目标是创建一个合作理论以帮助我们理解合作出
现的必要条件。了解了合作出现的条件,就可以采取适当的行动来培育
某个特定环境下的合作。
本书提出的合作理论是基于对追求自身利益的个体的研究,而且这些个
[/fonxt]
体中并没有什么中心权威强迫他们相互合作。个体追求自身利益,彼此
之间的合作便不是完全基于对他人的关心或对群体利益的考虑。假设个
体追求自身利益就是为了研究这一难题。但必须强调的是这种假设的局
限性实际上很小。如果一个姐姐关心她弟弟的利益,这位姐姐自己的利
益可以被认为是包含在这种关心里的。但是,这并没有排除姐弟之间可
能出现冲突。同样,一个国家也可能考虑友好国家的利益,但是这种考
虑并不意味着友好国家之间总是能够为了双边利益而合作。这里之所以
假设个体追求自身利益是因为关心他人并不能完全解决个体什么时候能
更多电子书请访问:爱分享 [color=var(--blue-link)]http://www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者
相互合作,什么时候不能相互合作的问题。
合作中存在着一个根本问题,两个工业国家之间相互设置贸易壁垒便是
一个很好的例子。由于自由贸易能给双方带来好处,因此,如果两个国
家消除这些贸易壁垒都能受益。问题是,无论谁单方面采取行动消除自
己一方的贸易壁垒,它都会发现自己处于不利于本国经济的贸易状态
下。事实上,不论一个国家如何做,另一个国家保持它的贸易壁垒总是
比较有利的。因此,每一个国家都有利益动机来保持贸易壁垒,尽管由
此带来的结果比双方都合作差得多。
个体对自身利益的追求将损害整体的利益时,这个根本的问题就出现
了。为进一步了解大量的具有这类性质的情况,需要有一个方法来表示
这些情况的共同点,同时避免陷于每个情况的具体细节。幸运的是,我
们有一个可用的方法:著名的"囚徒困境"游戏。[2]
在"囚徒困境"的游戏中,有两个对策者,他们可以有两个选择:合作
或背叛,每个人都必须在不知道对方选择的情况下,作出自己的选择。
不论对方选择什么,选择背叛总能比选择合作有较高的收益。所谓的"
困境"是指,如果双方都背叛,其结果比双方都合作要糟。这个简单的
游戏是本书全部分析的基础。
"囚徒困境"的游戏方法如图1.1。一方选行,合作或背叛;同时另一
方选列,也是合作或背叛。这些选择放在一起就产生了如图1.1所示的
四个可能的结果。在这个矩阵中,如果双方选择合作,双方都能得到较
好的结果R,即"对双方合作的奖励"。在这个例子中R为3分,3也可以
代表参赛者得到的奖金数。如果一方合作而另一方背叛,那么,背叛者
得到"对背叛的诱惑"(T=5),而合作者则得到"给笨蛋的报酬"
(S=0)。如果双方都背叛,那么双方都得到1分,即"对双方背叛的惩
罚"(P=1)。
列游戏者
合作
背叛
合作
背叛
R=3,R=3
S = 0,T = 5
P = 1,P=1
T = 5, S = 0
图1.1囚徒困境
更多电子书请访问:爱分享 [color=var(--blue-link)]http://www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者
R:对双方合作的奖励
S:给笨蛋的报酬
T:对背叛的诱惑
P:对双方背叛的惩罚
说明:行选择者的收益值列于前面。
在这个游戏中,你将如何做呢?设想你处于行的位置,同时你认为对方将合作,那么你将得到图1.1中头一列的两个结果中的一个,你选择哪个:你可以选合作,那么你将得到"对双方合作的奖励"即3分。当然,你也可以选背叛,得到"对背叛的诱惑"即5分。换言之,如果你
认为对方将会合作,那么你背叛将能得到更多的好处。反过来,如果你
认为对方将背叛,那么你就处于图1.1中的第二列。你有两个选择,你
选择合作,那么你就是"笨蛋",给你一个0分。你选择背叛,就会得
到"对双方背叛的惩罚"即1分。因此,对方背叛,你也背叛将会更好
些。这就是说,如果你认为对方将合作,你背叛能得到更多,如果你认
为对方将背叛,你背叛也能得到更多。所以无论对方如何行动,你背叛
总是好的。
到现在为止,你似乎知道该怎样做。但是,相同的逻辑对另一个人也同
样适用。因此,另一个人也将背叛而不管你如何做。这样,你们将是双
方背叛,只能得到1分,这比你们双方合作所能得到的"奖励"3分差很
多。个体的理性导致双方得到的比可能得到的少,这就是"困境"。
"囚徒困境"是对一些非常普遍而有趣的情形的简单抽象。在这些情形
中,从个人的角度考虑,背叛是最好的选择,但双方背叛会导致不甚理
想的结果。"囚徒困境"的定义要求四个可能的结果之间保持一定的关
系。第一个关系是四个结果的排序,对策者能够得到的最好的结果是
T,即对方合作你背叛时所得到的"诱惑"。最差的是得到S,即当对方
背叛时你合作。另外两个结果可以假设R比P好,即得到对合作的"奖
励"比得到对背叛的"惩罚"要好。这样得到从最好到最差四个结果的
排序是T、R、P和S。"囚徒困境"定义中包含的第二个概念是,对策
者不能通过轮流背叛对方来摆脱"困境"。这个假设意味着,交替地背
叛对方和被对方背叛的收益没有双方合作好。即假定"对双方合作的奖
励"大于"对背叛的诱惑"和"给笨蛋的报酬"的平均值(即
R>(T+S)/2),这个假设和四个结果的排序定义了"囚徒困境"。
如果两位自私者玩一次这个游戏,他们的选择会是背叛。这样,每一方
所得将少于双方合作所能得到的。设想这个游戏要进行多次,而且双方
更多电子书请访问:爱分享 [color=var(--blue-link)]http://www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者
知道具体次数,那么双方仍然没有合作的动机。为什么呢?首先,最后
一次大家显然是不合作。在倒数第二次时,双方还是没有合作的动机。
因为他们都预知对方在最后一次会背叛。如此推理下去,对两位自私者
任何已知次数的游戏,从第一步开始就是双方背叛
(LuceandRaiffa1957,pp.94—102)。然而,这个推理并不适用于游戏要
进行无限多次的情况。在大多数实际情况下,对策者不能肯定什么时候
是他们的最后一次对局。就像稍后要说明的一样,当游戏次数无限时,
合作有出现的可能。于是,问题变成了去发现合作出现的充分和必要的
条件了。
在本书中,我将考察每次只有两个对策者打交道的情况。尽管一个对策
者可以与其他许多人打交道,但可以假设他每次只能与其中的一个打交
道。[3] 同时,我们还可以假设对策者能够识别对方并且能记住与其打
交道的历史。这种识别和记忆能力使得对策者在作决策时能够参考以往
打交道的历史。
曾经有人提出过各种各样的解决"囚徒困境"的办法。每个办法都包含
一些附加的改变策略的相互作用的措施,这些措施同时也使问题的性质
发生了根本的变化。在许多情况下,这些补救措施是行不通的,所以原
来的问题并没有解决。因此我们必须从问题的最基本形式来考虑。
1.对策者没有什么手段可以用来实施威胁或作出许诺
(SchellingI960)。由于对策者不会许诺他们自己采取某种特定的策
略,因此每个人都得考虑对方可能采用的所有策略。此外,每一个对策
者都可以使用所有可能的策略。
2.没有什么办法能够确定对方在某个特定的对局中将如何选择,这就消
除了使用"元对策"分析的可能(Howard1971)。"元对策"允许诸
如"选择与对方相同的策略"的选择,同时也消除了通过观察对方与第
三者对局而形成某种信誉的可能。因此对策者唯一可利用的信息是他们
相互作用的历史。
3.不能消灭对方,也不能放弃对局,因此对策者在每次对局时只能选择
合作或背叛。
4.不能改变对方的收益值。这个收益值已经包含了每个对策者关于对方
利益的考虑(Taylor1976,pp.69—73)。
更多电子书请访问:爱分享 [color=var(--blue-link)]http://www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者
在这些条件下,没有行动支持的表态是没有意义的。对策者之间的交流
只能通过他们的一系列行为来进行。这就是"囚徒困境"的最基本形
式。
合作可能出现是因为对策者将再次相遇。这种(再次相遇的)可能性意
味着今天作出的选择不仅决定当前对局的结果,而且还影响对策者以后
的选择。因此未来会在当前投下它的影子并影响当前的对策局势。
有两个原因使得现在比未来更为重要。首先,对策者倾向于认为未来所
得的价值随着时间的推移而减少。其次,对策者总会有些机会不再相
遇。这种持续的关系会由于其中一个对策者迁移、改变职业、去世或破
产而结束。
由于这些原因,下一步对局的收益总是被看作比当前一步的收益少。处
理这个问题的一个自然的办法就是在累积收益值时把下一步对局的收益
看作当前一步收益的一部分(Shubik1970)。下一步相对于当前一步的
权重(或称为重要性)可以记作w。它表示每一步的收益相对于前一步
收益的折扣程度。因此,它是一个折扣系数。
折扣系数可以用来确定整个序列的收益值。看一个简单的例子。假设每
一步的重要性只有前一步的一半,即w=1/2,那么,一个双方背叛得1分
的序列,在第一步的收益值是1,第二步是1/2,第三步是1/4。这个序列
的累积值将是1+1/2+1/4…,它的和是2。一般情况下,每步得1分那么就
有1+W+W +W …,当W大于零小于1时,这个无限序列的和具有简单
2
3
的形式1/(1-W)。如果每一步只值前一步的90%,那么这个丨分的序
列就值10分,因为1/(1-W)=1/(1—0.9)=1/0.1-10。相似地,如果w
还是0.9,那么双方合作时每步得3分的序列将是30分。
现在考虑一个双方对局的例子。一个对策者采用的策略是每一步都背
叛,即"总是背叛"(alwaysdefecting,简称ALLD),另一个对策者采
用的策略是"一报还一报",即在第一步合作,然后就采用对方上一步
的选择。"一报还一报"意味着在对方每一次背叛之后就背叛一次。当
对方采用"一报还一报"时,采用"总是背叛"的对策者,将在第一局
得到收益T,在而后的对局中都得他的值(或称为得分)就等于第一步
是T,第二步是wP,第三步是w2 P,如此类推。[4]
"总是背叛"和"一报还一报"都是一种策略。一般说来,一个策略
(或决策规则)说明在任何可能出现的局势下如何去做。这个局势本身
更多电子书请访问:爱分享 [color=var(--blue-link)]http://www.ishare1.cn 仅供学习和交流,请购买正版支持本书作者
取决于游戏的历史。因此,一个策略在某个相互作用的格局下可能合
作,在另一个格局下则可能背叛。另外,一个策略可以使用概率。例
如,一个规则在每一步都完全随机地以相同的概率选择合作和背叛。一
个策略还可以巧妙地使用至今为止的对策结果来确定下一步该如何做。
例如,一个策略在每一步用复杂的方式(如马尔可夫过程)来仿真对方
的行为,然后用统计推理的方法(如贝叶斯分析)来决定那些从长远来
说似乎是最好的选择。或者,某个策略可以是其他一些策略的复杂的组
合。
你可能忍不住要问:"什么是最好的策略?"换句话说,什么策略能使
对策者得到可能的最高分?这个问题问得很好。但是就像以后要说明的
一样,独立于对方所用策略之外的最好的决策规则是不存在的。从这个
意义上说,"囚徒困境"完全不同于一般游戏,如国际象棋。一个象棋
大师可以有把握地假定对手将走让他最头疼的一步。这种假定是这类游
戏的基础,因为在这里,游戏者的利益是完全对抗的。然而"囚徒困境
"所表示的情形却完全不同,对策者的利益并不是完全冲突的。双方可
以通过合作而得到"对合作的奖励"R,也可以通过背叛而得到"对背叛
的惩罚"P。如果你假定对方总是走你最担忧的一步,那么,你可能会
认为其他人总是不合作,这就会使你也不合作,最后招来无休止的惩
罚。所以与下棋不同,在"囚徒困境"中假定对方一心要赢你是不可靠
的。
事实上,在"囚徒困境"中表现最好的策略直接取决于对方采用的策
略,特别是取决于这个策略为发展双方合作留出多大的余地。这个原则
的基础是下一步相对于当前一步的权重足够大,即未来是重要的。换句
话说,折扣系数W必须大到使未来在全部收益计算中显得很大。总的来
说,如果你认为今后将难以与对方相遇,如果你不太关心自己未来的利
益,那么,你现在最好是背叛,而不用担心未来的后果。
这样,我们得到了第一个正式的命题,但却是一个令人伤心的命题,
即:如果未来是重要的,就不存在最优策略。
命题1:如果折扣系数w足够大,则不存在独立于对方所采用的策略的最
优策略。
证明这个命题是不困难的。设想对方采用"总是背叛"策略,也就是他
决不会合作,那么,不难理解你最好也是总是背叛。另外,假定对方采
用一个被称为"永久报复"的策略,这个策略首先是采取合作直到你背
|