內容簡介:
賽局理論最好看的入門書!


賽局理論又稱博奕論,它是經濟學的一個分支,研究人類的策略抉擇與利益衝突。數學家馮紐曼於1940年代正式提出賽局理論,很快受到經濟學家、社會科學家、軍事戰略家的重視,《美國數學學會學報》甚至認為賽局理論是二十世紀前半葉最重要的科學成就之一。事後看來,這項預測並沒有落空,賽局理論不但被學者用來解釋生物演化、社會組織、政治決策,同時也深入大眾文化,直至今日我們仍常常在電影中看到各種賽局。

文筆流暢的專欄作家龐士東精於分析數理模型,本書是他的代表作,用淺顯的語言向讀者介紹賽局理論的原理,以及常見的決策困境。同時,內文也穿插描述賽局理論蓬勃發展的背景,美蘇核武競賽正是典型的囚犯兩難。而提出賽局理論的馮紐曼,這位人稱天才的數學家,在暗潮洶湧的冷戰中,充份發揮了他的影響力。


作者簡介:
威廉‧龐士東

畢業於麻省理工學院,主修物理,定居於洛杉磯。著作包括《如何移動富士山》《天才數學家的秘密賭局》《卡爾‧薩根傳》等。他也為《君子》《哈潑》《經濟學人》等雜誌撰稿。


譯者簡介:
葉家興

台灣大學電機工程學士、經濟學碩士,美國威斯康辛大學商學博士,現任香港中文大學財金系副教授。譯有《經濟學與社會的對話》《世代風暴》《自動千萬富翁》《助人為獲利之本》《起步晚,照樣致富》《理財最重要的一件事》《期貨教父梅拉梅德》《糧食戰爭》,並為蘋果日報〈經濟人語〉專欄撰稿。


內文試閱:
11其他的社會兩難
到目前為止,我們已經了解人們會遇到的兩種非常重要的兩難困境。還有其他的嗎?

一九六六年,密西根大學的蓋爾和拉波普特對所有簡單賽局進行了分類。最簡單的賽局有兩個參與者,在兩個可能策略中做選擇。我們可以合理地相信這些2 × 2的賽局應該是特別重要和普遍的。囚犯困境和膽小鬼當然也是2 × 2賽局。報酬只是簡單分成幾個偏好順序而非特定數值的2 × 2賽局共有七十八個。

如果每一個參與者在條件相當的情況下有相同的報酬,這樣的賽局稱為對稱賽局:如果參與者A是唯一的合作者,他的報酬就跟參與者B是唯一合作者時的報酬一樣,依此類推。對稱賽局是最容易理解的,在社會互動中大概也是最重要的。全世界的凡人都大同小異,世上沒有什麼衝突比想要同樣東西的凡人之間的衝突更普通、更充滿辛酸了。因此讓我們看看一下這些對稱賽局。

對稱的2 × 2賽局只有四種報酬需要我們關注。以下用「CC」表示雙方合作時每人的報酬,「DD」表示雙方互相背叛時的報酬。一方合作、另一方背叛時,唯一的合作者的報酬用「CD」表示,唯一的背叛者的報酬則用「DC」表示。
2 × 2對稱賽局的所有變化版本取決於四個報酬CC、DD、CD和DC的相對值。跟過去一樣,讓我們以參與者的偏好程度為它們排列順序(既然這是對稱賽局,兩個參與者必然有一致的排序)。讓我們進一步假定不同的報酬不存在「平手」,也就是參與者對任兩個報酬的偏好總有不同。

定好四個報酬的偏好程度之後,就出現了一個賽局。例如,當有以下關係時,

DC > CC > DD > CD

就意味著參與者認為DC結果好於CC,CC結果好於DD,DD結果又好於CD,而這樣的賽局就是囚犯困境(一般對囚犯困境還有一個進一步的要求,就是DC和CD這兩個報酬的平均值小於CC報酬;但只有參與者已經指定報酬數值的情況下才有這個要求。我們這裡只對報酬排序)。

四個報酬有二十四種可能的排序,因此共有二十四種對稱的2 × 2賽局。這二十四種並非全是兩難賽局;在大多數情況下,正確的策略是很明顯的。

在囚犯困境和膽小鬼難題中,令人迷惑的是,個體的理性反而破壞了共同的利益。任一方都希望對方合作,但他自己卻傾向背叛。

讓我們用一般的話來解釋其中含意。CC勝過CD,這表示當你選擇合作時,對手也選擇合作對你會比較好。DC比DD好則是說,雖然你自己背叛,你仍希望對方合作。

在四種報酬的二十四個可能排序中,正好有一半是CC好於CD,也正好有一半是DC優於DD,而同時滿足這兩者的只有六種,分別是:

CC > CD > DC > DD
CC > DC > CD > DD
CC > DC > DD > CD
DC > CC > CD > DD
DC > CC > DD > CD
DC > DD > CC > CD

這六種情況並非全是難局。如果背叛結果總是不好,每個人都會想避免。所以真要成為兩難的話,必須存在引誘你背叛的因素——否則為什麼要背叛呢?

在囚犯困境中,有強烈引誘你背叛的因素:不管對方怎麼做,你的背叛對自己都比較好。這種引誘不一定那麼明顯,不見得一眼就能看出會造成困境。你可能只是有一種對方會準備怎麼做的預感,而你知道如果預感正確,背叛便對你有利。這就可能造成你背叛,即使預感不對時你並沒有背叛的誘因。

因此,我們要求以下兩個條件之一獲得滿足:當對方合作時,你有背叛的誘因(DC > CC);對方背叛時,你有背叛的誘因(DD > CD)——當然兩個條件都滿足也行。

這樣一來,上述六個賽局的前面兩個就被排除掉了。當報酬的偏好順序為CC > CD > DC > DD或CC > DC > CD > DD時,背叛的誘因完全不存在。不但相互合作是最好的結果,甚至不管對方怎麼做,合作都比背叛更能保證自己獲得較好結果。

還留下四種賽局,它們都非常重要,值得各取一個名字:

DC > DD > CC > CD僵局
DC > CC > DD > CD囚犯困境
DC > CC > CD > DD膽小鬼
CC > DC > DD > CD圍捕公鹿

這四種賽局在現實互動中都很常見,因此被稱為「社會難題」。四個社會難題還是密切相關的。把囚犯困境中兩個相鄰報酬的偏好程度交換一下,就可以導出其他三個賽局。囚犯困境是重心,其他三個彷彿圍繞它運行。把囚犯困境的懲罰性報酬和傻瓜報酬對調後就是膽小鬼。把囚犯困境的獎勵性報酬和誘惑性報酬相互交換便成了圍捕公鹿。僵局則是把囚犯困境的獎勵性報酬和懲罰性報酬對調後的樣子。下面讓我們觀察一下後面兩種新的賽局。

僵局
這四種賽局中,僵局是比較不棘手的,如下表所示(最壞結果的效用定義為零):

合作
背叛

合作
1, 1
0, 3

背叛
3, 0
**2, 2**


在僵局中,參與者很快猜到他應該選擇背叛。如同在囚犯困境中一樣,不管對方怎麼做,背叛總會得到較好的結果。與囚犯困境的區別則在於,僵局中的雙方偏好相互背叛大於相互合作。

參與者選擇背叛是希望得到3點。但即使雙方都背叛,也不算悲劇,都得到次佳的結果,也就是2點,比他們選擇合作要強。因此,僵局完全不是什麼難題,這裡完全沒有理由猶豫不決:你必須背叛。相互背叛是一個納許均衡。

僵局發生的情況是雙方無法合作,因為任何一方都不是真心想合作,只希望對方合作(變成傻瓜)。並非所有裁武協議的失敗都是囚犯困境的結果,那也許是雙方都不想真正裁武所造成的。很可能一九五五年美蘇之間的「希望時刻」正是僵局的一個實例。

圍捕公鹿
「圍捕公鹿」更像是兩難困境。它跟「膽小鬼」一樣讓人回憶起青少年時期的兩難。學校放假前夕,你和朋友決定開一個天大的玩笑來結束這個學期:剪一頭搞怪的髮型去上學。在彼此的鼓勵下,你們兩人都發誓要剪這個髮型。

當晚你猶豫了。你預料到父母親和老師會對這種髮型做出強烈反應,因此開始懷疑你的朋友是否真的會照計畫去做。

不是你不想讓計畫成功實現:你和你朋友都剪了搞怪髮型(CC)當然是最好的結果。

麻煩在於,如果我一個人拿這種髮型去出醜(CD)就太可怕了,這將是最壞的結果。

但如果你不剪,而你的朋友剪了,他看來像一個真正的怪物,他難堪不已,你也高興不起來。這種結果(DC)比不上兩人都剪了搞怪髮型。

經過反覆思考,你得出結論:如果沒有一個人剪搞怪髮型(DD),事情不至於真的那麼糟。也許大家都把這件事忘了(媽媽就是這麼說的)。

在所有可能的結果中,你的首選是互相合作(兩人都剪這種髮型),其次是單方面背叛(你不剪,而你的朋友剪了),第三是相互背叛(都害怕而不剪),最糟的是單方面合作(你剪了怪髮型,你的朋友沒有剪)。假定你的朋友也有相同的偏好順序,而且理髮店九點鐘關門。你該怎麼做呢?

這當中有一件怪事是:它本來完全不應該成為難題。你當然應該合作,把頭髮剪了。如果你們兩人都這麼做,雙方都將獲得最好的回報。是什麼壞了這件好事呢?那就是你的朋友可能不那麼理性。如果你的朋友臨陣退怯,你當然也想打退堂鼓。

這個賽局在理論文獻中有許多名稱,包括「信任的難題」、「保證賽局」、「協作賽局」等等,但這些沒有特色的名稱最後被富有詩意的「圍捕公鹿」所取代,它源自瑞士出生的哲學家盧梭在《論人類不平等的起源和基礎》書中的一個隱喻。

盧梭的著作把原始人理想化,他認為大多數社會弊病是文明本身的產物。他的哲學是基於對史前社會的揣測和不準確的概念。在《論人類不平等的起源和基礎》中,他嘗試為自己的論點提供「科學的」依據,因此舉了一些關於旅行者的民間故事為例,現今看來非常魔幻寫實。其中一則故事講的是貢獻給奧蘭治公爵腓特烈.亨利的紅毛猩猩,牠躺在床上睡覺,頭擺在枕頭上,會用茶杯喝水。根據紅毛猩猩對婦女發生性趣的報導,盧梭推測牠們是希臘神話中好色的森林之神。

在《論人類不平等的起源和基礎》的第二部分,盧梭推論,當人們為了打獵而組成暫時的聯盟時,最初的人類社會就開始了:

在追獵公鹿這類事中,每個人都很清楚知道自己必須忠實地堅守崗位。但如果碰巧有一隻野兔從他身旁跑過,我們不得不懷疑他會毫不猶豫地離開崗位去抓那隻兔子。一旦他抓到了自己的獵物,他也就不太在意同伴們因此失去原本的獵物了。

這裡的要點在於,任何人都不夠強壯,無法獨自一人制服一頭公鹿。一個人只能抓住一隻野兔。任何人都寧願要公鹿勝於要野兔,但有野兔又比什麼都沒有強(如果太多成員跑去追野兔的話,獵鹿隊便將一無所獲)。

這個賽局的報酬矩陣如下:

圍捕公鹿
抓野兔

圍捕公鹿
**3, 3**
0, 2

抓野兔
2, 0
1, 1


顯然,相互合作是一個納許均衡。不管怎樣,參與者都不可能有更好的結果。只有當你相信其他人會背叛時,才引誘你也去背叛。由於這個原因,當一個人有理由懷疑其他人是否有理性,或者在團體比較大、參與者眾多而人性難測,容易出現某些人背叛的情況下,此難題就顯得非常尖銳。

叛變可能成為「圍捕公鹿」難題:如果我們推翻船長布萊,大家都會比較好;但如果沒有足夠的船員一起行動,我們就將成為被吊死的叛變者。民選議員有時會支持一個議案卻不願投贊成票,除非確信議案會過關,因為他們不希望站在失敗的少數一方。一九八九年布希總統提出憲法修正案,想讓焚燒美國國旗成為一項聯邦罪名,某些美國參議員在表決時的投票行為就顯然有這種情況。大多數反對者認為這違反了言論自由,但同時他們又害怕投了反對票後議案仍通過,那麼在下一屆選舉時會被對手貼上「不愛國」或「喜歡燒國旗」的標籤。反對此憲法修正案的參議員拜登就引人注目地宣稱:「有超過四十五位參議員會投下反對票,前提是他們知道投下的票將決定勝負。」

「圍捕公鹿」可說描寫了製造原子彈的科學家的道德困境。粗略地表述如下:沒有原子彈,世界也許更好(就像化學家尤列在一九五〇年的一次演說:「不管我在這個項目投入了多大努力,我個人非常希望氫彈沒能成功爆炸。」)但是因為我們的敵人在研製,所以我們也必須去研製。最好是我們有原子彈而我們的敵人沒有;兩邊都有原子彈也好過只有敵人有原子彈。

一九六九年,有關職業曲棍球運動員泰迪.格林頭部受傷的事件,《新聞週刊》寫道:

運動員不帶頭盔的個人因素有幾個。芝加哥的球星鮑比.赫爾說出了最簡單的因素:「沒意義。」但許多運動員真的相信頭盔會降低活動力,使他們不利於比賽,還有些人是害怕被對手嘲笑。只有像格林那樣的受傷所導致的恐懼,或者制定一個規則強迫運動員戴頭盔,頭盔的使用才會普及……有一個運動員總結了許多人的想法:「不戴頭盔很愚蠢。但是我不戴——因為其他人也不戴。我知道這很傻,但大多數運動員也是這麼想的。如果曲棍球聯盟要求我們戴,那麼大家都會戴,也就不會有人在意了。」

不對稱賽局
前面描述的社會難題都是對稱賽局,也就是兩個參與者具有相同的偏好。然而偏好不一定是相同的。很可能一個參與者有「囚犯困境」中的偏好,另一個參與者有「膽小鬼」或「圍獵公鹿」中的偏好。這類混合型賽局也有一些已經成為人類衝突的類型。

「惡棍」賽局是「膽小鬼」和「僵局」的混和。某個參與者和「膽小鬼」中的參與者有相同的偏好:喜歡背叛,但害怕互相背叛。另一個參與者有「僵局」的偏好,也就是不顧一切地偏好背叛(當然,若對方合作,自己會更好)。這兩組偏好所構成的賽局看起來如下:

「僵局」參與者

合作
背叛

「膽小鬼」參與者
合作
2, 1
**1, 3**

背叛
3, 0
0, 2


惡棍賽局的一個例子是顯示所羅門王智慧的那則聖經故事:兩位婦女都宣稱同一個孩子是她的兒子,當然,有一位是真正的母親,另一位是騙子。所羅門王提出把孩子劈成兩半的建議。聽到這個可怕的建議,一位婦女放棄了她對孩子的權利,所羅門王卻把孩子判給了她。真正的母親愛子至深,情願放棄以挽救孩子的性命。

換句話說,真正的母親有「膽小鬼」參賽者那樣的偏好。刀懸在孩子頸上,而難題就是選擇堅定不移(背叛)還是選擇讓步(合作)。真正的母親當然最希望自己獲勝——堅定不移地主張孩子屬於自己,而騙子讓步;但她面對的最壞結果是兩個女人都不讓步,於是孩子要被劈成兩半。

騙子則有「僵局」參賽者那樣的偏好。她顯然情願看到孩子被殺死,而不願意看到孩子重回生母的懷抱。此賽局的名字「惡棍」就是這樣來的。「僵局」參賽者有能力做個背叛到底的惡棍,「膽小鬼」參賽者卻沒有能力阻止,所以真正的母親能做的只有忍痛割愛,選擇合作,放棄兒子。因此,讓步的女人是真正的母親。

「惡棍」是某種軍事對抗的模型:一個國家情願發動一場戰爭,而另一個國家把戰爭視作災難,不惜一切代價去避免。倘使這是個精確的模型,其結論將令人沮喪:好戰的一方往往志得意滿,而愛好和平的一方則為了保住和平而受掠奪。然而更糟的在後頭:實際上國家的偏好是易變的,感覺到自己受了掠奪的國家也許認為歸根到底戰爭不是那麼壞的。

如何讓合作是合理的?
《賽局理論簡易入門》作者莫頓.戴維斯說,普通人對囚犯困境的反應常常不是問應該怎麼做,而是問怎麼能證明合作是正當的。從文獻上看,這同樣也是許多賽局理論專家的反應。社會難題的文獻中包含許許多多的解決方案和處方,其中有一些顯示了神學家充滿希望的機智。討論囚犯困境的文章最多,也有非常多文章企圖證明在「膽小鬼」和「圍捕公鹿」中採用合作策略是正當的。如果在這些說法中有某個反覆出現的主題,那就是:迴避社會難題比解決它容易得多。

首先是「有罪的」論點:在囚犯困境中,引誘性的報酬是有瑕疵的東西,獲得它的代價是背叛某個人,所以你最好選擇合作,至少你可以因此安眠。

這種分析是錯誤的,因為它引入了良心或內疚這種額外的「報酬」。再說,它又出現了混淆效用和有形收益的問題。這點非常重要,值得小心思考。

假若你參加一個囚犯困境實驗,獎金之高對你和另一位參與者都極有吸引力,比如說,依次為五百萬、三百萬、一百萬、零元,你將怎麼做?

如果筆者處於這個實驗,我會選擇合作,但是我壓根不會把它當作囚犯困境,因為我情願要相互合作的結果(雙方都得三百萬),而不是單方面背叛的結果(我得五百萬,對方得零);三百萬元足夠我買任何想要的東西了,所以額外的兩百萬元提供不了太多的額外效用——也許遠少於我幫助另一個人也得三百萬元所獲得的滿足感。而我若會考慮背叛,也是因為害怕另一個人背叛。我當然情願要一百萬元(雙方都背叛)而不是一分錢也得不到(我合作而對方背叛),而且如果我確信對方也準備背叛的話,我不會因我的背叛而感到不安。因此,我的決定主要取決於我是否認為對方會背叛,這更像是心理學問題,而不是賽局理論了。

然而,這僅僅是囚犯困境的一半;它涉及了擔心的因素,還沒有涉及貪婪的因素。如果另一個參與者也選擇相互合作而不是單方面背叛,這個賽局就是「圍捕公鹿」了。不過,圍捕公鹿比起囚犯困境是比較不那麼棘手的賽局:相信對方是理性的理性參與者將選擇合作。

關鍵在於,一組有形的報酬並不足以保證囚犯困境的存在。對於具有強烈同理心的人來說,不會有什麼囚犯困境。只有當兩個人的偏好按一定方式排序時才會出現囚犯困境。如果你的偏好永遠不同於這種模式——背叛引起的罪惡感超出在任何可能情況下你個人獲得的好處——那麼你永遠也不會發現自己處於囚犯困境。打一個簡單的比方吧,如果你從來不愛吃午餐,那麼你就從來沒有飢餓這回事。

當然,這解不開謎底。我們不容否認,許多人的選擇確實造成了囚犯困境。

有人認為溝通是「解決方案」,透過溝通能減少囚犯困境出現的次數。雙方應該溝通他們各自的意圖,並達成自願協議以求得合作。

你不會看到有多少論點支持這是可行的好建議。不過它倒是再次讓我們跳出囚犯困境有意限制的範圍。在真有可能進行事先協商並自願達成協議的情況下,確實不會出現囚犯困境。缺乏溝通,或者更確切地說,缺乏任何讓事先協議自動達成的方式,是囚犯困境的核心要素。一個能充分溝通和絕對誠信的世界不會出現囚犯困境,但這不是我們生活在其中的世界。

結論顯而易見了:只要可能,就應當避免囚犯困境出現!

我們已經看到了正當化合作的最常用方法,就是去問:「如果每個人都這樣做呢?」這個論點還可以進一步擴充成:不管你怎麼做,你的對手真的要合作,或者傾向於合作,所以你最好合作。

沒有人比拉波普特更努力尋求合作之道,他在《戰鬥、賽局和辯論》書中說:

每個參與者總會詳細研究整個報酬矩陣。他問的第一個問題是:「什麼情況對我們雙方最有利?」在我們的例子中,答案是唯一的:相互合作。他的下一個問題是:「為了達到這一選擇,需要什麼前提?」答案是:雙方都做出「不管自己怎麼做,對方也將怎麼做」的同樣假設。結論:「我是兩方當中的一方,因此我會這麼假設。」

許多人認為這類論點很有吸引力,其他人則不以為然。反對的論點可能像這樣:當我還是孩子時,媽媽告訴我不要到地下室去,因為那裡有妖怪。通往地下室的樓梯搖搖晃晃,常有些危險的東西掉在那裡,所以我最好相信有妖怪在地下室。但是,只因為你最好相信某件事,並不意味這件事是真實的。

囚犯困境只有在一種情況下才有望獲得解決,那就是每個人都相信另一個參與者的選擇將反映出他自己的選擇。然而,並非每個人都這樣相信,也無法強迫另一個參與者跟你有一樣的行為。

有人進一步發展了這一概念,聰明地推論,在囚犯困境中,你應該自覺地採用合作的策略,因為,嗯,因為我們對囚犯困境所了解的一切。凡事豫則立。既然我們已認清囚犯困境是怎麼回事了,也清楚人們按自己個人的理性行事為什麼會陷入麻煩了,於是我們每當處於囚犯困境時,就應該以合作解決問題。

上述概念認為,囚犯困境屬於邏輯學的灰色地帶。合作或背叛都無法被證明為正確的。你可能成為背叛類型的人,也可能成為合作類型的人。但是合作者的報酬比較好(至少在另一方也是合作者的情況下)。這就是為什麼我們應該了解和選擇合作。

這種論點同樣也有支持者和懷疑者。一個問題是:若囚犯困境中有個鐵定選擇合作策略的人,那是否還能被稱為兩難?如果你用餐時總是選豬肝和洋蔥,那你根本就不需要菜單,因為你沒有什麼要決定的。如果你總是選擇合作,那麼你根本不需要看報酬表——因此也許你根本就沒有面臨難題。

讓我們回憶一下馮紐曼當初是怎麼把數字矩陣和人的感情拿來比較吧。賽局理論基本上是關於極大化的抽象問題。嚴格說來,拿賽局來比擬人與人之間的衝突,只是一個微妙的類比罷了。這就好比基礎算術教科書裡提到的兩個橘子加三個橘子等於五個橘子,但實際上,算術跟橘子根本就是風馬牛不相干的。

人們常常希望在比賽中有一些數值化的東西,像是錢或點數。大多數場合下,人們的行動是讓這些數值化的東西愈多愈好,因此就有了數值極大化的類比。如果人們不能確實極大化個人收益,類比就不成立,賽局理論就毫無用處了。一個始終放棄背叛帶來的好處的理性者,而他的這種行為又不能影響其他參與者的選擇時,他就不是在極大化自己的有形獲利。這本身並沒有什麼錯,卻意味著報酬表裡的數字沒有說出全部的故事。數值以外的某些東西起了更重要的作用。

報酬表中的數字應該反映你的真實偏好,把罪惡感、幫助別人的滿足感、甚至在囚犯困境中選擇合作的那種知識份子偏好都考慮進去。如果你在囚犯困境中總是傾向合作,這種選擇便使難題不再成為難題。也就是說,如果賽局中的某個參與者總是「不分青紅皂白」地選擇合作,那賽局就不是囚犯困境了。
資料來源:http://www.taaze.tw/sing.html?pid=11304779592