⑴ 博弈論有那些 經典 的案例 囚徒博弈已知 主要是其他的 最好有分析
一、博弈的基本概念
博弈論的基本概念包括:參與人、行為、信息、戰略、支付函數、結果、均衡。
參與人是指博弈中選擇行動以最大化自身利益(效用、利潤等)的決策主體(如個人、廠商、國家)。
行動是指參與人的決策變數。
戰略是指參與人選擇行動的規則,它告訴參與人在什麼時候選擇什麼行動。
例如,「人不犯我、我不犯人;人若犯我、我必犯人」是一種戰略。這里,「犯」與「不犯」是兩種不同的行動。戰略規定了什麼時候選擇「犯」,什麼時候選擇「不犯」。
信息是指參與人在博弈中的知識,特別是有關其他參與人(對手)的特徵和行動的知識。
支付函數是參與人從博弈中獲得的效用水平,它是所有參與人戰略或行動的函數,是每個參與人真正關心的東西。結果是指博弈者感興趣的要素的集合。
均衡是所有參與人的最優戰略或行動的組合。
上述概念中,參與人、行動、結果統稱為博弈規則。博弈分析的目的是使用博弈規則決定均衡。
二、博弈的分類
根據博弈者選擇的戰略,可以將博弈分成合作博弈(cooperative games)與非合作博弈(non-cooperative games).合作博弈與非合作博弈之間的區別,主要在於博弈的當事人之間能否達成一個有約束力的協議。如果有,就是合作博弈;反之,就是非合作博弈。
根據參與人行動的先後順序,可以將博弈分成靜態博弈(static game)與動態博弈(dynamic game)。靜態博弈是指,博弈中參與人同時選擇行動;或者雖非同時行動,但行動在後者並不知道行動在先者採取了什麼具體行動。動態博弈是指參與人的行動有先後順序,而且行動在後者可以觀察到行動在先者的選擇,並據此作出相應的選擇。
根據參與人對其他參與人的了解程度,可以將博弈分成完全信息博弈(games of complete information)和不完全信息博弈(games of incomplete information)。完全信息博弈是指:在每個參與人對所有其他參與人(對手)的特徵、戰略和支付函數都有精確了解的情況下,所進行的博弈。如果了解得不夠精確,或者不是對所有的參與人都有精確的了解,在這種情況下進行的博弈就是不完全信息博弈。
博弈論中的一個經典案例--囚徒困境
----"囚徒困境"說的是兩個囚犯的故事。這兩個囚徒一起做壞事,結果被警察發現抓了起來,分別關在兩個獨立的不能互通信息的牢房裡進行審訊。在這種情形下,兩個囚犯都可以做出自己的選擇:或者供出他的同夥(即與警察合作,從而背叛他的同夥),或者保持沉默(也就是與他的同夥合作,而不是與警察合作)。這兩個囚犯都知道,如果他倆都能保持沉默的話,就都會被釋放,因為只要他們拒不承認,警方無法給他們定罪。但警方也明白這一點,所以他們就給了這兩個囚犯一點兒刺激:如果他們中的一個人背叛,即告發他的同夥,那麼他就可以被無罪釋放,同時還可以得到一筆獎金。而他的同夥就會被按照最重的罪來判決,並且為了加重懲罰,還要對他施以罰款,作為對告發者的獎賞。當然,如果這兩個囚犯互相背叛的話,兩個人都會被按照最重的罪來判決,誰也不會得到獎賞。
----那麼,這兩個囚犯該怎麼辦呢?是選擇互相合作還是互相背叛?從表面上看,他們應該互相合作,保持沉默,因為這樣他們倆都能得到最好的結果:自由。但他們不得不仔細考慮對方可能採取什麼選擇。A犯不是個傻子,他馬上意識到,他根本無法相信他的同夥不會向警方提供對他不利的證據,然後帶著一筆豐厚的獎賞出獄而去,讓他獨自坐牢。這種想法的誘惑力實在太大了。但他也意識到,他的同夥也不是傻子,也會這樣來設想他。所以A犯的結論是,唯一理性的選擇就是背叛同夥,把一切都告訴警方,因為如果他的同夥笨得只會保持沉默,那麼他就會是那個帶獎出獄的幸運者了。而如果他的同夥也根據這個邏輯向警方交代了,那麼,A犯反正也得服刑,起碼他不必在這之上再被罰款。所以其結果就是,這兩個囚犯按照不顧一切的邏輯得到了最糟糕的報應:坐牢。
----當然,在現實世界裡,信任與合作很少達到如此兩難的境地。談判、人際關系、強制性的合同和其他許多因素左右了當事人的決定。但囚徒的兩難境地確實抓住了不信任和需要相互防範背叛這種真實的一面。讓我們看看冷戰時期兩個超級大國將自己鎖定在一場40年的軍備競賽中,其結果對雙方都毫無益處。還有各國的貿易保護主義的永恆傾向。
----但是,無論在自然界還是在人類社會,"合作"都是一種隨處可見的現象。那麼,問題就出現了:到底是何種機制促使生物體或者人類進行相互合作呢?
----這個問題的答案大部分歸功於美國密西根大學一位叫做羅伯特?愛克斯羅德的人。愛克斯羅德是一個政治科學家,對合作的問題久有研究興趣。為了進行關於合作的研究,他組織了一場計算機競賽。這個競賽的思路非常簡單:任何想參加這個計算機競賽的人都扮演"囚徒困境"案例中一個囚犯的角色。他們把自己的策略編入計算機程序,然後他們的程序會被成雙成對地融入不同的組合。分好組以後,參與者就開始玩"囚徒困境"的游戲。他們每個人都要在合作與背叛之間做出選擇。
----但這里與"囚徒困境"案例中有個不同之處:他們不只玩一遍這個游戲,而是一遍一遍地玩上200次。這就是博弈論專家所謂的"重復的囚徒困境",它更逼真地反映了具有經常而長期性的人際關系。而且,這種重復的游戲允許程序在做出合作或背叛的抉擇時參考對手程序前幾次的選擇。如果兩個程序只玩過一個回合,則背叛顯然就是唯一理性的選擇。但如果兩個程序已經交手過多次,則雙方就建立了各自的歷史檔案,用以記錄與對手的交往情況。同時,它們各自也通過多次的交手樹立了或好或差的聲譽。雖然如此,對方的程序下一步將會如何舉動卻仍然極難確定。實際上,這也是該競賽的組織者愛克斯羅德希望從這個競賽中了解的事情之一。一個程序總是不管對手作何種舉動都採取合作的態度嗎?或者,它能總是採取背叛行動嗎?它是否應該對對手的舉動回之以更為復雜的舉措?如果是,那會是怎麼樣的舉措呢?
----事實上,競賽的第一個回合交上來的14個程序中包含了各種復雜的策略。但使愛克斯羅德和其他人深為吃驚的是,競賽的桂冠屬於其中最簡單的策略:一報還一報(TIT FOR TAT)。這是多倫多大學心理學家阿納托?拉帕波特提交上來的策略。一報還一報的策略是這樣的:它總是以合作開局,但從此以後就採取以其人之道還治其人之身的策略。也就是說,一報還一報的策略實行了胡蘿卜加大棒的原則。它永遠不先背叛對方,從這個意義上來說它是"善意的"。它會在下一輪中對對手的前一次合作給予回報(哪怕以前這個對手曾經背叛過它),從這個意義上來說它是"寬容的"。但它會採取背叛的行動來懲罰對手前一次的背叛,從這個意義上來說它又是"強硬的"。而且,它的策略極為簡單,對手程序一望便知其用意何在,從這個意義來說它又是"簡單明了的"。
----當然,因為只有為數不多程序參與了競賽,一報還一報策略的勝利也許只是一種僥幸。但是,在上交的14個程序中,有8個是"善意的",它們永遠不會首先背叛。而且這些善意的程序都輕易就贏了6個非善意的程序。為了決出一個結果來,愛克斯羅德又舉行了第二輪競賽,特別邀請了更多的人,看看能否從一報還一報策略那兒將桂冠奪過來。這次有62個程序參加了競賽,結果是一報還一報又一次奪魁。競賽的結論是無可爭議的。好人,或更確切地說,具備以下特點的人,將總會是贏家。
---- 1.善意的; 2.寬容的; 3.強硬的; 4.簡單明了的。
----一報還一報策略的勝利對人類和其他生物的合作行為的形成所具有的深刻含義是顯而易見的。愛克斯羅德在《合作進化》一書中指出,一報還一報策略能導致社會各個領域的合作,包括在最無指望的環境中的合作。他最喜歡舉的例子就是第一次世界大戰中自發產生的"自己活,也讓他人活"的原則。當時前線戰壕里的軍隊約束自己不開槍殺傷人,只要對方也這么做。使這個原則能夠實行的原因是,雙方軍隊都已陷入困境數月,這給了他們相互適應的機會。
----一報還一報的相互作用使得自然界即使沒有智能也能產生合作關系。這樣的例子很多:真菌從地下的石頭中汲取養分,為海藻提供了食物,而海藻反過來又為真菌提供了光合作用;金蟻合歡樹為一種螞蟻提供了食物,而這種螞蟻反過來又保護了該樹;無花果樹的花是黃蜂的食物,而黃蜂反過來又為無花果樹傳授花粉,將樹種撒向四處。
----更廣泛地說,共同演化會使一報還一報的合作風格在這個充滿背信棄義劣行的世界上蔚然成風。假設少數採取一報還一報策略的個人在這個世界上通過突變而產生了。那麼,只要這些個體能互相遇見,足夠在今後的相逢中形成利害關系,他們就會開始形成小型的合作關系。一旦發生了這種情況,他們就能遠勝於他們周圍的那些背後藏刀的類型。這樣,參與合作的人數就會增多。很快,一報還一報式的合作就會最終占上風。而一旦建立了這種機制,相互合作的個體就能生存下去。如果不太合作的類型想侵犯和利用他們的善意,一報還一報政策強硬的一面就會狠狠地懲罰他們,讓他們無法擴散影響。
----現在,對博弈論的研究是如此地廣泛,以致於有些人說最新的經濟學和管理科學都已經利用博弈論的理論和工具重寫過了。博弈論中有很多有趣而富於哲理的案例,一報還一報就是其中的一個。它那種善意、寬容、強硬、簡單明了的合作策略無論對個人還是對組織的行為方式都有很大的指導意義
參考資料:YAHOO!知識堂
⑵ 如何走出囚徒困境的國際關系案例
解決囚徒困境的最好辦法是多次博弈
可以二戰後法德和解並聯手走上一體化道路為案例
⑶ 求:生活中的「囚徒困境」的一個例子
現在考慮一個囚徒困境的具體應用。
兩個人上了一輛公共汽車。車上只剩兩個狹小的相鄰空座位。每個人要決定是坐下還是站著。單獨坐著比坐在別人旁邊舒服,而坐在別人旁邊又比站著舒服。
a. 假設每個人都是自私的,即只考慮自己的舒適度。
b. 假設每個人都是利他的,即根據別人的舒適度來衡量自己行動的回報,並且出於禮貌,如果別人站著,自己也選擇站著而非坐下。
問題:這兩種情況的策略博弈模型分別是怎樣的?它們是否是囚徒困境模型?有沒有納什均衡?
a.此時的博弈模型如下表:
可以看出,這個博弈不是囚徒困境博弈(不管是把坐下假設為沉默、把站著假設為告密還是相反,都不符合囚徒困境的特徵),但此博弈有唯一的納什均衡:(坐下,坐下)。
b. 此時的博弈模型如下表(α>0):
可以看出,當α<1時,這個博弈是囚徒困境博弈。同時,不管α是何值,此博弈有唯一的納什均衡:(站著,站著)。
比較a和b這兩種情況的納什均衡,可以得出一個有趣的結論:當每個人都自私的時候,要比人人都利他的時候過得更舒服一些。
至少在坐公共汽車的時候是這樣。
具體資料可以看:http://cache..com/c?word=%C7%F4%CD%BD%3B%C0%A7%BE%B3%2C%B5%C4%3B%D2%BB%B8%F6%3B%C0%FD%D7%D3&url=http%3A//www%2Ereadfree%2Enet/bbs/htm%5Fdata/88/0606/186682%2Ehtml&b=15&a=17&user=
⑷ 請教一些「囚徒困境」的例子,最好是以市場營銷為出發點
資料被客戶提前獲知
⑸ 簡述什麼是囚徒困境問題
囚徒困境(prison
dilemma)是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇並非團體最佳選擇。雖然困境本身只屬模型性質,但現實中的價格競爭、環境保護等方面,也會頻繁出現類似情況。
單次發生的囚徒困境,和多次重復的囚徒困境結果不會一樣。
在重復的囚徒困境中,博弈被反復地進行。因而每個參與者都有機會去「懲罰」另一個參與者前一回合的不合作行為。這時,合作可能會作為均衡的結果出現。欺騙的動機這時可能被受到懲罰的威脅所克服,從而可能導向一個較好的、合作的結果。作為反復接近無限的數量,納什均衡趨向於帕累托最優。
囚徒困境的主旨為,囚徒們雖然彼此合作,堅不吐實,可為全體帶來最佳利益(無罪開釋),但在資訊不明的情況下,因為出賣同夥可為自己帶來利益(縮短刑期),也因為同夥把自己招出來可為他帶來利益,因此彼此出賣雖違反最佳共同利益,反而是自己最大利益所在。但實際上,執法機構不可能設立如此情境來誘使所有囚徒招供,因為囚徒們必須考慮刑期以外之因素(出賣同夥會受到報復等),而無法完全以執法者所設立之利益(刑期)作考量。
經典的囚徒困境
[編輯本段]
1950年,由就職於蘭德公司的梅里爾·弗勒德(merrill
flood)和梅爾文·德雷希爾(melvin
dresher)擬定出相關困境的理論,後來由顧問艾伯特·塔克(albert
tucker)以囚徒方式闡述,並命名為「囚徒困境」。經典的囚徒困境如下:
警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人入罪。於是警方分開囚禁嫌疑犯,分別和二人見面,並向雙方提供以下相同的選擇:
若一人認罪並作證檢控對方(相關術語稱「背叛」對方),而對方保持沉默,此人將即時獲釋,沉默者將判監10年。
若二人都保持沉默(相關術語稱互相「合作」),則二人同樣判監半年。
若二人都互相檢舉(互相「背叛」),則二人同樣判監2年。
用表格概述如下:
甲沉默(合作)
甲認罪(背叛)
乙沉默(合作)
二人同服刑半年
甲即時獲釋;乙服刑10年
乙認罪(背叛)
甲服刑10年;乙即時獲釋
二人同服刑2年
⑹ 囚徒困境的典型例子
1、警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人入罪。於是警方分開囚禁嫌疑犯,分別和二人見面,並向雙方提供以下相同的選擇:
若一人認罪並作證檢控對方(相關術語稱「背叛」對方),而對方保持沉默,此人將即時獲釋,沉默者將判監10年。
若二人都保持沉默(相關術語稱互相「合作」),則二人同樣判監1年。
若二人都互相檢舉(相關術語稱互相「背叛」),則二人同樣判監8年。
兩名囚徒由於隔絕監禁,並不知道對方選擇;而即使他們能交談,還是未必能夠盡信對方不會反口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇:
若對方沉默時,背叛會讓我獲釋,所以會選擇背叛。
若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。
二人面對的情況一樣,所以二人的理性思考都會得出相同的結論——選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達到的納什均衡,就是雙方參與者都背叛對方,結果二人同樣服刑8年。
2、軍備競賽
在政治學中,兩國之間的軍備競賽可以用囚徒困境來描述。兩國都可以聲稱有兩種選擇:增加軍備(背叛)、或是達成削減武器協議(合作)。
兩國都無法肯定對方會遵守協議,因此兩國最終會傾向增加軍備。似乎自相矛盾的是,雖然增加軍備會是兩國的「理性」行為,但結果卻顯得「非理性」(例如會對經濟造成損壞等)。這可視作遏制理論的推論,就是以強大的軍事力量來遏制對方的進攻,以達到和平。
3、關稅戰
兩個國家,在關稅上可以有以兩個選擇:
提高關稅,以保護自己的商品。(背叛)
與對方達成關稅協定,降低關稅以利各自商品流通。(合作)
當一國因某些因素不遵守關稅協定,獨自提高關稅(背叛),另一國也會作出同樣反應(亦背叛),這就引發了關稅戰,兩國的商品失去了對方的市場,對本身經濟也造成損害(共同背叛的結果)。然後二國又重新達成關稅協定(重復博弈的結果是將發現共同合作利益最大)。
4、廣告戰
商業活動中亦會出現各種囚徒困境例子。以廣告競爭為例。
兩個公司互相競爭,二公司的廣告互相影響,即一公司的廣告較被顧客接受則會奪取對方的部分收入。但若二者同時期發出質量類似的廣告,收入增加很少但成本增加。但若不提高廣告質量,生意又會被對方奪走。
此二公司可以有二選擇:
互相達成協議,減少廣告的開支。(合作)
增加廣告開支,設法提升廣告的質量,壓倒對方。(背叛)
若二公司不信任對方,無法合作,背叛成為支配性策略時,二公司將陷入廣告戰,而廣告成本的增加損害了二公司的收益,這就是陷入囚徒困境。在現實中,要二互相競爭的公司達成合作協議是較為困難的,多數都會陷入囚徒困境中。
5、自行車賽
自行車賽事的比賽策略也是一種博弈,而其結果可用囚徒困境的研究成果解釋。例如每年都舉辦的環法自由車賽中有以下情況:選手們在到終點前的路程常以大隊伍(英文:Peloton)方式前進,他們採取這策略是為了令自己不至於太落後,又出力適中。
而最前方的選手在迎風時是最費力的,所以選擇在前方是最差的策略。通常會發生這樣的情況,大家起先都不願意向前(共同背叛),這使得全體速度很慢,而後通常會有二或多位選手騎到前面,然後一段時間內互相交換最前方位置,以分擔風的阻力(共同合作)。
使得全體的速度有所提升,而這時如果前方的其中一人試圖一直保持前方位置(背叛),其他選手以及大隊伍就會趕上(共同背叛)。而通常的情況是,在最前面次數最多的選手(合作)通常會到最後被落後的選手趕上(背叛),因為後面的選手騎在前面選手的沖流之中,比較不費力。
⑺ 囚徒困境在現實中的實例
因為如果兩者都不招供的話,可以無罪釋放;而其中一個招供另一個不招供,則招供者只判一年徒刑,不招供者有十五年牢獄之苦;應該說每個囚徒都知道這三個選擇意味著什麼,但是由於兩者沒有溝通的機會,所以造成無所事從。借用這個話題來描述個體的理性與集體的理性之間的矛盾. 現實生活中這樣的囚徒困境比比皆是,如坐公共汽車,本來大家都知道排隊會更加順利,但是由於大家缺乏行動的一致性,結果造成整個上車擁擠不堪。 現在中國高等教育不斷擴招所帶來的負面效果也是這樣,大家都把大學文憑和研究生文憑看得太重,認為只有足夠學歷的才是人才,這就造成中國成千上萬莘莘學子奮不顧身勇闖高考這個獨木橋的現像. 一旦把學歷看成一種目的,看得太重,則原來的學歷就會摻雜許多水份,不利於成才。而且社會的需求跟不上擴招的步伐,過量的大學畢業生和研究生就成為社會的負擔了,但仍有後繼者前仆後繼,這就是囚徒困境使然.事實是學歷只不過是一個可有可無的帽子而已,而真正重要的是應該達到或超越學歷所代表的水平. 另一個例子, 戀愛中人,也類似於走入了囚徒困境。如果雙方都不變心,那是最好的結局,在天願為比翼鳥,在地願為連理枝嘛;如果都變了心,效果也不壞,你走你的陽關道,我過我的獨木橋嘛;如果一方變了心,另外找到了更好的情侶,一方卻還傻乎乎地忠貞不二,那麼,另覓新歡的一方是最幸福的,比兩人都不變心的結果還幸福,因為他找見了更好的情人,而被拋棄的一方是最不幸的,比兩人都變心的結果更不幸,因為他承擔的壓力既來自於對方的太幸福,也來自於自己的太不幸福。 按照囚徒困境的分析結論,戀人最得意的選擇是另覓新歡,最天真的選擇是天荒地老,最理性的選擇是分道揚鑣,最糟糕的選擇是被另有新歡的對方無情拋棄。但是,反關現實中的戀人,大都天真的認為能夠天荒地老, 對於最理性的選擇,又認為結局過於殘酷, 沒有誰願意回頭是岸,甚至被對方拋棄了還不死心,反而結果變成了最糟糕的選擇.
⑻ 什麼是囚徒困境
一件嚴重的縱火案發生後,警察在現場抓到兩個犯罪嫌疑人。事實上,正是他們一起放火燒了這座倉庫。但是,警方沒有掌握足夠的證據,只得把他們隔離囚禁起來,要求他們坦白交代。
在這種情形下,兩個囚犯都可以做出自己的選擇:或者供出他的同夥——即與警察合作,從而背叛他的同夥;或者保持沉默——也就是與他的同夥合作,而不是與警察合作。這兩個囚犯都知道,如果他倆都能保持沉默的話,就都會被釋放,因為只要他們拒不承認,警方無法給他們定罪。
但警方也很明白這一點,所以就決定對兩個囚犯來點刺激:如果他們都承認縱火,每人將被判入獄3年;如果他們都不承認,每人將因為缺乏證據而都被釋放:如果一個抵賴而另一個坦白並且願意出來作證,那麼抵賴的將被判入獄5年,還要對他施以罰款,而坦白者將被寬大處理——釋放,同時還可以得到一筆獎金。
那麼,這兩個囚犯該怎麼辦呢?是選擇互相合作還是互相背叛?
從表面上看,他們應該互相合作,保持沉默,因為這樣他們倆都能得到最好的結果:自由。但他們不得不仔細考慮對方可能採取什麼選擇。
A犯不是個傻子,他根本無法相信同夥不會向警方提供對他不利的證據,然後帶著一筆豐厚的獎賞出獄而去,讓他獨自坐牢。這種想法的誘惑力實在太大了。但他也意識到,他的同夥也不是傻子,也會同樣來這樣設想他。
所以A犯的結論是,唯一理性的選擇就是背叛同夥,把一切都告訴警方,因為如果他的同夥笨得只會保持沉默,那麼他就會是那個帶獎出獄的幸運者了。而如果他的同夥也根據這個邏輯向警方交代了,那麼,A犯反正也得服審,起碼他不必服最重的刑。
一番博弈的結果就是。這兩個囚犯按照自己的邏輯做出行動,雙雙坐牢。
上面的故事反應了人們的一種博弈心理,它在心理學上被稱作「囚徒困境」,最早是由美國普林斯頓大學的數學家增克於1950年提出來的。他當時創造出這樣一個故事是為了向美國斯坦福大學的一群心理學家們解釋什麼是博弈論。後來,「囚徒困境」演繹出許多版本,成為博弈論中最著名的案例。
「囚徒困境」告訴我們,在一個存在著相互作用的博弈中,最好的策略直接取決於對方採用的策略,特別是取決於這個策略為發展雙方合作留出多大的餘地。
在大家都非常熟悉的國內的家電大戰中,雖然不是兩個對手之間的博弈,但由於在眾多對手當中,每一方的市場份額都很大,每一個主體人的行為後果受對手行為的影響都很大,因此,其情景大概也是如此。
因而,如果清楚這種前景,雙方勾結或合作起來,都實行比較高的價格,那麼雙方都可以因為避免價格大戰而獲得較高的利潤。有人把這樣一種合作的做法,叫做「雙贏對局」。而這樣的結果,往往雙方將都是「雙贏對局」的贏家。
可惜這些聯盟也往往處於利益驅動的「囚徒困境」。而雙贏也就成為泡影。五花八門的價格聯盟總是非常短命,道理就在這里。
在囚徒困境中,雙方不約而同地選擇背叛而坐牢,一方面的原因是與同夥合作的懲罰遠遠高於所得到的報酬,另一方面也由於這是在信息不透明的情況下進行的一次性決策,不存在更多的後果或者後續的博弈。
舉例來說,在公共汽車上,兩個陌生人會為一個座位爭吵,如果他們認識,可能就會相互謙讓。在夜市地攤、車站和旅遊景點等人群流動性大的地方,不但商品和服務質量最差,而且假冒偽劣橫行,因為在商家和顧客之間沒有後續的博弈,顧客不大可能因為飯菜可口而再次光臨。既然是一錘子買賣,不賺白不賺。
也正是這種心理所驅使,如果一廂情願地選擇合作就要受到懲罰。約翰遜總統在向一群商業界頭面人物說明需要大量資金同前蘇聯進行導彈競賽時,曾經通過下面這個故事來說明這個道理:
1861年,一位得克薩斯州人離家前去參加南軍士兵陣營。他告訴他的鄰居他很快就會回來,這場戰爭不會費力:「因為我們能用掃帚柄揍這些北方佬。」兩年後,他才重返故里,少了一條腿。
他的鄰居向這位神情悲慘、衣衫襤褸的傷兵詢問到底發生了什麼事:「你不是說過戰爭不費力,你們能用掃帚柄揍這些北方佬嗎?」
這位士兵回答:「我們當然能,但是麻煩在於北方佬不用掃帚打仗。」
可是在生活中的大部分情境中,人與人之間都會存在一些後續的接觸和博弈。那麼在這種情況下,我們又應該如何決策呢?
顯然,一味地以德報怨不可取,因為這樣只是將別人的人生成本轉嫁到自己頭上;而一味地以怨報德也不可取,因為這樣將慢慢失去大多數的博弈夥伴和機會。
所以,最好的決策方法還是囚徒困境教給我們的:以德報德、以怨報怨的反射決策。
事實上,這也是日常生活中多數人的理性選擇,也是一個很具適應性的規則。它的有效是由於其他規則預料到它的存在,並且被設計得與它很好相處。因為要和「反射決策」很好相處,就必須採取合作態度,即使那些伺機佔便宜而不被懲罰的規則,也很快改變,因為任何想占「反射決策」便宜的規則最終將傷害自己。
要使這一決策方式發生作用,必須滿足以下條件:
特徵是顯著而且容易識別的;
一旦被識別出來,就必須使對方明白會對一切背叛進行報復,並且使對方很難解脫。
數學家約翰·馮諾依曼曾說過:「在一個存在著相互作用的博弈中,最好的策略直接取決於對方採用的策略,特別是取決於這個策略為發展雙方合作留出多大的餘地。」
總之,反射決策能夠贏得競賽不是靠打擊對方,而是靠從對方引出使雙方都有好處的行為。
⑼ 例舉生活中的囚徒困境
在博弈論中,含有占優戰略均衡的一個著名例子是由塔克給出的「囚徒困境」(prisoners』 dilemma)博弈模型。該模型用一種特別的方式為我們講述了一個警察與小偷的故事。假設有兩個小偷A和B聯合犯事、私入民宅被警察抓住。警方將兩人分別置於不同的兩個房間內進行審訊,對每一個犯罪嫌疑人,警方給出的政策是:如果一個犯罪嫌疑人坦白了罪行,交出了贓物,於是證據確鑿,兩人都被判有罪。如果另一個犯罪嫌疑人也作了坦白,則兩人各被判刑8年;如果另一個犯罪嫌人沒有坦白而是抵賴,則以妨礙公務罪(因已有證據表明其有罪)再加刑2年,而坦白者有功被減刑8年,立即釋放。如果兩人都抵賴,則警方因證據不足不能判兩人的偷竊罪,但可以私入民宅的罪名將兩人各判入獄1年。表2.2給出了這個博弈的支付矩陣。
表2.2 囚徒困境博弈 [Prisoner's dilemma]
——————————————————————————
┃ B ┃ B ┃
————————┃————————┃————————┃
┃ 坦白 ┃ 抵賴 ┃
————————┃————————┃————————┃
A 坦白 ┃ –8, –8 ┃ 0, –10 ┃
————————┃————————┃————————┃
A 抵賴 ┃ –10, 0 ┃ –1, –1 ┃
————————┃————————┃————————┃
我們來看看這個博弈可預測的均衡是什麼。對A來說,盡管他不知道B作何選擇,但他知道無論B選擇什麼,他選擇「坦白」總是最優的。顯然,根據對稱性,B也會選擇「坦白」,結果是兩人都被判刑8年。但是,倘若他們都選擇「抵賴」,每人只被判刑1年。在表2.2中的四種行動選擇組合中,(抵賴、抵賴)是帕累托最優的,因為偏離這個行動選擇組合的任何其他行動選擇組合都至少會使一個人的境況變差。不難看出,「坦白」是任一犯罪嫌疑人的占優戰略,而(坦白,坦白)是一個占優戰略均衡。
要了解納什的貢獻,首先要知道什麼是非合作博弈問題。現在幾乎所有的博弈論教科書上都會講「囚犯的兩難處境」的例子,每本書上的例子都大同小異。
博弈論畢竟是數學,更確切地說是運籌學的一個分支,談經論道自然少不了數學語言,外行人看來只是一大堆數學公式。好在博弈論關心的是日常經濟生活問題,所以不能不食人間煙火。其實這一理論是從棋弈、撲克和戰爭等帶有競賽、對抗和決策性質的問題中借用的術語,聽上去有點玄奧,實際上卻具有重要現實意義。博弈論大師看經濟社會問題猶如棋局,常常寓深刻道理於游戲之中。所以,多從我們的日常生活中的凡人小事入手,以我們身邊的故事做例子,娓娓道來,並不乏味。話說有一天,一位富翁在家中被殺,財物被盜。警方在此案的偵破過程中,抓到兩個犯罪嫌疑人,斯卡爾菲絲和那庫爾斯,並從他們的住處搜出被害人家中丟失的財物。但是,他們矢口否認曾殺過人,辯稱是先發現富翁被殺,然後只是順手牽羊偷了點兒東西。於是警方將兩人隔離,分別關在不同的房間進行審訊。由地方檢察官分別和每個人單獨談話。檢察官說,「由於你們的偷盜罪已有確鑿的證據,所以可以判你們一年刑期。但是,我可以和你做個交易。如果你單獨坦白殺人的罪行,我只判你三個月的監禁,但你的同夥要被判十年刑。如果你拒不坦白,而被同夥檢舉,那麼你就將被判十年刑,他只判三個月的監禁。但是,如果你們兩人都坦白交代,那麼,你們都要被判5年刑。」斯卡爾菲絲和那庫爾斯該怎麼辦呢?他們面臨著兩難的選擇——坦白或抵賴。顯然最好的策略是雙方都抵賴,結果是大家都只被判一年。但是由於兩人處於隔離的情況下無法串供。所以,按照亞當·斯密的理論,每一個人都是從利己的目的出發,他們選擇坦白交代是最佳策略。因為坦白交代可以期望得到很短的監禁———3個月,但前提是同夥抵賴,顯然要比自己抵賴要坐10年牢好。這種策略是損人利己的策略。不僅如此,坦白還有更多的好處。如果對方坦白了而自己抵賴了,那自己就得坐10年牢。太不劃算了!因此,在這種情況下還是應該選擇坦白交代,即使兩人同時坦白,至多也只判5年,總比被判10年好吧。所以,兩人合理的選擇是坦白,原本對雙方都有利的策略(抵賴)和結局(被判1年刑)就不會出現。這樣兩人都選擇坦白的策略以及因此被判5年的結局被稱為「納什均衡」,也叫非合作均衡。因為,每一方在選擇策略時都沒有「共謀」(串供),他們只是選擇對自己最有利的策略,而不考慮社會福利或任何其他對手的利益。也就是說,這種策略組合由所有局中人(也稱當事人、參與者)的最佳策略組合構成。沒有人會主動改變自己的策略以便使自己獲得更大利益。「囚徒的兩難選擇」有著廣泛而深刻的意義。個人理性與集體理性的沖突,各人追求利己行為而導致的最終結局是一個「納什均衡」,也是對所有人都不利的結局。他們兩人都是在坦白與抵賴策略上首先想到自己,這樣他們必然要服長的刑期。只有當他們都首先替對方著想時,或者相互合謀(串供)時,才可以得到最短時間的監禁的結果。「納什均衡」首先對亞當·斯密的「看不見的手」的原理提出挑戰。按照斯密的理論,在市場經濟中,每一個人都從利己的目的出發,而最終全社會達到利他的效果。不妨讓我們重溫一下這位經濟學聖人在《國富論》中的名言:「通過追求(個人的)自身利益,他常常會比其實際上想做的那樣更有效地促進社會利益。」從「納什均衡」我們引出了「看不見的手」的原理的一個悖論:從利己目的出發,結果損人不利己,既不利己也不利他。兩個囚徒的命運就是如此。從這個意義上說,「納什均衡」提出的悖論實際上動搖了西方經濟學的基石。因此,從「納什均衡」中我們還可以悟出一條真理:合作是有利的「利己策略」。但它必須符合以下黃金律:按照你願意別人對你的方式來對別人,但只有他們也按同樣方式行事才行。也就是中國人說的「己所不欲勿施於人」。但前提是人所不欲勿施於我。其次,「納什均衡」是一種非合作博弈均衡,在現實中非合作的情況要比合作情況普遍。所以「納什均衡」是對馮·諾依曼和摩根斯特恩的合作博弈理論的重大發展,甚至可以說是一場革命。
從「納什均衡」的普遍意義中我們可以深刻領悟司空見慣的經濟、社會、政治、國防、管理和日常生活中的博弈現象。我們將例舉出許多類似於「囚徒的兩難處境」這樣的例子。如價格戰、軍奮競賽、污染等等。一般的博弈問題由三個要素所構成:即局中人(players)又稱當事人、參與者、策略等等的集合,策略(strategies)集合以及每一對局中人所做的選擇和贏得(payoffs)集合。其中所謂贏得是指如果一個特定的策略關系被選擇,每一局中人所得到的效用。所有的博弈問題都會遇到這三個要素。
價格戰博弈:
現在我們經常會遇到各種各樣的家電價格大戰,彩電大戰、冰箱大戰、空調大戰、微波爐大戰……這些大戰的受益者首先是消費者。每當看到一種家電產品的價格大戰,百姓都會「沒事兒偷著樂」。在這里,我們可以解釋廠家價格大戰的結局也是一個「納什均衡」,而且價格戰的結果是誰都沒錢賺。因為博弈雙方的利潤正好是零。競爭的結果是穩定的,即是一個「納什均衡」。這個結果可能對消費者是有利的,但對廠商而言是災難性的。所以,價格戰對廠商而言意味著自殺。從這個案例中我們可以引伸出兩個問題,一是競爭削價的結果或「納什均衡」可能導致一個有效率的零利潤結局。二是如果不採取價格戰,作為一種敵對博弈論(vivalry game)其結果會如何呢?每一個企業,都會考慮採取正常價格策略,還是採取高價格策略形成壟斷價格,並盡力獲取壟斷利潤。如果壟斷可以形成,則博弈雙方的共同利潤最大。這種情況就是壟斷經營所做的,通常會抬高價格。另一個極端的情況是廠商用正常的價格,雙方都可以獲得利潤。從這一點,我們又引出一條基本准則:「把你自己的戰略建立在假定對手會按其最佳利益行動的基礎上」。事實上,完全競爭的均衡就是「納什均衡」或「非合作博弈均衡」。在這種狀態下,每一個廠商或消費者都是按照所有的別人已定的價格來進行決策。在這種均衡中,每一企業要使利潤最大化,消費者要使效用最大化,結果導致了零利潤,也就是說價格等於邊際成本。在完全競爭的情況下,非合作行為導致了社會所期望的經濟效率狀態。如果廠商採取合作行動並決定轉向壟斷價格,那麼社會的經濟效率就會遭到破壞。這就是為什麼WTO和各國政府要加強反壟斷的意義所在。