博弈論數學模型
1. 請列舉幾個用「博弈論」在實際生活中分析問題的例子。
1、智豬博弈
假設豬圈裡有一頭大豬、一頭小豬。
豬圈的一頭有豬食槽(兩豬均在食槽端),另一頭安裝著控制豬食供應的按鈕,按一下按鈕會有10個單位的豬食進槽,但是在去往食槽的路上會有兩個單位豬食的體能消耗,若大豬先到槽邊,大小豬吃到食物的收益比是6:4;同時行動(去按按鈕),收益比是7∶3;小豬先到槽邊,收益比是9:1。
那麼,在兩頭豬都有智慧的前提下,最終結果是小豬選擇等待。
"智豬博弈"由納什於1950年提出。
實際上小豬選擇等待,讓大豬去按控制按鈕,而自己選擇「坐船」(或稱為搭便車)的原因很簡單:在大豬選擇行動的前提下,小豬選擇等待的話,小豬可得到4個單位的純收益,而小豬行動的話,則僅僅可以獲得大豬吃剩的1個單位的純收益,所以等待優於行動。
在大豬選擇等待的前提下,小豬如果行動的話,小豬的收入將不抵成本,純收益為-1單位,如果小豬也選擇等待的話,那麼小豬的收益為零,成本也為零,總之,等待還是要優於行動。
當大豬選擇行動的時候,小豬如果行動,其收益是1,而小豬等待的話,收益是4,所以小豬選擇等待;當大豬選擇等待的時候,小豬如果行動的話,其收益是-1,而小豬等待的話,收益是0,所以小豬也選擇等待。
綜合來看,無論大豬是選擇行動還是等待,小豬的選擇都將是等待,即等待是小豬的占優策略。
2、協同攻擊難題
兩個將軍各帶領自己的部隊埋伏在相距一定距離的兩個山上,等候敵人。將軍A得到可靠情報說,敵人剛剛到達,立足未穩。如果敵人沒有防備,兩股部隊一起進攻的話,就能夠獲得勝利;而如果只有一方進攻的話,進攻方將失敗。這是兩位將軍都知道的。
A遇到了一個難題:如何與將軍B協同進攻?那時沒有電話之類的通訊工具,只有通過派情報員來傳遞消息。將軍A派遣一個情報員去了將軍B那裡,告訴將軍B:敵人沒有防備,兩軍於黎明一起進攻。
然而可能發生的情況是,情報員失蹤或者被敵人抓獲。即:將軍A雖然派遣情報員向將軍B傳達「黎明一起進攻」的信息,但他不能確定將軍B是否收到他的信息。
事實上,情報員回來了。將軍A又陷入了迷茫:將軍B怎麼知道情報員肯定回來了?將軍B如果不能肯定情報員回來的話,他必定不會貿然進攻的。於是將軍A又將該情報員派遣到B地。然而,他不能保證這次情報員肯定到了將軍B那裡……
這就是「協同攻擊難題」,它是由格萊斯(J. Gray)於1978年提出。更為糟糕的是,有學者證明,不論這個情報員來回成功地跑多少次,都不能使兩個將軍一起進攻。
(1)博弈論數學模型擴展閱讀
1928年,馮·諾依曼證明了博弈論的基本原理,從而宣告了博弈論的正式誕生。1944年,馮·諾依曼和摩根斯坦共著的劃時代巨著《博弈論與經濟行為》將二人博弈推廣到n人博弈結構並將博弈論系統地應用於經濟領域,從而奠定了這一學科的基礎和理論體系。
1950~1951年,約翰·福布斯·納什利用不動點定理證明了均衡點的存在,為博弈論的一般化奠定了堅實的基礎。納什的開創性論文《n人博弈的均衡點》(1950),《非合作博弈》(1951)等等,給出了納什均衡的概念和均衡存在定理。
此外,萊因哈德·澤爾騰、約翰·海薩尼的研究也對博弈論發展起到推動作用。今天博弈論已發展成一門較完善的學科。在金融學、證券學、生物學、經濟學、國際關系、計算機科學、政治學、軍事戰略和其他很多學科都有廣泛的應用。
2. 數學和博弈論
數學系本來科主要課程:自
1.分析類
數學分析(微積分)基礎一
實分析(實變函數)
復分析(復變函數)
泛函分析
2.代數類
高等代數 基礎二
近世代數
3.幾何類
解析幾何 基礎三
微分幾何
4.概率統計類
概率論
數理統計
多元統計分析
5.計算類
數值分析(計算方法)
還有一些應用,比如
運籌學(含博弈論)
小波分析
組合數學
數學模型
博弈論是運籌學的一個分支,廣泛應用於經濟學、管理學、社會學、政治學、軍事科學等領域
3. 博弈論是數學問題嗎生活中的例子請幫忙例舉例舉!謝了!!!
從理論上講,博弈論是研究理性的行動者相互作用的形式理論,而實際上正深入到經濟學、政治學、社會學等等,被各門社會科學所應用。
博弈論是依靠數學模型來進行分析的,可以當做數學問題。
在經濟學中,「智豬博弈」(Pigs』payoffs)是一個著名博弈論例子
這個例子講的是:豬圈裡有兩頭豬,一頭大豬,一頭小豬。豬圈的一邊有個踏板,每踩一下踏板,在遠離踏板的豬圈的另一邊的投食口就會落下少量的食物。如果有一隻豬去踩踏板,另一隻豬就有機會搶先吃到另一邊落下的食物。當小豬踩動踏板時,大豬會在小豬跑到食槽之前剛好吃光所有的食物;若是大豬踩動了踏板,則還有機會在小豬吃完落下的食物之前跑到食槽,爭吃到另一半殘羹。
那麼,兩只豬各會採取什麼策略?答案是:小豬將選擇「搭便車」策略,也就是舒舒服服地等在食槽邊;而大豬則為一點殘羹不知疲倦地奔忙於踏板和食槽之間。
4. 論述幾種博弈論分析模型的經濟學解釋
囚徒困境
1950年,由就職於蘭德公司的梅里爾·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關困境的理論,後來由顧問艾伯特·塔克(Albert Tucker)以囚徒方式闡述,並命名為「囚徒困境」。經典的囚徒困境如下:
警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人入罪。於是警方分開囚禁嫌疑犯,分別和二人見面,並向雙方提供以下相同的選擇:
若一人認罪並作證檢控對方(相關術語稱「背叛」對方),而對方保持沉默,此人將即時獲釋,沉默者將判監10年。
若二人都保持沉默(相關術語稱互相「合作」),則二人同樣判監1年。
若二人都互相檢舉(相關術語稱互相「背叛」),則二人同樣判監8年。
如同博弈論的其他例證,囚徒困境假定每個參與者(即「囚徒」)都是利己的,即都尋求最大自身利益,而不關心另一參與者的利益。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,此策略稱為「嚴格劣勢」,理性的參與者絕不會選擇。另外,沒有任何其他力量干預個人決策,參與者可完全按照自己意願選擇策略。
囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由於隔絕監禁,並不知道對方選擇;而即使他們能交談,還是未必能夠盡信對方不會反口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇:
若對方沉默、背叛會讓我獲釋,所以會選擇背叛。
若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。
二人面對的情況一樣,所以二人的理性思考都會得出相同的結論——選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達到的納什均衡,就是雙方參與者都背叛對方,結果二人同樣服刑8年。
這場博弈的納什均衡,顯然不是顧及團體利益的帕累托最優解決方案。以全體利益而言,如果兩個參與者都合作保持沉默,兩人都只會被判刑1年,總體利益更高,結果也比兩人背叛對方、判刑8年的情況較佳。但根據以上假設,二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛,結果二人判決均比合作為高,總體利益較合作為低。這就是「困境」所在。例子漂亮地證明了:非零和博弈中,帕累托最優和納什均衡是相沖突的。
5. 下面哪個( )屬於數學模型分析方法. A.博弈論 B.均衡分析 C.邊際分析方法 D.語言邏
我覺得應該是D。
6. 博弈論的經典模型有哪些
經濟學中的「智豬博弈」(Pigs』payoffs)
這個例子講的是:豬圈裡有兩頭豬,一頭大豬,一頭小豬。豬圈的一邊有個踏板,每踩一下踏板,在遠離踏板的豬圈的另一邊的投食口就會落下少量的食物。如果有一隻豬去踩踏板,另一隻豬就有機會搶先吃到另一邊落下的食物。當小豬踩動踏板時,大豬會在小豬跑到食槽之前剛好吃光所有的食物;若是大豬踩動了踏板,則還有機會在小豬吃完落下的食物之前跑到食槽,爭吃到另一半殘羹。
那麼,兩只豬各會採取什麼策略?答案是:小豬將選擇「搭便車」策略,也就是舒舒服服地等在食槽邊;而大豬則為一點殘羹不知疲倦地奔忙於踏板和食槽之間。
原因何在?因為,小豬踩踏板將一無所獲,不踩踏板反而能吃上食物。對小豬而言,無論大豬是否踩動踏板,不踩踏板總是好的選擇。反觀大豬,已明知小豬是不會去踩動踏板的,自己親自去踩踏板總比不踩強吧,所以只好親力親為了。
「小豬躺著大豬跑」的現象是由於故事中的游戲規則所導致的。規則的核心指標是:每次落下的事物數量和踏板與投食口之間的距離。
如果改變一下核心指標,豬圈裡還會出現同樣的「小豬躺著大豬跑」的景象嗎?試試看。
改變方案一:減量方案。投食僅原來的一半分量。結果是小豬大豬都不去踩踏板了。小豬去踩,大豬將會把食物吃完;大豬去踩,小豬將也會把食物吃完。誰去踩踏板,就意味著為對方貢獻食物,所以誰也不會有踩踏板的動力了。
7. 如何用數學來表達復雜的博弈論關系
博弈論的數學模型
作者: 竺可楨學院01混合班
王大方 何霈 鄒銘
摘要
博弈論現在得到了廣泛的應用,涉及到人的決策問題都可以用博弈論的模型加以解釋。本文首先用數學的方法表述實際生活中的博弈行為,並導出一般情況下的博弈的結果,進而討論一些不同的外部約束條件對博弈過程的影響。我們用經濟學中的壟斷競爭現象作為博弈問題的一個實例,討論生產者在不同狀態下的決策,進而分析雙方共謀的動機和可能性。
(一)基本博弈模型的建立
一, 博弈行為的表述
博弈的標準式包括:
1. 1. 博弈的參與者。
2. 2. 每一個參與者可供選擇的戰略集。
3. 3. 針對所有參與者可能選擇的戰略組合,每一個參與者獲得的利益在n人博弈中,
用Si為參與者i的可以選擇戰略空間,其中任意一個特定的純戰略為si,其中任意特定的純戰略為si,si∈Si,
n元函數ui(s1,s2,……sn), 當n個博弈者的決策為s1,s2,……sn時,表示第I各參與者的收益函數。
二, 博弈的解
當博弈進入一個穩定狀態時,參與者選擇的戰略必然是針對其他參與者既定戰略的 最優反應,在此狀態下沒有人願意單獨背離當前的局勢。這個局勢叫納什均衡:
在n個參與者標準式博弈,G={ S1,S2,……Sn;u1,u2,……un}中,若戰略組合{s1*,s2*,……sn*}滿足對每一個參與者i,si*是針對{
s1*,s2*,……si-1*,si+1*……sn*}的最優反應戰略,,目標戰略組合{s1*,s2*,……sn*}為該博弈的納什均衡。即:ui {
s1*,s2*,……si-1*,si*,si+1*……sn*}≥ui {
s1*,s2*,……si-1*,si,si+1*……sn*},對一切si∈Si均成立。
納什於1950年證明在任何有限個參與者,且每個參與者可選擇的純戰略為有限個的博弈中,均存在納什均衡。(包括混合戰略)混合戰略指認某種概率分布來取一個戰略空間中的戰略,在本文中不加討論。
在一般情況中,納什證明保證了我們的均衡分析有意義。
三, 博弈實例:單階段博弈古諾競爭
在古諾競爭中,少數廠商通過改變產量來控制價格,以使他們的收益最大化。
我們作如下假設:
1. 1. 廠商生產的商品是相同的,消費者沒有對某家廠商的偏好。
2. 2. 市場上價格與供給量的函數為p=a-bQ,且供給增加不會導致過剩,而僅僅使價格降
低,即廠商可以將生產的產品全部售出。
3. 3. 廠商都是理性的,即面對既定的情況都做出決策使自己利益最大化。
4. 4. 信息是完全的,每個廠商都知道其他廠商時理性的,且每個廠商知道別人是理性的
這一事實為所有參與者的共識。
(二)博弈模型的求解與討論
為了簡單起見,我們從一家企業的情況做起:
只有一家企業時,目標收益函數u=Q(a-bQ)
針對max u 的解為Q0=a/2b,u0=a2/4b
當有兩家企業時,設產量分別為Q1,Q2,則
p=a-b(Q1+Q2)
u1(Q1,Q2)=p*Q1=Q[a-b(Q1+Q2)]
u2(Q1,Q2)=p*Q2=Q[a-b(Q1+Q2)]
納什均衡點Q1*,Q2*為方程組
?u1/ ?Q1 =0 (1)
?u?Q
2/2=0 (2) 的解。
整理,得到
2bQ1+bQ2=a (3)
bQ1+2bQ2=a (4)
解得 Q1*=Q2*=a/3b,對應的u1=u2=a2/9b
納什均衡點是一個極值點,一旦達到該點時雙方都沒有率先改變的動機。
下面我們討論納什均衡點的孤立性,即在對方初始決策不在納什均衡時,雙方能否通過理性的利益最大化策略使博弈形勢變化至納什均衡點。
(1)式表示廠商1的最優函數,在給定對方產量Q時它根據(1)來使自己收益最大, 由
(3)式, 廠商最優函數為Q1=(a-bQ2)/2b同樣(2)時表示廠商(2)的最優函數,由(4)式,廠商2的最優函數為Q2=(a-bQ1)/2b
這是兩條直線,如圖,交點E為納什均衡點。
AB為廠商1的最優函數,CD為廠商2的最優函數,
當雙方的初始選擇點為A,即Q1=0,Q2=a/b,A在廠商1最優函數上,故廠商1不會改變,但廠商2針對Q1=0的最有點為C,於是雙方的決策點轉移到C,在C點廠商1會調整自己的產量時雙方決策點到F,然廠商2又會調整策略到CD上,以此類推,最後將到達E點,在第一象限的任何初始選擇點,按以上分析雙方都能經過一系列調整到達E點。
在完全信息的假設下,上面這一系列的調整過程在任何一方決策之前就能被預測到,任何一個廠商都回絕的任何一個異於E點的決策都不是在給定條件下最好的選擇,於是雙方會不約而同的按E點做出產量決策。但是當
Q1=Q2=1/2 * a/2b (5) 時雙方才能獲得最大收益。
Q1=Q2=1/2 * a2/4b (6)
這一方面說明納什均衡點並不是一個最好的決策點,另一方面也說明與獨家壟斷比起來兩家廠商的競爭提高了社會效應,社會總產量從a/2b增加到了2/3 *
a/b=2a/3b。
當廠商數增加至n家時,模型變為
n p=a-b*∑i=1Qi (7)
ui=p*Qi,i=1,2,……n (8)
i/ i =0 I=1,2……n (9)
由歸納法可證明(9)可化為方程組(以矩陣形式表示) ?u?Q
?2??1
?1??:
?1?1....21:11??....11?2....1??:::?....12??
1?Q1??1?????Q2???1??:??:?????:???:??Q????n?= a/b *?1? (1)
由線性代數分析可知,該方程組有唯一非零解
Q1*=Q2*=…Qn*=a/(n+1)b,
ui*=a2/(n+1)2b
社會總產量為na/(n+1)b。
這說明h廠商壟斷競爭也必有納什均衡點,同樣方法可證明納什均衡點不是孤立的,於是理智的各方均會按均衡點做產量決策。
另外n越大,競爭越徹底,社會總產量越高。當n很大時,總產量趨於a/b,此時價格p為0,這時價格p為0,此時這個模型不適用。因為在n較小,(一般小於5)時壟斷廠商才有能力通過自己的產量來控制價格。
廠商們的整體最好選擇是Q1*=Q2*=……Qn*==a/2nb,
分別能獲得收益,a2/4nb。顯然n越大,廠商們理性博弈的結果和他們的最好選擇點間的差距越大。
(三)多階段博弈與共謀
以上可以看出,作為博弈者的廠商很有必要共謀限制產量,但最好的選擇點是不穩定的,率先違約的一方都能獲取額外利潤,因此需要一些條件來約束雙方的行為。另外共謀只有在長期過程中才有效益,雙方需要不斷檢查是否已經違約,並決定自己是否要違約,每次這樣的過程就是上文的單階段博弈。
這里的信息條件為每企業在n階段可以觀察的前n-1階段博弈結果。規則為一旦對方違約,自己就違約,且永不守約,這為雙方所共識。
我們新引入一個時間貼現因子v,0<v<1,用來計算以後階段收益的現值,如已知下一階段收益為R,則摺合到當階段相當於收益為vR。一開始雙方約定共同生產a/4b,每階段收益為a2/8b,一直守約,雙方的收益為
a2(1+v+v2+……)/8b=a2/[8(1-v)b] (10)
對先違約的一方,根據對方a2/4b的產量,由(3)和(4),它的最優產量為3a/8b,該階段收益為
[a-b(3/8+1/4)a/b]*3/8*a/b=9a2/64b (11)
此後雙方都明白共謀破裂,均按a/3b的均衡產量生產。設一方在N階段違約,則收益2為a(1+v+v2+……vN-1)/8b+9vN/64*a2/b+vN+1*a2/[(1-v)ab]
(12)
(12)-(10),得 [vN/64-vN+1/72(1-v)]*a2/b
解得 當v<0.529時,先違約方有利,且違約越早, 額外利潤最高。此時共謀很難達成。
(四)共謀與監督問題的深入
長期博弈中,人們需要一套更為復雜的機制來維持一種非納什均衡,以維持利益的最大化。和之前的那個模型不同,在每一次作單階段博弈時,人們不僅僅通過前一次的結果,而是通過一種長期的經驗來對對手做出判斷。這里涉及一個信譽問題,他是一個標證不確定因素的概率,這樣的模型使得我們可以根據對手不同的策略作出最有利於自己的決斷。合作的結果一般出現在離博弈結束較遠的階段,而在最後幾個階段的博弈中博弈者往往只注重當前的利益。
我們提出的維護聲譽的策略是「投桃報李」,即下一次作的決策與對手上一次的決策相同,
將上文中的壟斷競爭模型修改如下:
1. 1. 理性博弈者B知道博弈者A有P的概率選擇投桃報李的策略,有(1-P)的概率選
擇其他策略(此時A即成為一個理性的人)。A也知道B時理性的。
2. 2. 在每個階段N, 雙方都同時作決策,都知道前N-1次彼此的決策結果。一旦A未使
用「投桃報李」的原則而理性地做出利益最大化決策,則B就把A當作理性的,這一點也成為AB雙方的共識。此後的博弈退化到上文討論的一般完全信息理性博弈,得到的解為納什均衡點。
單階段博弈
對於單階段博弈,由上文中(5)式的討論,合作意味著廠商生產a/4b的產量,否則廠商將按利潤最大化原則生產。首先違約的廠商將生產3a/8b,獲利9a2/64b,而後所有廠商均會按a/3b生產,獲利a2/9b。(為了描述方便,這里將常系數a2/b略去,下同)雙方面對的策略-收益矩陣為
A \ B 合作 不合作
合作 (1/8,1/8) (5/48,5/36)
不合作 (5/36,5/48) (1/9,1/9)
兩階段博弈
在兩階段博弈中,理性的B在第二階段將選擇不合作。在第一階段開始時他要推測A的情況,A有P的概率為投桃報李類型的,於是,若B在第一階段選擇合作,則B對第一階段預期收益為
P*1/8+(1-P)*5/48 (12)
B對第二階段的預期收益為P*5/36+(1-P)*1/9 (13)
(因為若A不是投桃報李型的,在第一階段結束時B就會知道這一事實,雙方在第二回合便選擇納什均衡點。)
若B在第一階段選擇不合作,則B生產a/3b,(這里不合作並非生產3a/8b,因為此時B不知道A是否為理性的博弈者,經驗算我們發現a/3b的產量決策比3a/8b的決策有更高的期望受益)。
於是B對第一階段的期望收益為 5P/36+(1-P)/9 ; (14)
B對第二階段的期望收益為 1/9 ; (15) (此事無論A是否理性,雙方都不會合作)。
當P≥52%時,討論 式 (12)+(13) ―[(14)+(15)] ≥0
所以在兩階段博弈中,只要估計A會有52%的可能投桃報李,B就會選擇合作。
考慮模型中信息假設,A也完全明白B以上的想法,於是A也至少有裝扮「投桃報李」的動機。
三階段博弈
現在擴展成三階段的情況,只要B在第一階段合作,後來的兩個階段又退化至兩階段博弈的結果。由上文的分析, B對三個階段的期望收益為
u1= P/8+5/48(1-P)
u2=P/8+(1-P)/9
u3=5P/36+(1-P)/9
總期望收益u1+ u2+ u3= 47/144 + P/16 (16)
如果B在第一階段不合作,則無論A是否為投桃報李型的在第二階段都不會合作。而理性的B在第三階段肯定會不合作。
如果此時B在第二階段繼續選擇不合作,則B從這種背離中獲得的各階段期望收益為 u1=5P/36+(1-P)/9 u2=1/9 u3=1/9
總期望收益 u1+ u2+ u3= 1/3+P/36 (17)
比較(16),(17),得,當P≥20%時,式(17)> 式 (16) , B就沒有動機在第一階段背離。
如果B在第一階段不合作,在第二階段合作,第三階段不合作,則他的各階段期望收益為
u1= 5P/36+(1-P)/9 u2=5/48 u3=5P/36+(1-P)/9
總期望收益為P/18+47/144 恆小於(16)式,此時B也沒有動機在第一階段背離。
綜上,只要A有20%的可能為投桃報李型的,B在前兩階段就沒有背離合作的動機。
對於A,一旦他在第一階段就背離合作,那麼自第二階段起A為理性的就成為博弈雙方的共識,此時他的期望收益為5/36+1/9+1/9=13/36
而A如果始終合作,其均衡收益為1/8+1/8+1/9=13/36
所以在三階段時A是否要背離合作無所謂,不過這只是由於本問題數據特殊性的巧合。
多階段的擴展
從上面的三個階段擴展就可以看出,隨著階段數的增多,每個博弈者更多的會考慮長久的收益情況,而非眼前。這意味著之需要一個很小的信譽概率P,就有可能約束對方不發生背叛的行為。
當共有T階段博弈時,我們可以用歸納法證明理性的雙方在從1到T-2階段選擇合作,而在T-1和T階段按照上文討論的兩回合博弈行動。假設任何t(t<T)博弈中上述假設均成立。
如果A在t<T-1的任意階段不合作,則他是理性的便在以後的階段成為共識,他在t期的收益為5/36,以後均為1/9,總收益為 (t-1)/8 + 5/36
+ (T-t)/9
而A的均衡收益為從1到T-2階段每一階段均為1/8,T-1的收益為5/36,最後一期為1/9。顯然提前違約的收益小於均衡收益。
對於B, 由兩階段博弈可知, B沒有在前T-2階段合作,T-1階段不合作的動機,B只可能再t≤T-3的階段背離合作。 一旦B在t階段背離合作,
則無論投桃報李的還是理性的A都將在t+1階段不合作,
於是在前t+1階段B無法確認A是否為理性,從t+2階段起雙方的博弈等同於一個T-(t+1)階段的博弈。
由歸納假設,這後一部分博弈中雙方會合作到T-2階段,然後按照上文的兩階段博弈進行。B的總收益為
u= 1/8 * (t-1) + 5/36 + 5/48+[T-2-(t+2)+1]*1/8 + [P/8 +(1-P)*5/48 +5P/36 +
(1-P)/9] 這小於B從1到T的均衡收益(T-2)/8+ [P/8+ 5(1-P)/48 + 5P/48 + (1-P)/9]
所以B也沒有隻背離一次的動機。
更為一般的情況是在前(T-3)次博弈中B有多次的背離與合作,則按以上方法多次使用歸納法,可以發現獲得的期望收益更少。其根本原因是率先背約者無法判斷對方的真正類型,所以無法保證自己的利益能夠最大化,而一旦約定破裂後修復的成本很高,使得背信棄義的額外收益比雙方合作來的少。
( 5/36+5/48)<2*1/8 ) 這樣的模型就使得共謀更有約束力。
小結與進一步的研究
本文主要為靜態博弈問題建立了數學模型,並用他分析了一個實例:壟斷市場上的古諾競爭和共謀。在靜態博弈中,數學上的極大值就是博弈的均衡解。理性決策迫使人們的行為向利益極大值點移動,而信息問題是理性決策最重要的前提條件,可以說不同的信息條件可以推導出不同的理性決策。本文討論的是最完美的信息假設:完全信息。它不僅指雙方彼此了解對方的情況,而且彼此知道對方了解自己情況這一事實,以此類推,等等,最後形成了一個無窮的遞歸鏈。最後討論的投桃報李模型不是完全信息的,但是它也有一套為雙方所共知的評判標准來約束雙方的決策。總之,本文討論的模型是雙方都知道規則的情況下進行的博弈,這是一個對實際博弈相當理想化的簡化。在這樣的簡化下,如何妥善的處理無窮信息遞歸鏈,是個有待進一步研究的問題。而就壟斷這個經濟問題本身而言,本模型最大的理想化就是價格與供給量成一次函數關系,進一步可將這個函數關系擬合得更符合實際,由此還可推導出不同的收益函數和多個納什均衡點,做出進一步分析。
參考文獻
羅伯特.吉本斯: 《博弈論基礎, A PRIMER IN GAME THEORY》
約瑟夫. 斯蒂格利茨: 《經濟學》
張濤 方城等, 基於累積期望差異評價策略的重復博弈模擬研究 《系統工程.》2002,20(3).-87-91
霍沛軍 雙寡頭的經濟捕魚策略 《數學的實踐與認識》2002,32(2).-201-205
薛偉賢, 馮宗憲, 陳愛娟 寡頭市場的博弈分析 《系統工程理論與實踐》, 2002 Vol.22 No.11
8. 動態博弈論模型如何建立
一、 博弈中最優策略的產生
艾克斯羅德(Robert Axelrod)在開始研究合作之前,設定了兩個前提:一、每個人都是自私的;二、沒有權威干預個人決策。也就是說,個人可以完全按照自己利益最大化的企圖進行決策。在此前提下,合作要研究的問題是:第一、人為什麼要合作;第二、人什麼時候是合作的,什麼時候又是不合作的;第三、如何使別人與你合作。
社會實踐中有很多合作的問題。比如國家之間的關稅報復,對他國產品提高關稅有利於保護本國的經濟,但是國家之間互提關稅,產品價格就提高了,喪失了競爭力,損害了國際貿易的互補優勢。在對策中,由於雙方各自追求自己利益的最大化,導致了群體利益的損害。對策論以著名的囚犯困境來描述這個問題。
A和B各表示一個人,他們的選擇是完全無差異的。選擇C代表合作,選擇D代表不合作。如果AB都選擇C合作,則兩人各得3分;如果一方選C,一方選D,則選C的得零分,選D的得5分;如果AB都選D,雙方各得1分。
顯然,對群體來說最好的結果是雙方都選C,各得3分,共得6分。如果一方選C,一方選D,總體得5分。如果兩人都選D,總體得2分。
對策學界用這個矩陣來描述個體理性與群體理性的沖突:每個人在追求個體利益最大化時,就使群體利益受損,這就是囚徒困境。在矩陣中,對於A來說,當對方選C,他選D得5分,選C只得3分;當對方選D,他選D得1分,選C得零分。因此,無論對方選C或D,對A來說,選D都得分最多。這是A單方面的優超策略。而當兩個優超策略相遇,即A,B都選D時,結果是各得1分。這個結果在矩陣中並非最優。困境就在於,每個人採取各自的優超策略時,得出的解是穩定的,但不是帕累托最優的,這個結果體現了個體理性與群體理性的矛盾。在數學上,這個一次性決策的矩陣沒有最優解。
如果博弈進行多次,只要對策者知道博弈次數,他們在最後一次肯定採取互相背叛的策略。既然如此,前面的每一次也就沒有合作的必要,因此,在次數已知的多次博弈中,對策者沒有一次會合作。
如果博弈在多人間進行,而且次數未知,對策者就會意識到,當持續地採取合作並達成默契時,對策者就能持續地各得3分,但如果持續地不合作的話,每個人就永遠得1分。這樣,合作的動機就顯現出來。多次對局下,未來的收益應比現在的收益多一個折現率W,W越大,表示未來的收益越重要。在多人對策持續進行下去,且W比較大,即未來充分重要時,最優的策略是與別人採取的策略有關的。假設某人的策略是,第一次合作,以後只要對方不合作一次,他就永不合作。對這種對策者,當然合作下去是上策。假如有的人不管對方採取什麼策略,他總是合作,那麼總是對他採取不合作的策略得分最多。對於總是不合作的人,也只能採取不合作的策略。
艾克斯羅德做了一個實驗,邀請多人來參加游戲,得分規則與前面的矩陣相同,什麼時候結束游戲是未知的。他要求每個參賽者把追求得分最多的策略寫成計算機程序,然後用單循環賽的方式將參賽程序兩兩博弈,以找出什麼樣的策略得分最高。
第一輪游戲有14個程序參加,再加上艾克斯羅德自己的一個隨機程序(即以50%的概率選取合作或不合作),運轉了300次。結果得分最高的程序是加拿大學者羅伯布寫的"一報還一報"(tit for tat)。這個程序的特點是,第一次對局採用合作的策略,以後每一步都跟隨對方上一步的策略,你上一次合作,我這一次就合作,你上一次不合作,我這一次就不合作。艾克斯羅德還發現,得分排在前面的程序有三個特點:第一,從不首先背叛,即"善良的";第二,對於對方的背叛行為一定要報復,不能總是合作,即" 可激怒的";第三,不能人家一次背叛,你就沒完沒了的報復,以後人家只要改為合作,你也要合作,即"寬容性"。
為了進一步驗證上述結論,艾氏決定邀請更多的人再做一次游戲,並把第一次的結果公開發表。第二次徵集到了62個程序,加上他自己的隨機程序,又進行了一次競賽。結果,第一名的仍是"一報還一報"。艾氏總結這次游戲的結論是:第一,"一報還一報"仍是最優策略。第二,前面提到的三個特點仍然有效,因為63人中的前15名里,只有第8名的哈靈頓程序是"不善良的",後15名中,只有1個總是合作的是"善良的"。可激怒性和寬容性也得到了證明。此外,好的策略還必須具有的一個特點是"清晰性",能讓對方在三、五步對局內辨識出來,太復雜的對策不見得好。"一報還一報"就有很好的清晰性,讓對方很快發現規律,從而不得不採取合作的態度。
二、 合作的進行過程及規律
"一報還一報"的策略在靜態的群體中得到了很好的分數,那麼,在一個動態的進化的群體中,這種合作者能否產生、發展、生存下去呢?群體是會向合作的方向進化,還是向不合作的方向進化?如果大家開始都不合作,能否在進化過程中產生合作?為了回答這些疑問,艾氏用生態學的原理來分析合作的進化過程。
假設對策者所組成的策略群體是一代一代進化下去的,進化的規則包括:一,試錯。人們在對待周圍環境時,起初不知道該怎麼做,於是就試試這個,試試那個,哪個結果好就照哪個去做。第二,遺傳。一個人如果合作性好,他的後代的合作基因就多。第三,學習。比賽過程就是對策者相互學習的過程,"一報還一報"的策略好,有的人就願意學。按這樣的思路,艾氏設計了一個實驗,假設63個對策者中,誰在第一輪中的得分高,他在第二輪的群體中所佔比例就越高,而且是他的得分的正函數。這樣,群體的結構就會在進化過程中改變,由此可以看出群體是向什麼方向進化的。
實驗結果很有趣。"一報還一報"原來在群體中佔1/63,經過1000代的進化,結構穩定下來時,它佔了24%。另外,有一些程序在進化過程中消失了。其中有一個值得研究的程序,即原來前15名中唯一的那個"不善良的"哈靈頓程序,它的對策方案是,首先合作,當發現對方一直在合作,它就突然來個不合作,如果對方立刻報復它,它就恢復合作,如果對方仍然合作,它就繼續背叛。這個程序一開始發展很快,但等到除了"一報還一報"之外的其它程序開始消失時,它就開始下降了。因此,以合作系數來測量,群體是越來越合作的。
進化實驗揭示了一個哲理:一個策略的成功應該以對方的成功為基礎。"一報還一報"在兩個人對策時,得分不可能超過對方,最多打個平手,但它的總分最高。它賴以生存的基礎是很牢固的,因為它讓對方得到了高分。哈靈頓程序就不是這樣,它得到高分時,對方必然得到低分。它的成功是建立在別人失敗的基礎上的,而失敗者總是要被淘汰的,當失敗者被淘汰之後,這個好占別人便宜的成功者也要被淘汰。
那麼,在一個極端自私者所組成的不合作者的群體中,"一報還一報"能否生存呢?艾氏發現,在得分矩陣和未來的折現系數一定的情況下,可以算出,只要群體的 5%或更多成員是"一報還一報"的,這些合作者就能生存,而且,只要他們的得分超過群體的總平均分,這個合作的群體就會越來越大,最後蔓延到整個群體。反之,無論不合作者在一個合作者佔多數的群體中有多大比例,不合作者都是不可能自下而上的。這就說明,社會向合作進化的棘輪是不可逆轉的,群體的合作性越來越大。艾克斯羅德正是以這樣一個鼓舞人心的結論,突破了"囚犯困境"的研究困境。
在研究中發現,合作的必要條件是:第一、關系要持續,一次性的或有限次的博弈中,對策者是沒有合作動機的;第二、對對方的行為要做出回報,一個永遠合作的對策者是不會有人跟他合作的。
那麼,如何提高合作性呢?首先,要建立持久的關系,即使是愛情也需要建立婚姻契約以維持雙方的合作。(火車站的小販為什麼要騙人?為什麼工作中要形成小組制度?換防的時候一方總是要小小地進攻一下的,在中越前線就是這樣)第二、要增強識別對方行動的能力,如果不清楚對方是合作還是不合作,就沒法回報他了。第三、要維持聲譽,說要報復就一定要做到,人家才知道你是不好欺負的,才不敢不與你合作。第四、能夠分步完成的對局不要一次完成,以維持長久關系,比如,貿易、談判都要分步進行,以促使對方採取合作態度。第五、不要嫉妒人家的成功,"一報還一報"正是這樣的典範。第六、不要首先背叛,以免擔上罪魁禍首的道德壓力。第七、不僅對背叛要回報,對合作也要作出回報。第八、不要耍小聰明,占人家便宜。
(打橋牌和打麻將的區別)
艾克斯羅德在《合作的進化》一書結尾提出幾個結論。第一、友誼不是合作的必要條件,即使是敵人,只要滿足了關系持續,互相回報的條件,也有可能合作。比如,第一次世界大戰期間,德英兩軍在戰壕戰中遇上了三個月的雨季,雙方在這三個月中達成了默契,互相不攻擊對方的糧車給養,到大反攻時再你死我活地打。這個例子說明,友誼不是合作的前提。第二、預見性也不是合作的前提,艾氏舉出生物界低等動物、植物之間合作的例子來說明這一點。但是,當有預見性的人類了解了合作的規律之後,合作進化的過程就會加快。這時,預見性是有用的,學習也是有用的。
當游戲中考慮到隨機干擾,即對策者由於誤會而開始互相背叛的情形時,吳堅忠博士經研究發現,以修正的"一報還一報",即以一定的概率不報復對方的背叛,和 "悔過的一報還一報",即以一定的概率主動停止背叛。群體所有成員處理隨機環境的能力越強,"悔過的一報還一報"效果越好,"寬大的一報還一報"效果越差。
三、 艾克斯羅德的貢獻與局限性
艾克斯羅德通過數學化和計算機化的方法研究如何突破囚徒困境,達成合作,將這項研究帶到了一個全新境界,他在數學上的證明無疑是十分雄辯和令人信服的,而且,他在計算機模擬中得出的一些結論是非常驚人的發現,比如,總分最高的人在每次博弈中都沒有拿到最高分。(劉邦和項羽的戰爭)
艾氏所發現的"一報還一報"策略,從社會學的角度可以看作是一種"互惠式利他",這種行為的動機是個人私利,但它的結果是雙方獲利,並通過互惠式利他有可能覆蓋了范圍最廣的社會生活,人們通過送禮及回報,形成了一種社會生活的秩序,這種秩序即使在多年隔絕,語言不通的人群之間也是最易理解的東西。比如,哥倫布登上美洲大陸時,與印地安人最初的交往就開始於互贈禮物。有些看似純粹的利他行為,比如無償損贈,也通過某些間接方式,比如社會聲譽的獲得,得到了回報。研究這種行為,將對我們理解社會生活有很重要的意義。
囚徒困境擴展為多人博弈時,就體現了一個更廣泛的問題——"社會悖論",或"資源悖論"。人類共有的資源是有限的,當每個人都試圖從有限的資源中多拿一點兒時,就產生了局部利益與整體利益的沖突。人口問題、資源危機、交通阻塞,都可以在社會悖論中得以解釋,在這些問題中,關鍵是通過研究,制定游戲規則來控制每個人的行為。
艾克斯羅德的一些結論在中國古典文化道德傳統中可以很容易地找到對應,"投桃報李"、"人不犯我,我不犯人"都體現了"tit for tat"的思想。但這些東西並不是最優的,因為"一報還一報"在充滿了隨機性的現實社會生活里是有缺陷的。對此,孔子在幾千年前就說出了"以德報德,以直報怨"這樣精彩的修正策略,所謂"直",就是公正,以公正來回報對方的背叛,是一種修正了的"一報還一報",修正的是報復的程度,本來會讓你損失5分,現在只讓你損失3分,從而以一種公正審判來結束代代相續的報復,形成文明。
但是,艾氏對博弈者的一些假設和結論使其研究不可避免地與現實脫節。首先,《合作的進化》一書暗含著一個重要的假定,即,個體之間的博弈是完全無差異的。現實的博弈中,對策者之間絕對的平等是不可能達到的。一方面,對策者在實際的實力上有差異,雙方互相背叛時,可能不是各得1分,而是強者得5分,弱者得0 分,這樣,弱者的報復就毫無意義。另一方面,即使對局雙方確實旗鼓相當,但某一方可能懷有賭徒心理,認定自己更強大,採取背叛的策略能佔便宜。艾氏的得分矩陣忽視了這種情形,而這種賭徒心理恰恰在社會上大量引發了零和博弈。因此,程序還可以在此基礎上進一步改進。
其次,艾氏認為合作不需預期和信任。這是他受到質疑頗多之處。對策者根據對方前面的戰術來制定自己下面的戰術,合作要求個體能夠識別那些曾經相遇過的個體並且記得與其相互作用的歷史,以便作出反應,這些都暗含著"預期"行為。在應付復雜的對策環境時,信任可能是對局雙方達成合作的必不可少的環節。但是,預期與信任如何在計算機的程序中體現出來,仍是需要研究的。
最後,重復博弈在現實中是很難完全實現的。一次性博弈的大量存在,引發了很多不合作的行為,而且,對策的一方在遭到對方背叛之後,往往沒有機會也沒有還手之力去進行報復。比如,資本積累階段的違約行為,國家之間的核威懾。在這些情況下,社會要使交易能夠進行,並且防止不合作行為,必須通過法制手段,以法律的懲罰代替個人之間的"一報還一報",規范社會行為。這是艾克斯羅德的研究對制度學派的一個重要啟發。
9. 博弈論分哪幾種啊各自的優缺點是什麼
博弈論分類較多,如下:
1、一般認為,博弈主要可以分為合作博弈和非合作博弈。
合作博弈和非合作博弈的區別在於相互發生作用的當事人之間有沒有一個具有約束力的協議,如果有,就是合作博弈,如果沒有,就是非合作博弈。
從行為的時間序列性,博弈論進一步分為靜態博弈、動態博弈兩類:靜態博弈是指在博弈中,參與人同時選擇或雖非同時選擇但後行動者並不知道先行動者採取了什麼具體行動;動態博弈是指在博弈中,參與人的行動有先後順序,且後行動者能夠觀察到先行動者所選擇的行動。
通俗的理解:"囚徒困境"就是同時決策的,屬於靜態博弈;而棋牌類游戲等決策或行動有先後次序的,屬於動態博弈。
2、按照參與人對其他參與人的了解程度分為完全信息博弈和不完全信息博弈。
完全博弈是指在博弈過程中,每一位參與人對其他參與人的特徵、策略空間及收益函數有準確的信息。
不完全信息博弈是指如果參與人對其他參與人的特徵、策略空間及收益函數信息了解的不夠准確、或者不是對所有參與人的特徵、策略空間及收益函數都有準確的信息,在這種情況下進行的博弈就是不完全信息博弈。
3、以博弈進行的次數或者持續長短可以分為有限博弈和無限博弈。
4、以表現形式也可以分為一般型(戰略型)或者展開型
5、以博弈的邏輯基礎不同又可以分為傳統博弈和演化博弈。