博弈论数学模型

发布时间: 2021-08-06 20:04:11

1. 请列举几个用“博弈论”在实际生活中分析问题的例子。

1、智猪博弈

假设猪圈里有一头大猪、一头小猪。

猪圈的一头有猪食槽（两猪均在食槽端），另一头安装着控制猪食供应的按钮，按一下按钮会有10个单位的猪食进槽，但是在去往食槽的路上会有两个单位猪食的体能消耗，若大猪先到槽边，大小猪吃到食物的收益比是6:4；同时行动（去按按钮），收益比是7∶3；小猪先到槽边，收益比是9:1。

那么，在两头猪都有智慧的前提下，最终结果是小猪选择等待。

"智猪博弈"由纳什于1950年提出。

实际上小猪选择等待，让大猪去按控制按钮，而自己选择“坐船”(或称为搭便车)的原因很简单：在大猪选择行动的前提下，小猪选择等待的话，小猪可得到4个单位的纯收益，而小猪行动的话，则仅仅可以获得大猪吃剩的1个单位的纯收益，所以等待优于行动。

在大猪选择等待的前提下，小猪如果行动的话，小猪的收入将不抵成本，纯收益为-1单位，如果小猪也选择等待的话，那么小猪的收益为零，成本也为零，总之，等待还是要优于行动。

当大猪选择行动的时候，小猪如果行动，其收益是1，而小猪等待的话，收益是4，所以小猪选择等待；当大猪选择等待的时候，小猪如果行动的话，其收益是-1，而小猪等待的话，收益是0,所以小猪也选择等待。

综合来看，无论大猪是选择行动还是等待，小猪的选择都将是等待，即等待是小猪的占优策略。

2、协同攻击难题

两个将军各带领自己的部队埋伏在相距一定距离的两个山上，等候敌人。将军A得到可靠情报说，敌人刚刚到达，立足未稳。如果敌人没有防备，两股部队一起进攻的话，就能够获得胜利；而如果只有一方进攻的话，进攻方将失败。这是两位将军都知道的。

A遇到了一个难题：如何与将军B协同进攻？那时没有电话之类的通讯工具，只有通过派情报员来传递消息。将军A派遣一个情报员去了将军B那里，告诉将军B：敌人没有防备，两军于黎明一起进攻。

然而可能发生的情况是，情报员失踪或者被敌人抓获。即：将军A虽然派遣情报员向将军B传达“黎明一起进攻”的信息，但他不能确定将军B是否收到他的信息。

事实上，情报员回来了。将军A又陷入了迷茫：将军B怎么知道情报员肯定回来了？将军B如果不能肯定情报员回来的话，他必定不会贸然进攻的。于是将军A又将该情报员派遣到B地。然而，他不能保证这次情报员肯定到了将军B那里……

这就是“协同攻击难题”，它是由格莱斯（J. Gray）于1978年提出。更为糟糕的是，有学者证明，不论这个情报员来回成功地跑多少次，都不能使两个将军一起进攻。

(1)博弈论数学模型扩展阅读

1928年，冯·诺依曼证明了博弈论的基本原理，从而宣告了博弈论的正式诞生。1944年，冯·诺依曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统地应用于经济领域，从而奠定了这一学科的基础和理论体系。

1950～1951年，约翰·福布斯·纳什利用不动点定理证明了均衡点的存在，为博弈论的一般化奠定了坚实的基础。纳什的开创性论文《n人博弈的均衡点》（1950），《非合作博弈》（1951）等等，给出了纳什均衡的概念和均衡存在定理。

此外，莱因哈德·泽尔腾、约翰·海萨尼的研究也对博弈论发展起到推动作用。今天博弈论已发展成一门较完善的学科。在金融学、证券学、生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。

2. 数学和博弈论

数学系本来科主要课程：自
1.分析类
数学分析（微积分）基础一
实分析（实变函数）
复分析（复变函数）
泛函分析
2.代数类
高等代数基础二
近世代数
3.几何类
解析几何基础三
微分几何
4.概率统计类
概率论
数理统计
多元统计分析
5.计算类
数值分析（计算方法）
还有一些应用，比如
运筹学（含博弈论）
小波分析
组合数学
数学模型

博弈论是运筹学的一个分支，广泛应用于经济学、管理学、社会学、政治学、军事科学等领域

3. 博弈论是数学问题吗生活中的例子请帮忙例举例举！谢了！！！

从理论上讲，博弈论是研究理性的行动者相互作用的形式理论，而实际上正深入到经济学、政治学、社会学等等，被各门社会科学所应用。
博弈论是依靠数学模型来进行分析的，可以当做数学问题。
在经济学中，“智猪博弈”（Pigs’payoffs）是一个著名博弈论例子
这个例子讲的是：猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。

那么，两只猪各会采取什么策略？答案是：小猪将选择“搭便车”策略，也就是舒舒服服地等在食槽边；而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。

4. 论述几种博弈论分析模型的经济学解释

囚徒困境
1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：

警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。

若二人都保持沉默（相关术语称互相“合作”），则二人同样判监1年。

若二人都互相检举（相关术语称互相“背叛”），则二人同样判监8年。

如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：

若对方沉默、背叛会让我获释，所以会选择背叛。

若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。

这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

5. 下面哪个( )属于数学模型分析方法. A.博弈论 B.均衡分析 C.边际分析方法 D.语言逻

我觉得应该是D。

6. 博弈论的经典模型有哪些

经济学中的“智猪博弈”（Pigs’payoffs）

这个例子讲的是：猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。

那么，两只猪各会采取什么策略？答案是：小猪将选择“搭便车”策略，也就是舒舒服服地等在食槽边；而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。

原因何在？因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。反观大猪，已明知小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，所以只好亲力亲为了。

“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是：每次落下的事物数量和踏板与投食口之间的距离。

如果改变一下核心指标，猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗？试试看。

改变方案一：减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩，大猪将会把食物吃完；大猪去踩，小猪将也会把食物吃完。谁去踩踏板，就意味着为对方贡献食物，所以谁也不会有踩踏板的动力了。

7. 如何用数学来表达复杂的博弈论关系

博弈论的数学模型

作者：竺可桢学院01混合班

王大方何霈邹铭

摘要

博弈论现在得到了广泛的应用，涉及到人的决策问题都可以用博弈论的模型加以解释。本文首先用数学的方法表述实际生活中的博弈行为，并导出一般情况下的博弈的结果，进而讨论一些不同的外部约束条件对博弈过程的影响。我们用经济学中的垄断竞争现象作为博弈问题的一个实例，讨论生产者在不同状态下的决策，进而分析双方共谋的动机和可能性。

（一）基本博弈模型的建立

一, 博弈行为的表述

博弈的标准式包括：

1． 1．博弈的参与者。

2． 2．每一个参与者可供选择的战略集。

3． 3．针对所有参与者可能选择的战略组合，每一个参与者获得的利益在n人博弈中，
用Si为参与者i的可以选择战略空间，其中任意一个特定的纯战略为si，其中任意特定的纯战略为si，si∈Si，

n元函数ui（s1，s2，……sn）, 当n个博弈者的决策为s1，s2，……sn时,表示第I各参与者的收益函数。

二, 博弈的解

当博弈进入一个稳定状态时，参与者选择的战略必然是针对其他参与者既定战略的最优反应，在此状态下没有人愿意单独背离当前的局势。这个局势叫纳什均衡：
在n个参与者标准式博弈，G={ S1，S2，……Sn；u1，u2，……un}中，若战略组合{s1*，s2*，……sn*}满足对每一个参与者i，si*是针对{
s1*，s2*，……si-1*，si+1*……sn*}的最优反应战略，，目标战略组合{s1*，s2*，……sn*}为该博弈的纳什均衡。即：ui {
s1*，s2*，……si-1*，si*，si+1*……sn*}≥ui {
s1*，s2*，……si-1*，si，si+1*……sn*}，对一切si∈Si均成立。

纳什于1950年证明在任何有限个参与者，且每个参与者可选择的纯战略为有限个的博弈中，均存在纳什均衡。（包括混合战略）混合战略指认某种概率分布来取一个战略空间中的战略，在本文中不加讨论。

在一般情况中，纳什证明保证了我们的均衡分析有意义。

三, 博弈实例：单阶段博弈古诺竞争

在古诺竞争中，少数厂商通过改变产量来控制价格，以使他们的收益最大化。

我们作如下假设：

1． 1．厂商生产的商品是相同的，消费者没有对某家厂商的偏好。

2． 2．市场上价格与供给量的函数为p=a-bQ，且供给增加不会导致过剩，而仅仅使价格降

低，即厂商可以将生产的产品全部售出。

3． 3．厂商都是理性的，即面对既定的情况都做出决策使自己利益最大化。

4． 4．信息是完全的，每个厂商都知道其他厂商时理性的，且每个厂商知道别人是理性的

这一事实为所有参与者的共识。

（二）博弈模型的求解与讨论

为了简单起见，我们从一家企业的情况做起：

只有一家企业时，目标收益函数u=Q（a-bQ）

针对max u 的解为Q0=a/2b，u0=a2/4b

当有两家企业时，设产量分别为Q1，Q2，则

p=a-b（Q1+Q2）

u1（Q1，Q2）=p*Q1=Q[a-b（Q1+Q2）]

u2（Q1，Q2）=p*Q2=Q[a-b（Q1+Q2）]

纳什均衡点Q1*，Q2*为方程组

?u1/ ?Q1 =0 （1）

?u?Q

2/2=0 （2）的解。

整理，得到

2bQ1+bQ2=a （3）

bQ1+2bQ2=a （4）

解得 Q1*=Q2*=a/3b，对应的u1=u2=a2/9b

纳什均衡点是一个极值点，一旦达到该点时双方都没有率先改变的动机。

下面我们讨论纳什均衡点的孤立性，即在对方初始决策不在纳什均衡时，双方能否通过理性的利益最大化策略使博弈形势变化至纳什均衡点。

(1)式表示厂商1的最优函数，在给定对方产量Q时它根据（1）来使自己收益最大，由

(3)式, 厂商最优函数为Q1=（a-bQ2）/2b同样（2）时表示厂商（2）的最优函数，由（4）式，厂商2的最优函数为Q2=（a-bQ1）/2b

这是两条直线，如图，交点E为纳什均衡点。

AB为厂商1的最优函数，CD为厂商2的最优函数，

当双方的初始选择点为A，即Q1=0，Q2=a/b，A在厂商1最优函数上，故厂商1不会改变，但厂商2针对Q1=0的最有点为C，于是双方的决策点转移到C，在C点厂商1会调整自己的产量时双方决策点到F，然厂商2又会调整策略到CD上，以此类推，最后将到达E点，在第一象限的任何初始选择点，按以上分析双方都能经过一系列调整到达E点。

在完全信息的假设下，上面这一系列的调整过程在任何一方决策之前就能被预测到，任何一个厂商都回绝的任何一个异于E点的决策都不是在给定条件下最好的选择，于是双方会不约而同的按E点做出产量决策。但是当

Q1=Q2=1/2 * a/2b （5）时双方才能获得最大收益。

Q1=Q2=1/2 * a2/4b （6）

这一方面说明纳什均衡点并不是一个最好的决策点，另一方面也说明与独家垄断比起来两家厂商的竞争提高了社会效应，社会总产量从a/2b增加到了2/3 *
a/b=2a/3b。

当厂商数增加至n家时，模型变为

n p=a-b*∑i=1Qi （7）

ui=p*Qi，i=1，2，……n (8)

i/ i =0 I=1,2……n (9)

由归纳法可证明（9）可化为方程组（以矩阵形式表示） ?u?Q

?2??1

?1??:

?1?1....21:11??....11?2....1??:::?....12??
1?Q1??1?????Q2???1??:??:?????:???:??Q????n?= a/b *?1? (1)

由线性代数分析可知，该方程组有唯一非零解

Q1*=Q2*=…Qn*=a/(n+1)b,

ui*=a2/(n+1)2b

社会总产量为na/（n+1）b。

这说明h厂商垄断竞争也必有纳什均衡点，同样方法可证明纳什均衡点不是孤立的，于是理智的各方均会按均衡点做产量决策。

另外n越大，竞争越彻底，社会总产量越高。当n很大时，总产量趋于a/b，此时价格p为0，这时价格p为0，此时这个模型不适用。因为在n较小，（一般小于5）时垄断厂商才有能力通过自己的产量来控制价格。

厂商们的整体最好选择是Q1*=Q2*=……Qn*==a/2nb,
分别能获得收益，a2/4nb。显然n越大，厂商们理性博弈的结果和他们的最好选择点间的差距越大。

（三）多阶段博弈与共谋

以上可以看出，作为博弈者的厂商很有必要共谋限制产量，但最好的选择点是不稳定的，率先违约的一方都能获取额外利润，因此需要一些条件来约束双方的行为。另外共谋只有在长期过程中才有效益，双方需要不断检查是否已经违约，并决定自己是否要违约，每次这样的过程就是上文的单阶段博弈。

这里的信息条件为每企业在n阶段可以观察的前n-1阶段博弈结果。规则为一旦对方违约，自己就违约，且永不守约，这为双方所共识。

我们新引入一个时间贴现因子v，0<v<1,用来计算以后阶段收益的现值，如已知下一阶段收益为R，则折合到当阶段相当于收益为vR。一开始双方约定共同生产a/4b，每阶段收益为a2/8b，一直守约，双方的收益为

a2（1+v+v2+……）/8b=a2/[8（1-v）b] （10）

对先违约的一方，根据对方a2/4b的产量，由（3）和（4），它的最优产量为3a/8b，该阶段收益为

[a-b（3/8+1/4）a/b]*3/8*a/b=9a2/64b （11）

此后双方都明白共谋破裂，均按a/3b的均衡产量生产。设一方在N阶段违约，则收益2为a（1+v+v2+……vN-1）/8b+9vN/64*a2/b+vN+1*a2/[（1-v）ab]
（12）

（12）-（10），得 [vN/64-vN+1/72（1-v）]*a2/b

解得当v<0.529时，先违约方有利，且违约越早，额外利润最高。此时共谋很难达成。

（四）共谋与监督问题的深入

长期博弈中，人们需要一套更为复杂的机制来维持一种非纳什均衡，以维持利益的最大化。和之前的那个模型不同，在每一次作单阶段博弈时，人们不仅仅通过前一次的结果，而是通过一种长期的经验来对对手做出判断。这里涉及一个信誉问题，他是一个标证不确定因素的概率，这样的模型使得我们可以根据对手不同的策略作出最有利于自己的决断。合作的结果一般出现在离博弈结束较远的阶段，而在最后几个阶段的博弈中博弈者往往只注重当前的利益。

我们提出的维护声誉的策略是“投桃报李”，即下一次作的决策与对手上一次的决策相同，

将上文中的垄断竞争模型修改如下：

1． 1．理性博弈者B知道博弈者A有P的概率选择投桃报李的策略，有（1-P）的概率选

择其他策略（此时A即成为一个理性的人）。A也知道B时理性的。

2． 2．在每个阶段N, 双方都同时作决策，都知道前N-1次彼此的决策结果。一旦A未使

用“投桃报李”的原则而理性地做出利益最大化决策，则B就把A当作理性的，这一点也成为AB双方的共识。此后的博弈退化到上文讨论的一般完全信息理性博弈，得到的解为纳什均衡点。

单阶段博弈

对于单阶段博弈，由上文中（5）式的讨论，合作意味着厂商生产a/4b的产量，否则厂商将按利润最大化原则生产。首先违约的厂商将生产3a/8b，获利9a2/64b，而后所有厂商均会按a/3b生产，获利a2/9b。（为了描述方便，这里将常系数a2/b略去，下同）双方面对的策略-收益矩阵为

A \ B 合作不合作

合作（1/8，1/8）（5/48，5/36）

不合作（5/36，5/48）（1/9，1/9）

两阶段博弈

在两阶段博弈中，理性的B在第二阶段将选择不合作。在第一阶段开始时他要推测A的情况，A有P的概率为投桃报李类型的，于是，若B在第一阶段选择合作，则B对第一阶段预期收益为
P*1/8+(1-P)*5/48 （12）

B对第二阶段的预期收益为P*5/36+(1-P)*1/9 （13）

（因为若A不是投桃报李型的，在第一阶段结束时B就会知道这一事实，双方在第二回合便选择纳什均衡点。）

若B在第一阶段选择不合作，则B生产a/3b，（这里不合作并非生产3a/8b，因为此时B不知道A是否为理性的博弈者，经验算我们发现a/3b的产量决策比3a/8b的决策有更高的期望受益）。
于是B对第一阶段的期望收益为 5P/36+(1-P)/9 ; （14）

B对第二阶段的期望收益为 1/9 ；（15）（此事无论A是否理性，双方都不会合作）。

当P≥52%时，讨论式（12）+（13） ―[（14）+（15）] ≥0

所以在两阶段博弈中，只要估计A会有52%的可能投桃报李，B就会选择合作。

考虑模型中信息假设，A也完全明白B以上的想法，于是A也至少有装扮“投桃报李”的动机。

三阶段博弈

现在扩展成三阶段的情况，只要B在第一阶段合作，后来的两个阶段又退化至两阶段博弈的结果。由上文的分析, B对三个阶段的期望收益为

u1= P/8+5/48(1-P)

u2=P/8+(1-P)/9

u3=5P/36+(1-P)/9

总期望收益u1+ u2+ u3= 47/144 + P/16 (16)

如果B在第一阶段不合作，则无论A是否为投桃报李型的在第二阶段都不会合作。而理性的B在第三阶段肯定会不合作。

如果此时B在第二阶段继续选择不合作，则B从这种背离中获得的各阶段期望收益为 u1=5P/36+(1-P)/9 u2=1/9 u3=1/9

总期望收益 u1+ u2+ u3= 1/3+P/36 (17)

比较（16），（17），得，当P≥20%时，式(17)> 式 (16) , B就没有动机在第一阶段背离。

如果B在第一阶段不合作，在第二阶段合作，第三阶段不合作，则他的各阶段期望收益为

u1= 5P/36+(1-P)/9 u2=5/48 u3=5P/36+(1-P)/9

总期望收益为P/18+47/144 恒小于（16）式，此时B也没有动机在第一阶段背离。
综上，只要A有20%的可能为投桃报李型的，B在前两阶段就没有背离合作的动机。

对于A，一旦他在第一阶段就背离合作，那么自第二阶段起A为理性的就成为博弈双方的共识，此时他的期望收益为5/36+1/9+1/9=13/36

而A如果始终合作，其均衡收益为1/8+1/8+1/9=13/36

所以在三阶段时A是否要背离合作无所谓，不过这只是由于本问题数据特殊性的巧合。

多阶段的扩展

从上面的三个阶段扩展就可以看出，随着阶段数的增多，每个博弈者更多的会考虑长久的收益情况，而非眼前。这意味着之需要一个很小的信誉概率P，就有可能约束对方不发生背叛的行为。

当共有T阶段博弈时,我们可以用归纳法证明理性的双方在从1到T-2阶段选择合作，而在T-1和T阶段按照上文讨论的两回合博弈行动。假设任何t(t<T)博弈中上述假设均成立。
如果A在t<T-1的任意阶段不合作，则他是理性的便在以后的阶段成为共识，他在t期的收益为5/36，以后均为1/9，总收益为（t-1）/8 + 5/36
+ (T-t)/9

而A的均衡收益为从1到T-2阶段每一阶段均为1/8，T-1的收益为5/36，最后一期为1/9。显然提前违约的收益小于均衡收益。

对于B, 由两阶段博弈可知, B没有在前T-2阶段合作，T-1阶段不合作的动机，B只可能再t≤T-3的阶段背离合作。一旦B在t阶段背离合作,
则无论投桃报李的还是理性的A都将在t+1阶段不合作,
于是在前t+1阶段B无法确认A是否为理性，从t+2阶段起双方的博弈等同于一个T-(t+1)阶段的博弈。

由归纳假设，这后一部分博弈中双方会合作到T-2阶段，然后按照上文的两阶段博弈进行。B的总收益为

u= 1/8 * (t-1) + 5/36 + 5/48+[T-2-(t+2)+1]*1/8 + [P/8 +(1-P)*5/48 +5P/36 +
(1-P)/9] 这小于B从1到T的均衡收益（T-2）/8+ [P/8+ 5(1-P)/48 + 5P/48 + (1-P)/9]

所以B也没有只背离一次的动机。

更为一般的情况是在前（T-3）次博弈中B有多次的背离与合作，则按以上方法多次使用归纳法，可以发现获得的期望收益更少。其根本原因是率先背约者无法判断对方的真正类型，所以无法保证自己的利益能够最大化，而一旦约定破裂后修复的成本很高，使得背信弃义的额外收益比双方合作来的少。
（ 5/36+5/48）<2*1/8 ) 这样的模型就使得共谋更有约束力。

小结与进一步的研究

本文主要为静态博弈问题建立了数学模型，并用他分析了一个实例：垄断市场上的古诺竞争和共谋。在静态博弈中，数学上的极大值就是博弈的均衡解。理性决策迫使人们的行为向利益极大值点移动，而信息问题是理性决策最重要的前提条件，可以说不同的信息条件可以推导出不同的理性决策。本文讨论的是最完美的信息假设：完全信息。它不仅指双方彼此了解对方的情况，而且彼此知道对方了解自己情况这一事实，以此类推，等等，最后形成了一个无穷的递归链。最后讨论的投桃报李模型不是完全信息的，但是它也有一套为双方所共知的评判标准来约束双方的决策。总之，本文讨论的模型是双方都知道规则的情况下进行的博弈，这是一个对实际博弈相当理想化的简化。在这样的简化下，如何妥善的处理无穷信息递归链，是个有待进一步研究的问题。而就垄断这个经济问题本身而言，本模型最大的理想化就是价格与供给量成一次函数关系，进一步可将这个函数关系拟合得更符合实际，由此还可推导出不同的收益函数和多个纳什均衡点，做出进一步分析。

参考文献

罗伯特.吉本斯: 《博弈论基础, A PRIMER IN GAME THEORY》

约瑟夫. 斯蒂格利茨: 《经济学》
张涛方城等, 基于累积期望差异评价策略的重复博弈仿真研究《系统工程.》2002,20(3).-87-91

霍沛军双寡头的经济捕鱼策略《数学的实践与认识》2002,32(2).-201-205

薛伟贤, 冯宗宪, 陈爱娟寡头市场的博弈分析《系统工程理论与实践》, 2002 Vol.22 No.11

8. 动态博弈论模型如何建立

一、博弈中最优策略的产生
艾克斯罗德（Robert Axelrod）在开始研究合作之前，设定了两个前提：一、每个人都是自私的；二、没有权威干预个人决策。也就是说，个人可以完全按照自己利益最大化的企图进行决策。在此前提下，合作要研究的问题是：第一、人为什么要合作；第二、人什么时候是合作的，什么时候又是不合作的；第三、如何使别人与你合作。
社会实践中有很多合作的问题。比如国家之间的关税报复，对他国产品提高关税有利于保护本国的经济，但是国家之间互提关税，产品价格就提高了，丧失了竞争力，损害了国际贸易的互补优势。在对策中，由于双方各自追求自己利益的最大化，导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问题。
A和B各表示一个人，他们的选择是完全无差异的。选择C代表合作，选择D代表不合作。如果AB都选择C合作，则两人各得3分；如果一方选C，一方选D，则选C的得零分，选D的得5分；如果AB都选D，双方各得1分。
显然，对群体来说最好的结果是双方都选C，各得3分，共得6分。如果一方选C，一方选D，总体得5分。如果两人都选D，总体得2分。
对策学界用这个矩阵来描述个体理性与群体理性的冲突：每个人在追求个体利益最大化时，就使群体利益受损，这就是囚徒困境。在矩阵中，对于A来说，当对方选C，他选D得5分，选C只得3分；当对方选D，他选D得1分，选C得零分。因此，无论对方选C或D，对A来说，选D都得分最多。这是A单方面的优超策略。而当两个优超策略相遇，即A，B都选D时，结果是各得1分。这个结果在矩阵中并非最优。困境就在于，每个人采取各自的优超策略时，得出的解是稳定的，但不是帕累托最优的，这个结果体现了个体理性与群体理性的矛盾。在数学上，这个一次性决策的矩阵没有最优解。
如果博弈进行多次，只要对策者知道博弈次数，他们在最后一次肯定采取互相背叛的策略。既然如此，前面的每一次也就没有合作的必要，因此，在次数已知的多次博弈中，对策者没有一次会合作。
如果博弈在多人间进行，而且次数未知，对策者就会意识到，当持续地采取合作并达成默契时，对策者就能持续地各得3分，但如果持续地不合作的话，每个人就永远得1分。这样，合作的动机就显现出来。多次对局下，未来的收益应比现在的收益多一个折现率W，W越大，表示未来的收益越重要。在多人对策持续进行下去，且W比较大，即未来充分重要时，最优的策略是与别人采取的策略有关的。假设某人的策略是，第一次合作，以后只要对方不合作一次，他就永不合作。对这种对策者，当然合作下去是上策。假如有的人不管对方采取什么策略，他总是合作，那么总是对他采取不合作的策略得分最多。对于总是不合作的人，也只能采取不合作的策略。
艾克斯罗德做了一个实验，邀请多人来参加游戏，得分规则与前面的矩阵相同，什么时候结束游戏是未知的。他要求每个参赛者把追求得分最多的策略写成计算机程序，然后用单循环赛的方式将参赛程序两两博弈，以找出什么样的策略得分最高。
第一轮游戏有14个程序参加，再加上艾克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作)，运转了300次。结果得分最高的程序是加拿大学者罗伯布写的"一报还一报"(tit for tat)。这个程序的特点是，第一次对局采用合作的策略，以后每一步都跟随对方上一步的策略，你上一次合作，我这一次就合作，你上一次不合作，我这一次就不合作。艾克斯罗德还发现，得分排在前面的程序有三个特点：第一，从不首先背叛，即"善良的"；第二，对于对方的背叛行为一定要报复，不能总是合作，即" 可激怒的"；第三，不能人家一次背叛，你就没完没了的报复，以后人家只要改为合作，你也要合作，即"宽容性"。
为了进一步验证上述结论，艾氏决定邀请更多的人再做一次游戏，并把第一次的结果公开发表。第二次征集到了62个程序，加上他自己的随机程序，又进行了一次竞赛。结果，第一名的仍是"一报还一报"。艾氏总结这次游戏的结论是：第一，"一报还一报"仍是最优策略。第二，前面提到的三个特点仍然有效，因为63人中的前15名里，只有第8名的哈灵顿程序是"不善良的"，后15名中，只有1个总是合作的是"善良的"。可激怒性和宽容性也得到了证明。此外，好的策略还必须具有的一个特点是"清晰性"，能让对方在三、五步对局内辨识出来，太复杂的对策不见得好。"一报还一报"就有很好的清晰性，让对方很快发现规律，从而不得不采取合作的态度。
二、合作的进行过程及规律
"一报还一报"的策略在静态的群体中得到了很好的分数，那么，在一个动态的进化的群体中，这种合作者能否产生、发展、生存下去呢？群体是会向合作的方向进化，还是向不合作的方向进化？如果大家开始都不合作，能否在进化过程中产生合作？为了回答这些疑问，艾氏用生态学的原理来分析合作的进化过程。
假设对策者所组成的策略群体是一代一代进化下去的，进化的规则包括：一，试错。人们在对待周围环境时，起初不知道该怎么做，于是就试试这个，试试那个，哪个结果好就照哪个去做。第二，遗传。一个人如果合作性好，他的后代的合作基因就多。第三，学习。比赛过程就是对策者相互学习的过程，"一报还一报"的策略好，有的人就愿意学。按这样的思路，艾氏设计了一个实验，假设63个对策者中，谁在第一轮中的得分高，他在第二轮的群体中所占比例就越高，而且是他的得分的正函数。这样，群体的结构就会在进化过程中改变，由此可以看出群体是向什么方向进化的。
实验结果很有趣。"一报还一报"原来在群体中占1/63，经过1000代的进化，结构稳定下来时，它占了24%。另外，有一些程序在进化过程中消失了。其中有一个值得研究的程序，即原来前15名中唯一的那个"不善良的"哈灵顿程序，它的对策方案是，首先合作，当发现对方一直在合作，它就突然来个不合作，如果对方立刻报复它，它就恢复合作，如果对方仍然合作，它就继续背叛。这个程序一开始发展很快，但等到除了"一报还一报"之外的其它程序开始消失时，它就开始下降了。因此，以合作系数来测量，群体是越来越合作的。
进化实验揭示了一个哲理：一个策略的成功应该以对方的成功为基础。"一报还一报"在两个人对策时，得分不可能超过对方，最多打个平手，但它的总分最高。它赖以生存的基础是很牢固的，因为它让对方得到了高分。哈灵顿程序就不是这样，它得到高分时，对方必然得到低分。它的成功是建立在别人失败的基础上的，而失败者总是要被淘汰的，当失败者被淘汰之后，这个好占别人便宜的成功者也要被淘汰。
那么，在一个极端自私者所组成的不合作者的群体中，"一报还一报"能否生存呢？艾氏发现，在得分矩阵和未来的折现系数一定的情况下，可以算出，只要群体的 5%或更多成员是"一报还一报"的，这些合作者就能生存，而且，只要他们的得分超过群体的总平均分，这个合作的群体就会越来越大，最后蔓延到整个群体。反之，无论不合作者在一个合作者占多数的群体中有多大比例，不合作者都是不可能自下而上的。这就说明，社会向合作进化的棘轮是不可逆转的，群体的合作性越来越大。艾克斯罗德正是以这样一个鼓舞人心的结论，突破了"囚犯困境"的研究困境。
在研究中发现，合作的必要条件是：第一、关系要持续，一次性的或有限次的博弈中，对策者是没有合作动机的；第二、对对方的行为要做出回报，一个永远合作的对策者是不会有人跟他合作的。
那么，如何提高合作性呢？首先，要建立持久的关系，即使是爱情也需要建立婚姻契约以维持双方的合作。（火车站的小贩为什么要骗人？为什么工作中要形成小组制度？换防的时候一方总是要小小地进攻一下的，在中越前线就是这样）第二、要增强识别对方行动的能力，如果不清楚对方是合作还是不合作，就没法回报他了。第三、要维持声誉，说要报复就一定要做到，人家才知道你是不好欺负的，才不敢不与你合作。第四、能够分步完成的对局不要一次完成，以维持长久关系，比如，贸易、谈判都要分步进行，以促使对方采取合作态度。第五、不要嫉妒人家的成功，"一报还一报"正是这样的典范。第六、不要首先背叛，以免担上罪魁祸首的道德压力。第七、不仅对背叛要回报，对合作也要作出回报。第八、不要耍小聪明，占人家便宜。
（打桥牌和打麻将的区别）
艾克斯罗德在《合作的进化》一书结尾提出几个结论。第一、友谊不是合作的必要条件，即使是敌人，只要满足了关系持续，互相回报的条件，也有可能合作。比如，第一次世界大战期间，德英两军在战壕战中遇上了三个月的雨季，双方在这三个月中达成了默契，互相不攻击对方的粮车给养，到大反攻时再你死我活地打。这个例子说明，友谊不是合作的前提。第二、预见性也不是合作的前提，艾氏举出生物界低等动物、植物之间合作的例子来说明这一点。但是，当有预见性的人类了解了合作的规律之后，合作进化的过程就会加快。这时，预见性是有用的，学习也是有用的。
当游戏中考虑到随机干扰，即对策者由于误会而开始互相背叛的情形时，吴坚忠博士经研究发现，以修正的"一报还一报"，即以一定的概率不报复对方的背叛，和 "悔过的一报还一报"，即以一定的概率主动停止背叛。群体所有成员处理随机环境的能力越强，"悔过的一报还一报"效果越好，"宽大的一报还一报"效果越差。
三、艾克斯罗德的贡献与局限性
艾克斯罗德通过数学化和计算机化的方法研究如何突破囚徒困境，达成合作，将这项研究带到了一个全新境界，他在数学上的证明无疑是十分雄辩和令人信服的，而且，他在计算机模拟中得出的一些结论是非常惊人的发现，比如，总分最高的人在每次博弈中都没有拿到最高分。（刘邦和项羽的战争）
艾氏所发现的"一报还一报"策略，从社会学的角度可以看作是一种"互惠式利他"，这种行为的动机是个人私利，但它的结果是双方获利，并通过互惠式利他有可能覆盖了范围最广的社会生活，人们通过送礼及回报，形成了一种社会生活的秩序，这种秩序即使在多年隔绝，语言不通的人群之间也是最易理解的东西。比如，哥伦布登上美洲大陆时，与印地安人最初的交往就开始于互赠礼物。有些看似纯粹的利他行为，比如无偿损赠，也通过某些间接方式，比如社会声誉的获得，得到了回报。研究这种行为，将对我们理解社会生活有很重要的意义。
囚徒困境扩展为多人博弈时，就体现了一个更广泛的问题——"社会悖论"，或"资源悖论"。人类共有的资源是有限的，当每个人都试图从有限的资源中多拿一点儿时，就产生了局部利益与整体利益的冲突。人口问题、资源危机、交通阻塞，都可以在社会悖论中得以解释，在这些问题中，关键是通过研究，制定游戏规则来控制每个人的行为。
艾克斯罗德的一些结论在中国古典文化道德传统中可以很容易地找到对应，"投桃报李"、"人不犯我，我不犯人"都体现了"tit for tat"的思想。但这些东西并不是最优的，因为"一报还一报"在充满了随机性的现实社会生活里是有缺陷的。对此，孔子在几千年前就说出了"以德报德，以直报怨"这样精彩的修正策略，所谓"直"，就是公正，以公正来回报对方的背叛，是一种修正了的"一报还一报"，修正的是报复的程度，本来会让你损失5分，现在只让你损失3分，从而以一种公正审判来结束代代相续的报复，形成文明。
但是，艾氏对博弈者的一些假设和结论使其研究不可避免地与现实脱节。首先，《合作的进化》一书暗含着一个重要的假定，即，个体之间的博弈是完全无差异的。现实的博弈中，对策者之间绝对的平等是不可能达到的。一方面，对策者在实际的实力上有差异，双方互相背叛时，可能不是各得1分，而是强者得5分，弱者得0 分，这样，弱者的报复就毫无意义。另一方面，即使对局双方确实旗鼓相当，但某一方可能怀有赌徒心理，认定自己更强大，采取背叛的策略能占便宜。艾氏的得分矩阵忽视了这种情形，而这种赌徒心理恰恰在社会上大量引发了零和博弈。因此，程序还可以在此基础上进一步改进。
其次，艾氏认为合作不需预期和信任。这是他受到质疑颇多之处。对策者根据对方前面的战术来制定自己下面的战术，合作要求个体能够识别那些曾经相遇过的个体并且记得与其相互作用的历史，以便作出反应，这些都暗含着"预期"行为。在应付复杂的对策环境时，信任可能是对局双方达成合作的必不可少的环节。但是，预期与信任如何在计算机的程序中体现出来，仍是需要研究的。
最后，重复博弈在现实中是很难完全实现的。一次性博弈的大量存在，引发了很多不合作的行为，而且，对策的一方在遭到对方背叛之后，往往没有机会也没有还手之力去进行报复。比如，资本积累阶段的违约行为，国家之间的核威慑。在这些情况下，社会要使交易能够进行，并且防止不合作行为，必须通过法制手段，以法律的惩罚代替个人之间的"一报还一报"，规范社会行为。这是艾克斯罗德的研究对制度学派的一个重要启发。

9. 博弈论分哪几种啊各自的优缺点是什么

博弈论分类较多，如下：

1、一般认为，博弈主要可以分为合作博弈和非合作博弈。

合作博弈和非合作博弈的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议，如果有，就是合作博弈，如果没有，就是非合作博弈。

从行为的时间序列性，博弈论进一步分为静态博弈、动态博弈两类：静态博弈是指在博弈中，参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动；动态博弈是指在博弈中，参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。

通俗的理解："囚徒困境"就是同时决策的，属于静态博弈；而棋牌类游戏等决策或行动有先后次序的，属于动态博弈。

2、按照参与人对其他参与人的了解程度分为完全信息博弈和不完全信息博弈。

完全博弈是指在博弈过程中，每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息。

不完全信息博弈是指如果参与人对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的信息，在这种情况下进行的博弈就是不完全信息博弈。

3、以博弈进行的次数或者持续长短可以分为有限博弈和无限博弈。

4、以表现形式也可以分为一般型（战略型）或者展开型

5、以博弈的逻辑基础不同又可以分为传统博弈和演化博弈。

阅读全文

热点内容

女和女亲吻教学视频发布：2025-09-22 01:20:32 浏览：236

开展微格教学发布：2025-09-22 00:07:23 浏览：867

化学销售发布：2025-09-21 23:38:45 浏览：271

英语教学法题发布：2025-09-21 22:54:23 浏览：701

庞丽老师发布：2025-09-21 20:32:58 浏览：966

一年级数学优质课发布：2025-09-21 20:23:38 浏览：247

韩国漂亮老师电影发布：2025-09-21 19:21:10 浏览：243

教师节给班主任一段话发布：2025-09-21 18:07:10 浏览：820

长棍教学视频发布：2025-09-21 17:50:53 浏览：74

高考2017数学全国2卷发布：2025-09-21 17:04:51 浏览：450

博弈论数学模型

与博弈论数学模型相关的资讯