博弈论第一章
1 完整信息静态博弈
1.0 对策论研究的内容与根本形式
对策论研究的内容
对策论研究多个行为主体的决议问题。
对策论研究的形式
博弈 (game),由多个行为主体组成的系统。
例
Stackelberg model
Cournot model
博弈的种类
参加者行动的时间与次序
同时行动——静态博弈;
先后行动——动向博弈。
参加者的信息多少
信息同样——完整信息;
信息不一样——不完整信息。
1.1 根本理论 : 博弈的标准式和纳什平衡
例 1 少儿游戏:“石头、剪刀、布〞。
博弈论第一章
博弈的 准式表示
(normal-form representation)
(1) 参加人 ( player).
n 个参加人: 1, 2, ⋯, i, ⋯, n. (2) 略 (strategy).
一个参加人的 略是他采纳的一个行 。 参加人 i 的 略: si. 参加人 i 的 略空 : Si .
略的一个 合 : s ={s1,s2, ⋯, sn}. 化表示: s-i ={ s1,⋯, s i -1, s i+1, ⋯ , sn }. (3) 利润 (payoff).
参加人 i 的利润: ui= ui(s1,s2, ⋯, sn)
n 个参加人博弈的 准形式表示
:
⋯ u, n}
G = {S1, S2, ⋯S,n;u1, u2,
完整信息 (complete information) :每个参加人知道其余人的 略空 和利润。
静 博弈
(static game):全部的参加人同 行 。
每一个人行 ,不知道其余人的行 。
例 1〔 〕: 博弈 {石 、剪刀、布 } 的描绘:
参加人:1,2。
略空 :S1 = S2 = {石 、剪刀、布 }
利润:两人出手的函数
u1 (石 ,石 ) = 0, u1 (石 ,剪刀 ) = 1, u1 (石 ,布 ) = -1
⋯
博弈论第一章
u2 (石 ,石 ) = 0, u2 (石 ,剪刀 ) = -1,u2 (石 ,布 ) = 1
⋯⋯
利润表:两个参加人,有限个 略的博弈的表示方法。
P2
石头
剪刀
布
石头
0 , 0 -1,1
1,-1 0 , 0
-1 ,1 1 ,-1
P剪刀
1
布
1 ,-1 -1,1 0 , 0
博弈的 :可否知道每个参加人 的 略?
例 2: 囚犯窘境 (The Prisoner ’s Dilemma)
囚犯 2
缄默
招认
缄默
囚犯 1
-1 ,-1 -9 ,0
招认
0 ,-9 -6 ,-6
囚犯 1 的考 :无 方 缄默 是招 ,自己 “招 〞好于“缄默〞。
囚犯 2 的考 :
无 方 什么,“招 〞好于“缄默〞 。
两人的 : (招 ,招 )。
定 :si 是 si 的 格劣 略 〔strictly dominated 〕,假如 :
博弈论第一章
ui(si ,s-i ) ui(si , s-i )
“缄默〞是“招认〞的严格劣战略
例 3:
参加人
2
左
中 右
上
1 , 0 1, 3 3 , 0
参加人 1 中
0, 2 0,1 6,0
下
0, 2 2, 4 5, 3
参加人 1: 没有严格劣战略。
参加人 2: “右〞严格劣于“中〞
考虑: 重复剔除严格劣战略
(iterated elimination of strictly dominated
strategies)
可预示的两人选择 : (下, 中)。
例 4: 图
参加人
2
左
中 右
上
0 , 4 4 , 0 5 , 3
参加人 1 中
4, 0 0,4 5,3
下 3, 5 3, 5 6, 6
博弈论第一章
两人都没有 格劣 略。 两人会如何 各自的 略?
定 :s* = ( s1 ,⋯, n
*
是一个 什平衡
s *)
假如
(Nash equilibrium),
ui(si *,s-i*) ui(si,s-i*)
什平衡 最大化 的解
max ui = ui (s1*,
⋯s,i , ⋯s,n*)
si Si
各例中的 什平衡 :
囚犯窘境 : 〔招 ,招 〕
例 3: 〔下,中〕
例 4〔1. 1. 4〕: (下 , 右).
什平衡与重复剔除 格劣 略的关系
: .
.
没有被剔除的独一的 略 合是 什平衡
假如 略是一个 什平衡,它 在重复剔除 格劣 略后留下
多个 什平衡
例5 性 (the battle of the Sexes)
帕特
歌剧
拳击
歌剧
2 , 1 0 , 0
克里斯
拳击 0 , 0 1 ,2
博弈论第一章
纳什平衡 :
(歌剧 ,歌剧 ),(拳击 ,拳击 )
1.2 应用
例 古诺双头垄断模型〔 Cournot Model of Duopoly 〕
二个公司,生产产量 : q1 2
, q
Q = q
市场需求 : P = a –Q,
1
2
公司本钱 : Ci i
i
+ q
(q ) = cq, i = 1, 2.
公司利润:
i (q1, q2) = Pqi –Ci (qi) = (a –(q1 + q2))qi –cqi,
博弈的描绘:
参加人:公司 1,公司 2
战略:产量 qi
利润: i (q1, q2)
公司 i 选择产量求
(s , , s*):
max
si Si
iij
一阶条件
d1
= a –c –2q1 –q2* = 0
dq1
和
d
2 = a –c –q1* –2q2 = 0
dq2
厂商选择自己利润最大的产量
q1=
ac q2
2
q2= ac q2
1
解纳什平衡得
q1* = q2* =
a
c
3
博弈论第一章
利
π1 = π2 = ( a –c –(
当 ui 是可微分的 候
ui (s1 , s2 ,..., sn ) si
a
c
3
+
a c
3
))
a c
3
=
(a c)
9
2
, 什平衡 以下方程 的的解:
= 0, i = 1, ⋯n,
思虑:用重复剔除 格劣 略求 什平衡 比 :假如两个厂商生
q1 = q2 =
a
c
4
利
π1 =π2 = ( a –c –(
a
c
4
+
a c
4
))
a c
4
=
(a c)
8
2
例 特 德双 断模型〔
Bertrand Model of Duopoly 〕
两个企 生 有差 的商品。 消 者 企
i 的需求
qi(pi, pj) = a –pi + bpj,
本钱 : Ci(qi) = cqi, i = 1, 2.
略 si: pi
0
利润 : i (pi, pj) = (a –pi + bpj)( pi –c)
什平衡 (p1
解得p1
*, p *)
max i (pi, pj*) = max (a –pi + bpj*)( pi –c)
2
足
2
a 2
c
* = p * =
例
b
最后要价仲裁 (Final-offer Arbitration)
博弈论第一章
一个公司和一个工会,经过一个仲裁员决定薪资。
公司和工会同时提出薪资 : wf,
wu
仲裁员有一个标准: x,选择两方建议中比较凑近 x 的建议: 假如 x < ( wf + wu )/2,那么 wf
假如 x > ( wf + wu )/2,那么 wu
wf (wf + wu )/2 x wu
公司和工会不知道 x,但知道 x 剖析
的散布函数 F(x)和密度函数 f(x)。
wfwf 被选择的概率: Prob { x < wf
wu 被选择的概率: Prob{ x >
2
wu
} = F
wf
wu
2
wu
} = 1 –F w f wu
2
2
希望薪资
Ew = wf F w f wu + wu 1 –F wf
wu 2
2
wf * 知足
min
w f
wf F w f wu* + wu*
1 –F w f wu*
2
2
wu* 知足
max
wu
wf * F wf
*
wu + wu 1 –F
2
w*f
2
wu
由一阶条件
F w f wu
+ wf f w f
2
1
wu2
- wu f
2
1ww fu = 0
2 2
博弈论第一章
1
wf f
2
w f wu
2
+ 1 - F
2
wfwu1 - wu f
2
wwfu = 0
2
由此解出薪资的平衡建议。
两式相减
F w f wu
=
1
2
2
两式相加
w * f
u
w f
wu 2
–w * f
f
w f
wu 2
2
= 1
假如 x 为正态散布 : x ~ N(m,
w*f
2 wu*
)
= m
2
wu * –wf* =
1
= 2
,
f (m)
纳什平衡
wu * = m +
2
/ 2 , wf * = m –
2
/ 2
例 公共财富问题
一个乡村 ,有 n 个村民,在公共草地上放羊。
村民 i 放牧的羊数: gi
全村的羊总数: G = g1 + ... + gn
养一只羊的 (个人 )本钱为 c,一只羊的价值为 v(G)
当 G < G max, v(G) > 0, v'(G) < 0, v''(G) < 0
博弈论第一章
当 G > G max, v(G) = 0
每个村民选择养羊数目使自己利润最大
gi v(G) –cgi
一阶条件
v(G) + gi v' (G) –c = 0, i = 1,..., n
将 n 个等式相加获得
nv(G) + G v' (G) –nc = 0
即纳什平衡 G1 知足
G1
v(G1) + v' (G1) –c= 0
n
全村在总利润最大的放牧数
G2 知足
max G2 v(G2) –cG2
一阶条件
v(G2) + G2 v' (G2) –c = 0
G1 与 G2 哪一个大?
G1 大
v
v (G)
O
Gmax
G
G v' (G)/n
博弈论第一章
v' (G)
G v' (G)
决议问题:在条件变差时 , 利润上涨仍是降落?
在往常的 (一人 )决议中,假如有几个选择,决议者选择利润最大的一个。
假如外界条件改变,使他的一个或几个利润降落,那么它不论如何选择,
都不会使利润比本来更大。
例
在一块田里选择栽种的 (纯)收入:
棉花 花生 玉米
3000 元 3700 元 3500 元
假如本钱上涨,收入变成
棉花 花生 玉米
3000 元 3200 元 3400 元
人决议利润往常降落 例
在多人决议时的利润降落与增添
〔1〕初始时
参加人
1
2
2
T
S
5 , 4
1
T 8 , 3
参加人 1
S
4 , 3
6 , 5
2
平衡为〔 S1, T1〕,参加人 1 的利润为 5。
〔2〕外界条件使参加人 1 在选择 S1 时的利润降落
参加人 2 T1
T2
博弈论第一章
S1
参加人 1
3,4 5,2
S2 4, 3 6,5
平衡 〔 S2,T2〕
参加人 1 的利润 6。
多人决议 ,利润可能上涨。
混淆战略和平衡的存在
例 1 少儿游 :“石 、剪刀、布〞不存在 什平衡。如何 略?
例 6 猜硬 (Matching Pennies)
参加人 2
正面
正面
参加人 1
-1, 1
反面 1, -1
反面
1, -1 -1, 1
也不存在 什平衡。
将本来的 略 sik 称 略 (pure strategy) 。 略空 Si 〔 i 1,⋯, iK 〕。
= s s
混淆 略 (mixed strategy):
i 〔 i 1,⋯, iK 〕
略空 Si 的概率散布
: p = pp .
——由参加人 定。 〔参加者在可 行 中全部行 的一个概
率散布〕
利润 : vi
1
,⋯, n
p ) =
(p
,⋯, n
p )u (s (
=E ui(s1,⋯,sn)
k
j jk
i 1
s )
博弈论第一章
——由概率 算的希望 。
的情况 : 二个参加人
S1 = { s11,⋯,s1J } , S2= { s21, ⋯s,2K } 利
润 :
J
K
v1(p1, p2) =
j 1 k 1
p1j p2 k u1(s1 j , s2 k )
猜硬 的利润:假如
1213p1 = ( , ), p2 = ( , ),
4
11v1 = – × + 1×2 +
32
3 ×1 – × = -1/6
4
3 3
v2 =
4 1 4
3 1 3
随意的混淆 略,
4 3 4 3 4 3 1 2 3 1 3 2
×–×– × + × =1/6 4 3 4 3 4 3
p1
, ,
2
,
= (p 1-p) p = (q 1-q),
v1 (p1,p2) = pq(-1) + p(1-q) + (1-p)q + (1-p)(1-q)(-1)
=2p(1-2q) + 2q -1
v2(p1,p2) = pq + p(1-q)(-1) + (1-p)q(-1) + (1- p)(1-q)
=2q(2p-1) + 1 –2p
混淆 略中的劣 略 例 7
参加人 2
L R
T
参加人1M
3, -- 0, --
0, -- 3, --
B 1, -- 1, --
假如只考 略, B 不是 格劣 略。在 略 ,假如参加人
博弈论第一章
L,那么 1 选 T,假如参加人 2 选 R,那么 1 选 R。可否剔除 B?
假如 1 选择 p = ( 0.5, 0.5, 0),那么对 2 的任何混淆战略 (q,1 –q)
v1 (p, q) = 0.5q 3 + 0.5 (1-q) 0 + 0.5 q 0 + 0.5 (1-q) 3 = 1.5 考虑以概率 1 选择 B,即 pB = ( 0, 0, 1), 那么
v1 (pB , q) = q 1 + (1-q) 1 = 1
即 B 为 p 的严格劣战略。
v
3
M
T
p
1
B
O 1 q
仿佛能够剔除 B?
假如改写一下:
参加人 2
L
R
T
参加人1M
3, --
0, --
0, -- 3, --
B 2, -- 2, --
结果有何变化?
博弈论第一章
给出其余人的混淆战略 p-i,i 的最优反应 : p
vi(pi, p-i) vi (p i, p- i)
例 6〔续〕在猜硬币中,参加人
1 的利润:
v1(p1,p2) = pq(-1) + p(1-q) + (1-p)q + (1-p)(1-q)(-1)
=2p(1-2q) + 2q -1
参加人 1 的最优反应
1
假如 q ,p =1;
假如 q
1
2
,p = 0;
假如 q = ,p 在[0, 1]中随意。
1
2
2
参加人 2 的利润:
v2(p1,p2) = pq + p(1-q)(-1) + (1-p)q(-1) + (1-p)(1-q)
=2q(2p-1) + 1 –2p 参加人 2 的最优反应
1
假如 p , q = 0;
假如 p
1 , q = 1; 1
2
2
假如 p = , q 在[0, 1] 中随意。
2
p
p
1 1
1/2
O
1/2 1q
O 1
参加人 2
q
参加人 1
混淆战略的纳什平衡
博弈论第一章
什平衡: p* = 〔p1* ,⋯,pn* 〕 足
v i (p* i,p* -i ) v i (pi ,p* -i)
什平衡 最大化 的解
max vi = vi (p1*,
p i
⋯p, i, ⋯p, n*) 〕, 〔
在猜硬 中 ,{〔
1
, 1
2
1
, 〕 }是一个 什平衡 .
2
1
2
p
2
1
O 1/2 1 q
例 8 性 〔 〕
克里斯取混淆 略
(p, (1 –p)),帕特取〔 q, (1 –q)〕
克里斯利润
v1 = 2pq + (1-p)(1-q)
=p(3q -1) +1 - q
她的最 反
p = 0,当 q
1 , 3
p = 1, 当 q
1 3
p 随意在 [0, 1]中,当
q =
1
3
帕特利润
v2 = pq + 2(1-p)(1-q)
=q(3p-2) + 2 –2p
博弈论第一章
他的最优反应
q = 0,当 p
2 ;
3
q = 1,当 p
2 ;
3
q 随意在 [0, 1]中,当 p = .
2
3
p
p
O
克里斯
q
O
q
帕特
纳什平衡:
2112{(, ),(, )};
3 3 3 3
{(0, 1), (0, 1)}; {(1, 0), (1, 0)}.
纳什平衡的存在
二个参加人,二个战略
参加人
2
R
L
U
参加人 1
x, a y, b
D z, c w, d
参加人 1 的混淆战略 : (p, 1- p);
参加人 2 的混淆战略 : (q, 1- q).
博弈论第一章
参加人 1 的利润 :
v1(p, q) = pq x+ p(1 –q)y + (1 –p)qz + (1 –p)(1 –q)w
=p[q(x –z + w –y) –(w –y)] + q(z –w) + w
分 3 种状况:
(1) x –z + w –y = 0。
v1(p,q) = p(y –w) + q(z –w) + w
p = 1, 当 y
w; w;
p = 0, 当 y
p [0, 1] ,当 y = w.
p
p
O
q
O
q
y w
y w
(2) x –z + w –y 0
p = 0, 当 q
(w –y)/(x –z + w –y)
p = 1, 当 q
(w –y)/(x –z + w –y);
p [0, 1], 当 q = (w –y)/( x –z + w –y).
p
O
q
0 (w –y)/(x –z + w –y)
1
博弈论第一章
p p
O
1 (w –y)/(x –z + w –y)
q O
(w –y)/(x –z + w –y)
0
q
(3) x –z + w –y 0
p = 1, 当 q
(w –y)/( x –z + w –y ) ;
p = 0, 当 q
( w - y) /(x –z + w –y ) ,
p [0, 1], 当 q = (w -y) /(x –z + w –y ) .
p
O
0
q
(w –y)/( x –z + w –y ) < 1
p p
O
(w –y)/( x –z + w –y )
0
q O
1 (w –y)/( x –z + w –y )
q
最优反应曲线一共能够归纳为 4 种状况。
博弈论第一章
似的剖析可得参加人
2 的最 反 曲 只有
4 种可能:
p
p
O
q
O
q
p
p
O q O q
什平衡的存在 : 参加人
1 的任何最 反 与参加人 2 的任何最
反 起码有一个交点。
超 二个参加人或超 二个 略的情况 参加人 i 的最 反 : pi
i i
12
= ( p , p
,
⋯
, p
ik –1
, 1 2
–
1 k 1
ss
p
s
i ) = f
i
(p
- i
)
n 个参加人的反 表示成
( p1, p2, ⋯, pn , ) = ( f 1(p-1 ), f2(p-2 ), ⋯, fn(p-n ))
用向量形式:
q = F(p)
由不 点定理,
起码存在一个 s
s = F(s)
博弈论第一章
一元函数几何表现: y = f(x)
不动点定理:起码有一个 c,知足 c = f(c)
y
1
O c 1 x
二元函数几何表现: (w, z) = f(x, y)
不动点定理:起码有一个点 (c, d),知足 (c, d) = f(c, d)
z
w
y
x