博弈论基础
文档概述
博弈论是研究决策主体行为相互作用及策略选择的数学理论。本指南系统介绍标准形式博弈与扩展形式博弈、Nash均衡的存在性证明、演化博弈论、合作博弈论(Shapley值)以及机制设计(Vickrey拍卖)等核心内容。
关键词
| 序号 | 关键词 | 英文 | 核心概念 |
|---|---|---|---|
| 1 | 标准形式博弈 | Normal Form Game | 三元组 |
| 2 | 扩展形式博弈 | Extensive Form Game | 序贯决策的博弈树 |
| 3 | Nash均衡 | Nash Equilibrium | 无玩家可单方偏离获利 |
| 4 | 混合策略 | Mixed Strategy | 策略的概率分布 |
| 5 | 演化稳定策略 | ESS | 演化博弈的稳定状态 |
| 6 | Shapley值 | Shapley Value | 贡献公平分配的解概念 |
| 7 | 机制设计 | Mechanism Design | 反向设计激励相容的规则 |
| 8 | Vickrey拍卖 | Vickrey Auction | 次价密封投标拍卖 |
| 9 | 纳什证明 | Nash Existence Proof | 角谷不动点定理 |
| 10 | 囚徒困境 | Prisoner’s Dilemma | 个体理性与集体理性的冲突 |
| 11 | 激励相容 | Incentive Compatibility | 说真话是占优策略 |
| 12 | 占优策略 | Dominant Strategy | 无论他人行动均最优 |
引言:博弈论的思想源流
0.1 从冯·诺依曼到纳什——博弈论的百年历程
博弈论(Game Theory)作为一门独立的数学学科,其历史可追溯至20世纪初期。1913年,恩斯特·策梅洛(Ernst Zermelo)发表了《关于集合论在象棋博弈中的应用》,首次尝试用数学方法分析博弈,这一工作被视为博弈论思想的萌芽。1921年至1928年间,法国数学家埃米尔·博雷尔(Émile Borel)开始系统研究策略博弈,并提出了混合策略的早期概念。1928年,约翰·冯·诺依曼(John von Neumann)发表了《 Zur Theorie der Gesellschaftsspiele》,证明了极小极大定理,奠定了博弈论作为数学分支的基础。
1944年,冯·诺依曼与奥斯卡·摩根斯滕(Oskar Morgenstern)合著的《博弈论与经济行为》问世,标志着博弈论作为一个完整理论体系的诞生。这部划时代的著作将博弈论系统化,并首次将其应用于经济学分析。书中提出了标准形式博弈和扩展形式博弈的基本框架,引入了合作博弈的概念,并探讨了效用理论的基础问题。冯·诺依曼和摩根斯滕的工作深刻影响了20世纪后半叶的经济学发展。
然而,早期博弈论面临一个根本性困难:对于非零和博弈,缺乏有效的均衡概念。零和博弈中,一方的收益恰好是另一方的损失,局中人之间的利益完全对立。对于这类博弈,极小极大定理提供了完整的解的概念。但现实中的大多数博弈——包括经济竞争、政治谈判、国际关系——并非零和博弈,局中人之间既有冲突也有合作的可能。
1950年,约翰·纳什(John Nash)在普林斯顿大学的博士论文和随后的论文中,提出了纳什均衡的概念,这一概念具有革命性的意义。纳什证明了有限博弈中纳什均衡的存在性,这一结果被《财富》杂志誉为”改变世界的17个方程”之一。纳什均衡的核心洞见在于:在均衡状态下,每个参与者都选择了给定他人选择下的最优策略,因此没有任何人愿意单方面改变自己的选择。这是一种”僵持”状态,任何偏离都会让偏离者受损。
纳什均衡的提出为博弈论提供了统一的概念框架。此后60余年间,博弈论经历了爆炸式发展,产生了大量重要的理论成果和应用分支。1994年,纳什与约翰·海萨尼(John Harsanyi)、莱因哈德·泽尔腾(Reinhard Selten)共同获得诺贝尔经济学奖,表彰他们在博弈论分析中的基础性贡献。2012年和2014年,埃尔文·罗斯(Alvin Roth)和罗伊德·沙普利(Lloyd Shapley)分别因稳定匹配理论和市场设计获得诺贝尔经济学奖,这些工作都与博弈论密切相关。2020年,保罗·米尔格罗姆(Paul Milgrom)和罗伯特·威尔逊(Robert Wilson)因改进拍卖理论和发明新拍卖形式获奖,再次彰显了博弈论在经济学中的核心地位。
0.2 博弈论的学科定位与交叉应用
博弈论是一门高度跨学科的数学理论,其思想和方法渗透到经济学、政治学、社会学、心理学、生物学、计算机科学、人工智能、法学、军事学等众多领域。在经济学中,博弈论是微观经济理论的核心支柱,从产业组织理论到国际经济学,从劳动经济学到金融经济学,几乎所有涉及交互决策的领域都离不开博弈论的工具。在生物学中,演化博弈论为理解动物行为、物种竞争、生态系统演化提供了强有力的框架。在计算机科学中,算法博弈论成为互联网经济学、加密货币、区块链协议设计的理论基础。在人工智能领域,多智能体系统的协调与竞争、机制设计、拍卖算法、强化学习中的博弈论分析等问题日益重要。
博弈论的独特之处在于,它关注的是决策主体之间的策略互动。当一个主体的最优选择依赖于其他主体的选择时,传统的优化理论无法直接应用,我们需要博弈论的概念和方法。这种策略相互依存的情境在现实中比比皆是:从日常的人际交往到商业竞争,从国际政治博弈到网络安全攻防,博弈论的视角能够帮助我们更好地理解这些复杂情境。
0.3 本书的学习路径
本书系统介绍博弈论的基础理论与方法论。我们从标准形式博弈开始,建立博弈论的基本框架,引入占优策略、纳什均衡等核心概念。随后,我们转向扩展形式博弈,讨论序贯决策、信息结构、子博弈完美均衡等问题。第三章深入探讨纳什均衡的存在性证明,这是博弈论最重要的理论支柱之一。第四章介绍演化博弈论,展示博弈论与生物学的交叉应用。第五章讨论合作博弈论,详述Shapley值等解概念。第六章探讨机制设计,特别是Vickrey拍卖的原理与应用。最后,我们讨论博弈论的前沿议题及其与人工智能的联系。
一、标准形式博弈
1.1 博弈论的基本框架
标准形式博弈(Normal Form Game)是博弈论中最基本的描述形式,由一个三元组 完全定义:
- 玩家集合:,表示参与博弈的决策主体个数
- 行动空间:,其中 是玩家 的可行行动集合(策略空间), 中的元素称为该玩家的纯策略
- 效用函数:,其中 表示玩家 的收益(支付)函数
当 时,博弈称为双人博弈;当 有限时,博弈称为有限博弈。本书主要讨论有限博弈,因为这类博弈具有较好的数学性质,便于分析。
1.1.1 双人博弈的收益矩阵表示
对于双人有限博弈,我们可以用收益矩阵(Payoff Matrix)直观展示每个策略组合下各玩家的收益。设玩家1(行玩家)有 个纯策略,玩家2(列玩家)有 个纯策略,则收益矩阵为:
通常,我们只记录行玩家的收益或用简写形式 表示行玩家收益为 、列玩家收益为 。
性别之战(Battle of the Sexes)
足球 芭蕾 足球 (2, 1) (0, 0) 芭蕾 (0, 0) (1, 2) 第一个数字是行玩家(妻子)的收益,第二个是列玩家(丈夫)的收益。夫妻偏好一致但优先级不同:都更喜欢在一起(2,1)或(1,2)而非分开(0,0)。妻子更喜欢足球,丈夫更喜欢芭蕾,但两人都更愿意一起看同一节目。
囚徒困境(Prisoner's Dilemma)
坦白 抵赖 坦白 (-5, -5) (0, -8) 抵赖 (-8, 0) (-1, -1) 两个嫌疑人被分别审讯。如果两人都抵赖,各判1年;一人坦白一人抵赖,坦白者释放、抵赖者判8年;两人都坦白,各判5年。占优策略分析表明,无论对方如何选择,坦白都是更好的选择,导致双人共入狱5年——这比合作的结果更差。
协调博弈(Coordination Game)
左行 右行 左行 (1, 1) (0, 0) 右行 (0, 0) (1, 1) 两个司机相向而行,各选择左行或右行。双方协调一致时安全通过(各得1),不协调时可能相撞(各得0)。这是一个纯协调博弈,存在两个对称的纳什均衡。
斗鸡博弈(Chicken Game / Hawk-Dove Game)
前进 让步 前进 (-10, -10) (1, -1) 让步 (-1, 1) (-5, -5) 两辆车相向而行,各选择前进或让步。都前进则相撞(各得-10);一方前进一方让步,前进者赢得声誉(1)、让步者丢脸(-1);都让步则双方丢脸(各得-5)。存在两个不对称的纳什均衡(前进/让步)和一个混合策略均衡。
1.2 策略类型详解
1.2.1 纯策略
纯策略(Pure Strategy)是确定性的策略选择。玩家 选择某个纯策略 ,然后固定执行该策略。纯策略博弈的策略空间是离散的。
1.2.2 混合策略
混合策略(Mixed Strategy)是玩家以概率分布 随机选择纯策略。当纯策略博弈不存在纯策略纳什均衡(如石头-剪刀-布),或理性分析需要引入不确定性时,混合策略变得重要。
混合策略集合定义为:
其中 是 上的概率单纯形,是一个紧凸集。每个 表示选择纯策略 的概率。
1.2.3 混合策略下的期望效用
引入混合策略后,博弈变为:
其中 是所有玩家的混合策略组合, 是纯策略组合 下玩家 的效用。
特别地,若玩家 采用纯策略 而其他玩家采用混合策略 ,则:
1.2.4 支集与完全混合策略
给定混合策略 ,其支集(Support)是概率为正的纯策略集合:
当 时, 称为完全混合策略(completely mixed strategy)。
石头-剪刀-布的混合均衡
这是一个三人同时行动(实际上是两玩家对称)的同时行动博弈:
石头 剪刀 布 石头 (0, 0) (-1, 1) (1, -1) 剪刀 (1, -1) (0, 0) (-1, 1) 布 (-1, 1) (1, -1) (0, 0) 该博弈没有纯策略纳什均衡。其唯一的混合策略纳什均衡是:每个玩家以等概率 选择石头、剪刀、布。这一均衡是对称的,反映了公平博弈中的无差异原则。
1.3 占优策略与重复删除
1.3.1 占优关系的严格定义
设 是玩家 的两个纯策略。
严格占优(Strict Dominance):策略 严格优于 ,若对所有 :
理性玩家绝不会选择被严格占优的策略——因为无论其他人如何行动,选择严格占优策略都能获得更高效用。
弱占优(Weak Dominance):策略 弱优于 ,若对所有 :
且至少存在一个 使得不等式严格成立。
严格被占优(Strictly Dominated):策略 是被占优的,若存在另一个策略 严格优于它。
1.3.2 理性共识与共同知识
“理性人不会选择被严格占优策略”这一论断蕴含着重要的理性假设和共同知识要求:
- 理性:每个玩家都追求效用最大化
- 共同知识:每个玩家都知道所有玩家的理性
- 递归应用:每个玩家知道其他玩家知道所有玩家的理性,以此类推
这些条件在理论上可以无限递归,形成公共知识(Common Knowledge)的层次结构。共同知识的假设在博弈论中至关重要,许多重要结论都依赖于它。
共同知识的脆弱性
共同知识的假设在现实中很难完全满足。当玩家对他人理性程度、信息质量存在不确定性时,分析会变得复杂。贝叶斯博弈通过引入类型空间来处理这类不确定性。
1.3.3 迭代删除严格劣势策略
IESDS算法(Iterated Elimination of Strictly Dominated Strategies):
- 初始化:设 为原始行动空间
- 迭代:在第 步,识别并删除在当前行动空间 下被严格占优的策略,得到
- 终止:当 时停止
- 结果:剩余的策略集是理性共识下的可能策略
IESDS的核心思想是:理性玩家会删除被严格占优策略,而所有玩家都知道这一点,因此可以递归应用。
IESDS在囚徒困境中的应用
对于囚徒困境:
坦白 抵赖 坦白 (-5, -5) (0, -8) 抵赖 (-8, 0) (-1, -1) 对行玩家而言:
- 坦白 vs 抵赖:当列玩家坦白时,;当列玩家抵赖时,
- 因此,抵赖被坦白严格占优,理性行玩家会选择坦白
对列玩家同理,坦白被独立地确认为理性选择。
IESDS的结论是坦白-坦白是唯一剩余的结果。
IESDS在斗鸡博弈中的局限性
斗鸡博弈:
前进 让步 前进 (-10, -10) (1, -1) 让步 (-1, 1) (-5, -5) 不存在严格占优策略:前进在对方前进时更优,但在对方让步时更差。因此IESDS无法删除任何策略,博弈留下两个纯策略纳什均衡和一个混合策略均衡。
1.3.4 IESDS的性质
IESDS具有以下重要性质:
- 一致性(Consistency):无论删除顺序如何,最终剩余的策略集相同(如果有限次删除完成)
- 与纳什均衡的关系:IESDS删除后剩余的任何策略组合都构成某个纳什均衡的子集
- 完备性局限:存在博弈(如石头-剪刀-布)无法通过IESDS删除任何策略,但这些博弈仍可能有纳什均衡
IESDS的局限性
- IESDS可能删除所有策略(如在某些博弈中)
- 弱占优的删除可能产生路径依赖(不同删除顺序导致不同结果)
- IESDS不保证纳什均衡的存在性(如有限博弈可能没有纯策略纳什均衡)
1.4 最佳反应函数
1.4.1 最佳反应的定义
给定其他玩家的策略 ,玩家 的最佳反应(Best Response)是使效用最大化的策略集合:
最佳反应函数 将其他玩家的策略映射到 的最优策略集合。
1.4.2 反应对应与多值映射
当最佳反应不唯一时, 是一个对应(correspondence)而非函数。对于双人博弈的收益矩阵,最佳反应的计算如下:
- 对每个行策略 ,计算其在每列策略下的效用
- 行 是列策略 的最佳反应,当且仅当 对所有其他行 成立
最佳反应计算
考虑博弈:
L R U (3, 2) (1, 4) D (1, 0) (2, 1) 行玩家的最佳反应:
- 给定列选择L:,因此
- 给定列选择R:,因此
列玩家的最佳反应:
- 给定行选择U:,因此
- 给定行选择D:,因此
纳什均衡满足 且 ,检验得(U, R)是唯一纳什均衡。
1.4.3 混合策略的最佳反应
对于混合策略,期望效用的计算至关重要。设 是其他玩家的混合策略组合,玩家 选择纯策略 的期望效用为:
混合策略 的期望效用为各纯策略效用的加权平均:
最佳反应分析的关键结论:玩家只会在期望效用不低于其他任何策略的纯策略上随机(支集条件)。这导致混合策略均衡的重要性质。
1.5 纳什均衡的直观理解
1.5.1 纳什均衡的正式定义
纳什均衡:策略组合 是纳什均衡,当且仅当对每个玩家 :
即,没有任何玩家可以通过单方面改变策略来提高自己的收益。
混合策略纳什均衡:上述定义中的 可以是混合策略,此时不等式对混合策略集合成立。
1.5.2 纳什均衡的直观解释
纳什均衡可以被理解为一种”僵持”状态:给定他人的策略,没有人愿意单方面改变自己的选择。这种均衡具有自验性(self-enforcing)——一旦达到均衡,没有任何内部动力推动改变。
纳什均衡的经济学解释是:它是一个没有协调失败(coordination failure)的状态。在某些博弈中(如斗鸡博弈),协调一致的失败会导致次优结果,纳什均衡帮助我们识别哪些策略组合是稳定的。
1.5.3 纳什均衡的类型
纳什均衡可分为以下类型:
| 类型 | 特征 | 存在性 |
|---|---|---|
| 纯策略纳什均衡 | 所有玩家使用纯策略 | 不一定存在(如石头-剪刀-布) |
| 混合策略纳什均衡 | 至少一个玩家使用混合策略 | 有限博弈必存在 |
| 对称纳什均衡 | 所有玩家使用相同策略 | 不一定存在 |
| 多重纳什均衡 | 博弈有多个纳什均衡 | 常见于协调博弈 |
性别之战的多重均衡
足球 芭蕾 足球 (2, 1) (0, 0) 芭蕾 (0, 0) (1, 2) 该博弈有两个不对称的纯策略纳什均衡:(足球, 足球) 和 (芭蕾, 芭蕾)。此外,还存在一个对称的混合策略纳什均衡:妻子以2/3概率选足球、1/3概率选芭蕾,丈夫以1/3概率选足球、2/3概率选芭蕾。
1.6 经典博弈案例详解
1.6.1 囚徒困境的深层结构
囚徒困境是博弈论中最著名的案例之一,它深刻揭示了个体理性与集体理性之间的张力。
形式化分析: 设 (Temptation)为背叛的诱惑(一方背叛、对方合作时的收益),(Reward)为合作奖励(双方合作时的收益),(Punishment)为惩罚(双方背叛时的收益),(Sucker)为傻瓜收益(一方合作、对方背叛时的收益)。
参数满足:,且 (合作比平均背叛更好)。
囚徒困境的支付结构:
- 坦白是严格占优策略
- (坦白, 坦白) 是唯一的纳什均衡
- 但 ,集体最优是合作
无限重复与终止剂触发: 如果囚徒困境被重复无限次(或者有限但足够长),合作可以通过触发策略(trigger strategy)维持:
- 首先选择合作
- 一旦对方背叛,此后永远背叛
在无限重复博弈中,如果贴现因子足够高(双方都充分重视未来),冷酷策略(Grim Trigger)可以维持合作。这引出了时间偏好与长期关系对合作的影响。
囚徒困境的现实映照
囚徒困境的逻辑广泛应用于解释:
- 军备竞赛:两国都倾向于扩军(占优策略),但双方裁军才是集体最优
- 公共品悲剧:个人搭便车导致公共资源过度使用
- 环境问题:各国排放污染以追求短期利益,忽视长期环境代价
- 商业价格战:企业降价竞争,最终可能两败俱伤
1.6.2 智猪博弈(Boxed Pigs)
智猪博弈是囚徒困境的变体,展示了大企业与小企业、领导者与追随者之间的博弈结构。
博弈设定:
- 大猪和小猪同处一个猪圈,一端有食槽,另一端有踏板
- 踩踏板需要付出成本,但会让食物落入食槽
- 踩踏板的收益分配取决于谁去吃
支付矩阵(假设踩踏板成本为2,食物价值为10):
| 大猪踩 | 大猪等待 | |
|---|---|---|
| 小猪踩 | (6, 4) | (-1, 9) |
| 小猪等待 | (5, 1) | (0, 0) |
分析:
- 小猪的严格占优策略是等待
- 大猪的唯一理性选择是踩踏板
- 均衡结果:(大猪踩, 小猪等待) = (5, 9)
经济学启示:
- 智猪博弈解释了为何小企业倾向于”搭便车”
- 技术研发、基础设施建设等领域存在类似的大猪-小猪结构
- 领导者往往承担更多成本但获得更多收益
1.6.3 猎鹿博弈(Stag Hunt)
猎鹿博弈探讨了风险偏好与协调的问题,与囚徒困境有微妙区别。
设定:
- 两人合作可以猎获一只鹿(各得4)
- 单人可猎获一只野兔(各得2)
- 如果合作失败(对方逃跑)而自己追鹿,则一无所获(0)
支付矩阵:
| 猎鹿 | 猎兔 | |
|---|---|---|
| 猎鹿 | (4, 4) | (0, 2) |
| 猎兔 | (2, 0) | (2, 2) |
分析:
- 猎鹿是风险占优(risk-dominant)但非占优的策略
- 两个纯策略纳什均衡:(猎鹿, 猎鹿) 和 (猎兔, 猎兔)
- (猎鹿, 猎鹿) 的社会福利更高,是帕累托最优的均衡
- (猎兔, 猎兔) 是风险占优的均衡——当担心对方不合作时,猎兔更安全
与囚徒困境的关键区别:
- 囚徒困境中 (坦白, 坦白) 不是帕累托最优
- 猎鹿博弈中两个均衡都是帕累托排序的
- 这意味着猎鹿博弈不存在”社会困境”——问题是选择哪个均衡,而非集体失败
猎鹿博弈的现实意义
猎鹿博弈描述了人类社会中常见的协调问题:
- 技术标准竞争:多人合作采用同一标准可获得网络效应,但采用非主流标准可以规避风险
- 社会规范形成:采用合作规范可以获得群体收益,但偏离规范有时更安全
- 职业选择:追求高风险高回报 vs 稳定但平庸的工作
1.6.4 斗鸡博弈(Hawk-Dove / Chicken)
斗鸡博弈展示了承诺价值与不对称均衡。
支付矩阵:
| 前进 | 让步 | |
|---|---|---|
| 前进 | (-10, -10) | (1, -1) |
| 让步 | (-1, 1) | (-5, -5) |
分析:
- 不存在纯策略占优策略
- 两个不对称纯策略纳什均衡:(前进, 让步) 和 (让步, 前进)
- 存在对称混合策略纳什均衡
计算混合均衡: 设行玩家以概率 选择前进、 选择让步,列玩家以概率 选择前进。
行玩家选择前进的期望效用:
行玩家选择让步的期望效用:
令两者相等:,解得 。
对称均衡为 。
斗鸡博弈的应用
- 古巴导弹危机:美苏双方都威胁前进,但最终一方让步
- 商业竞争:价格战、渠道战中的对峙
- 交通博弈:两车相向而行,都不谦让可能导致事故
1.6.5 胆小鬼博弈(Game of Chicken)
胆小鬼博弈与斗鸡博弈本质相同,但心理学角度的解读略有差异:
- 荣誉驱动:前进被视为勇敢,让步被视为懦弱
- 非物质收益:效用中包含声誉、尊严等非物质因素
- 社会压力:旁观者期望增加了一方的退出成本
这类博弈揭示了博弈论分析中效用函数设定的重要性。相同的数学结构可以对应不同的现实情境,而对效用的不同假设可能导致不同的预测。
1.7 零和博弈与极小极大定理
1.7.1 零和博弈的定义
零和博弈(Zero-Sum Game)是一类特殊的博弈,满足:
即一方所得恰好是另一方所失。零和博弈体现了完全冲突的情境——不存在合作的可能。
许多经典博弈(象棋、围棋、扑克)都可以建模为零和博弈。
1.7.2 极小极大定理
冯·诺依曼于1928年证明的极小极大定理是博弈论的奠基性结果之一。
定理(极小极大定理):对于任意双人零和有限博弈,存在值 和混合策略 使得:
即:
- 行玩家选择策略最大化其最小收益(最大化最小值)
- 列玩家选择策略最小化行玩家的最大收益(最小化最大值)
- 在混合策略下,两者相等
极小极大策略的直观解释:
- 行玩家希望最大化自己的收益,但列玩家会对抗
- 最优策略是最大化最坏情况下的收益
- 这是一种保守但理性的策略
石头-剪刀-布的极小极大
均衡策略:每个玩家以等概率选择三种手势
无论对方如何选择,期望收益始终为
验证:
- 若对方固定选择石头,我方等概率选择时期望为0
- 若对方也混合,期望仍为0
- 这是”安全”的策略——即使对方故意针对,也无法使我的期望收益为负
Matching Pennies
Head Tail Head (1, -1) (-1, 1) Tail (-1, 1) (1, -1) 行玩家希望匹配,列玩家希望不匹配。
- 行玩家的极小极大值:
- 均衡是双方都以0.5概率选择任一面
- 均衡期望值为0
1.7.3 极小极大与纳什均衡的关系
对于零和博弈,纳什均衡具有特殊性质:
- 零和博弈的纳什均衡等价于极小极大策略
- 均衡值是唯一的(虽然策略可能不唯一)
- 任何纳什均衡产生的效用相同
对于一般非零和博弈,极小极大概念不直接适用,因为玩家的目标不同。
二、扩展形式博弈
2.1 博弈树与信息结构
2.1.1 扩展形式博弈的基本要素
扩展形式博弈(Extensive Form Game)用博弈树描述序贯决策,相比标准形式博弈,能够更精细地刻画:
- 时间顺序:谁在何时行动
- 信息结构:玩家在决策时知道什么
- 行动后果:每个行动组合导致的结果
扩展形式博弈的组成要素:
- 节点集合 :包括决策节点和终点节点
- 边/行动:从决策节点出发的分支
- 玩家指派:每个决策节点分配给某个玩家
- 信息分区:将节点划分为信息集
- 效用函数:定义在终点节点上
- 概率分布(若有自然行动):定义外生不确定性的概率
2.1.2 博弈树的表示
博弈树是一种有向树结构:
- 根节点:博弈的起始点
- 内部节点:决策节点,由某玩家控制
- 叶节点:终点节点,附有收益向量
设 为扩展形式博弈, 表示非终止节点集合, 表示终止节点集合。
从根节点到叶节点的路径表示一个完整的博弈历史(history)。
简单序贯博弈:进入阻绝博弈
企业A考虑是否进入市场,B是市场在位者。A进入后,B可以选择:
- 斗争(导致双方损失)
- 默许(接受新进入者)
博弈树:
A进入/不进入 / \ B斗争 B默许 (A不进入则B不需行动) / \ | A败 A胜 终止假设收益:
- A不进入:(0, 10)
- A进入,B斗争:(−2, 2)
- A进入,B默许:(5, 5)
2.1.3 信息集
信息集(Information Set)是同一玩家在博弈中无法区分的节点集合。
形式上,信息集是节点集合 。玩家知道自己在信息集内,但不知道具体是哪个节点。
完美信息博弈:每个信息集都是单点集,即每个决策节点都是独享的。玩家在行动时完全知道自己处于博弈的哪个阶段。
不完美信息博弈:存在非单点的信息集。玩家在决策时不知道某些先前发生的事件(如对手的私人信息)。
不完美信息:同时行动博弈
两个玩家同时选择行动,可建模为扩展形式博弈:
(根节点) / \ 玩家1 玩家2行动 行动 | 信息集(玩家2不知道玩家1的选择)玩家2的两个节点处于同一信息集,表示他不知道玩家1的具体选择。
2.1.4 完美回忆与记忆假设
完美回忆(Perfect Recall)要求:每个玩家记得自己过去的所有行动。
完美回忆博弈满足:
- 同一玩家的不同信息集不相交
- 玩家在信息集中的所有路径共享相同的行动历史
大多数博弈论分析假设完美回忆,即玩家不会”忘记”自己过去的选择。
非完美回忆的特殊性
在非完美回忆博弈中,策略概念需要修正——玩家的策略应定义在信息集上,而非节点上。如果玩家”忘记”了过去的选择,博弈分析会变得复杂,因为需要考虑策略的内部一致性。
2.2 子博弈与逆向归纳
2.2.1 子博弈的定义
子博弈(Subgame)是从某个非终止节点开始、包含该节点所有后继的博弈。
形式上,子博弈 由以下要素组成:
- 节点集合:以 为根的子树
- 信息结构:继承原博弈
- 效用函数:继承原博弈
子博弈对应于博弈树中的某个”子节点”及其以下部分。
2.2.2 子博弈完美均衡
子博弈完美均衡(Subgame Perfect Equilibrium, SPE):
- 是原博弈的纳什均衡
- 在每个子博弈上产生的行动都是纳什均衡
SPE的核心要求是策略必须是可信的——排除”不可信威胁”和”空头承诺”。
进入阻绝博弈的SPE
收益:
- A不进入:(0, 10)
- A进入,B斗争:(−2, 2)
- A进入,B默许:(5, 5)
逆向归纳分析:
- 在A进入的子博弈中,B选择:
- 斗争:收益2
- 默许:收益5
- 因此B会选择默许
- 回到根节点,A的预期:
- 不进入:收益0
- 进入:收益5(因为B会默许)
- 因此A会选择进入
SPE:(进入, 默许),路径收益 (5, 5)
注意:如果B威胁斗争,A进入会导致 (−2, 2),但这是不可信威胁——因为进入发生后,B的理性选择是默许。SPE剔除了这种威胁。
2.2.3 逆向归纳法的局限性
逆向归纳法是一个强有力的求解工具,但它有重要局限:
- 剃刀原理的假设:假设玩家是完美理性的,且这种理性是公共知识
- 微小扰动的脆弱性:剃须刀完美的逆向归纳均衡可能对小扰动不稳健
- 历史无关的路径依赖:某些均衡可能依赖于博弈开始时的不相关历史
- 计算复杂度:对于大规模博弈,逆向归纳可能不可计算
蜈蚣博弈悖论
蜈蚣博弈(Centipede Game):
- 两名玩家交替决定是否终止博弈
- 若在第 轮终止,支付为 ;若继续,移到下轮
- 假设博弈持续100轮
逆向归纳预测:玩家1应在第1轮就终止博弈(因为第2轮玩家2会终止……)
但这与直觉相悖——如果两人都”理性地”选择继续,最后的合作结果可能更好。蜈蚣博弈悖论揭示了逆向归纳的某些反直觉预测。
2.3 承诺与可信威胁
2.3.1 承诺的价值
在序贯博弈中,承诺(Commitment)可以改变博弈结果。承诺是指玩家以某种方式限制自己的未来选择,从而改变对手的预期。
可信承诺的特征:
- 可执行性:承诺必须是可置信的——对手相信承诺会被遵守
- 战略效应:承诺通过改变对手的策略选择来影响均衡
Stackelberg领导者的承诺优势
在Stackelberg竞争中:
- 领导者先选择产量
- 追随者观测到 后选择
- 市场价格 ,成本为零
逆向归纳求解:
追随者利润:
FOC:
最优反应:
领导者预测追随者反应,选择 最大化
FOC:,解得
追随者反应:
比较Cournot均衡(同时选择):
- 领导者的Stackelberg利润更高
领导者的先动优势来自承诺——他首先行动,追随者必须在其产量给定的情况下反应。
2.3.2 边缘政策与威胁
边缘政策(Brinkmanship)是指玩家将博弈推向危险边缘,以迫使对手让步。
在古巴导弹危机中,肯尼迪和赫鲁晓夫都采用了边缘政策策略——将事件推向战争边缘,以迫使对方妥协。
边缘政策的博弈论分析:
- 威胁必须可信——如果对手认为你不会真的走到那一步,威胁无效
- 可信威胁需要成本——威胁方必须承担走到边缘的风险
- 均衡通常是某种形式的让步或妥协
2.3.3 声誉与重复博弈中的合作
声誉效应(Reputation Effects)在重复博弈中起着重要作用。
考虑囚徒困境的无限重复版本:
- 每期的贴现因子为
- 玩家的目标是最大化贴现效用和
冷酷策略(Grim Trigger):首先合作,一旦对方背叛则永远背叛。
合作条件:如果双方都采用冷酷策略,合作是子博弈完美的,当且仅当:
即合作的总贴现收益不少于背叛的收益。
整理得:
当贴现因子足够大(玩家充分耐心)时,合作可以在SPE中维持。
2.4 扩展形式博弈的策略表示
2.4.1 行为策略与混合策略
在扩展形式博弈中,策略有两种表示方式:
行为策略(Behavioral Strategy):每个信息集上指定各行动的概率分布。
设 为玩家 在信息集 上的行动概率分布。行为策略独立指定各信息集上的行动概率。
混合策略:以概率分布随机选择完整的策略计划(整个策略树)。
完美回忆下的等价性(Kuhn定理): 在完美回忆博弈中,混合策略与行为策略是等价的——每个混合策略都可以用一个行为策略表示,反之亦然。
2.4.2 策略的简化与信息集
在扩展形式博弈中,策略只需在每个信息集上指定行动——因为玩家根据信息集知道自己的决策点,但不知道具体的历史路径。
两阶段博弈的策略简化
博弈结构:
- 第一阶段:玩家1行动( 或 )
- 第二阶段:玩家2在观察到玩家1行动后行动( 或 )
玩家2的策略必须指定在每个观察结果下的行动:
- 策略1:若玩家1选 则选 ,若选 则选 (即总是 )
- 策略2:若玩家1选 则选 ,若选 则选
- 策略3:若玩家1选 则选 ,若选 则选
- 策略4:若选 则选 ,若选 则选 (即总是 )
因此,玩家2有 个纯策略(每个信息集2个行动,共2个信息集)。
2.5 重复博弈
2.5.1 有限重复博弈
有限重复博弈(Finite Repeated Game)将基础博弈(称为”阶段博弈”)重复有限次。
设阶段博弈 被重复 次,且所有参与者观测到之前所有阶段的结果。
关键结果:如果阶段博弈有唯一的纳什均衡,那么在有限重复博弈中,唯一的子博弈完美均衡是在每一期都重复该纳什均衡。
逆推论证:从最后一期开始,逆向归纳显示最后期的结果必须是阶段博弈的纳什均衡;然后前一期同理可得。如此递归,整个博弈路径是阶段博弈纳什均衡的重复。
囚徒困境的有限重复
如果囚徒困境被重复两次,唯一的SPE是:
- 两期都选择坦白
即使存在合作的历史(第一期双方抵赖),第二期的理性选择仍是坦白——因为这是阶段博弈的纳什均衡。
2.5.2 无限重复博弈
无限重复博弈将阶段博弈重复无限期。
玩家的目标函数是平均收益或贴现收益和:
平均收益准则:
贴现准则:,其中 是贴现因子
2.5.3 folk定理
无名氏定理(Folk Theorem)描述了无限重复博弈中SPE可实现的结果范围。
无名氏定理(平均收益版本): 设 是阶段博弈, 是单期博弈中每个玩家可保证的最小收益(安全水平), 是帕累托最优收益向量。
如果 足够接近1(玩家足够耐心),那么对于任意满足 且 的收益向量 ,存在一个贴现因子 使得对所有 ,存在SPE实现收益 。
无名氏定理(贴现版本): 设 ,存在 使得当 时,任意”接近”帕累托最优的收益向量都可以作为SPE实现。
Folk定理的含义
Folk定理表明,无限重复博弈的SPE结果空间非常大——几乎任何理性可行的结果都可以被支持。这反映了一个深刻洞见:长期关系中的耐心可以支持各种合作安排。但Folk定理没有说明哪个均衡会实际实现——需要额外的均衡选择理论。
2.6 讨价还价理论
2.6.1 纳什讨价还价解
纳什讨价还价解(Nash Bargaining Solution)是两人讨价还价问题的公理化解。
问题设定:
- 两个参与者就如何分割蛋糕进行谈判
- 蛋糕大小标准化为1
- 谈判破裂时,双方获得保留效用(威胁点)
- 可行集 是所有可能的收益分配集合
公理化方法:纳什提出了一组公理,满足这些公理的唯一解是:
即在威胁点约束下,最大化双方收益与威胁点之差的乘积。
纳什公理:
- 效率性:解是帕累托最优的
- 对称性:如果可行集对称且威胁点对称,则解也对称
- 线性不变性:对收益的线性变换不影响解
- 无关替代方案的独立性:如果某个可行分配从可行集中移除但最优解不变,解不变
纳什讨价还价解的计算
设威胁点 ,可行集为 (线性效用)
最大化目标:
约束:(帕累托边界)
拉格朗日:
FOC:
解得:
纳什解是公平分配。
2.6.2 轮流出价的讨价还价模型
Rubinstein轮流出价模型(1982)提供了序贯谈判的微观基础。
设定:
- 两个玩家轮流就分割蛋糕进行提议
- 玩家1先提议
- 玩家2可以接受、拒绝或提出反提议
- 拒绝后谈判进入下一期,贴现因子为
均衡结果:
- 玩家1在第一期提出分割:
- 玩家2接受
直观解释:
- 玩家2知道如果拒绝,博弈会进入下一期
- 下一期的结果与本期类似(只是贴现)
- 因此玩家2的议价能力取决于其耐心程度
三、Nash均衡存在性证明
3.1 纳什均衡的正式定义
纳什均衡(Nash Equilibrium)是策略组合 ,满足对每个玩家 :
即,在给定他人策略的情况下,没有玩家能通过单方面改变策略来提高自己的收益。
混合策略纳什均衡:上述定义允许 和 为混合策略。此时:
3.2 纳什定理
纳什定理(Nash, 1950):每一个有限博弈(有限玩家、有限行动)至少存在一个纳什均衡(可能包含混合策略)。
这是博弈论最重要的存在性结果之一,证明了纳什均衡作为”解概念”的合理性。
3.3 存在性证明:角谷不动点定理
纳什定理的证明依赖于角谷不动点定理(Kakutani’s Fixed Point Theorem),这是Brouwer不动点定理的对应版本。
3.3.1 角谷不动点定理
定理(角谷不动点定理): 设 是非空、紧凸集, 是一个上半连续的多值映射,且对所有 , 是非空凸集。则存在 使得 。
直观理解:
- 连续函数在闭区间上必有不动点(Brouwer定理)
- 角谷定理将函数推广为对应(correspondence)
- 上半连续性保证对应图的某种连续性
- 凸性条件保证不动点的存在
3.3.2 最佳反应对应
最佳反应对应 定义为:
性质:
- 非空性:由于 是紧集且 连续,最大值存在
- 凸性: 关于 是线性的(期望效用),因此最大值集合是凸的
- 上半连续性:最佳反应对应是上半连续的
3.3.3 纳什对应的构造
纳什对应 定义为:
即所有玩家最佳反应集合的笛卡尔积。
验证角谷定理条件:
-
定义域是紧凸集:
- 是紧凸集(有限个概率单纯形的乘积)
-
非空凸值:
- 非空:最大值存在
- 凸性:若 ,则对任意 , 的效用不低于两者,因此也在最佳反应集合中
-
上半连续性:
- 最佳反应对应在 变化时连续
3.3.4 证明完成
由角谷不动点定理,存在 使得:
这意味着对每个 ,,即:
这正是纳什均衡的定义。
证明的直观理解
可以将纳什均衡视为策略空间上的”稳定点”:如果其他人都按均衡策略行动,每个人都没有动机偏离自己的均衡策略。角谷不动点定理保证了这种稳定点的存在——本质上是因为策略空间的”凸性”和”连续性”。
3.4 纳什均衡的精炼
3.4.1 颤抖手完美均衡
纳什均衡的存在性证明是纯数学的,但它没有排除某些”病态”均衡——这些均衡可能依赖于精确的参数巧合,或者对微小的扰动非常脆弱。
颤抖手完美均衡(Trembling Hand Perfect Equilibrium, THPE)要求均衡对”颤抖”稳健。
定义:策略组合 是颤抖手完美的,如果存在一个序列 收敛到 ,其中每个 是某个完全混合策略博弈的纳什均衡。
直观解释:假设每个玩家可能以微小概率犯错(颤抖),THPE要求在这种扰动下仍有均衡策略接近 。
THPE的精炼效果:
- 剔除了依赖精确参数巧合的均衡
- 保留了稳健的、符合直觉的均衡
斗鸡博弈的THPE
斗鸡博弈有两个纯策略纳什均衡:(前进, 让步) 和 (让步, 前进)。
这两个均衡都是颤抖手完美的——它们对微小扰动稳健。
混合策略均衡 可能不是THPE——当引入扰动时,对称混合可能不稳定。
3.4.2 序贯均衡
序贯均衡(Sequential Equilibrium)由Kreps和Wilson(1982)提出,结合了SPE的序贯理性要求和THPE的稳健性。
定义:序贯均衡由 组成,其中:
- 是玩家 的行为策略
- 是玩家 在各信息集上的信念(主观概率)
满足:
- 序贯理性:给定信念 ,策略 在每个信息集上是贝叶斯最优的
- 一致性:信念 是由策略组合产生的,通过贝叶斯法则更新
序贯均衡是比SPE更强的均衡概念——它同时要求策略和信念系统的一致性。
3.4.3 直觉准则
Kreps等人提出的直觉准则(Intuitive Criterion)进一步精炼了 Signaling Games 中的均衡。
直觉准则的思想是:如果某策略只在某些”不理性”的威胁下才能被排除,那么它应该被保留。
形式化表达较复杂,但其核心洞见是:在剔除弱占优策略时,如果对手能确信某类玩家不会采用某种策略,那么这种判断会影响均衡选择。
3.5 混合策略均衡的计算方法
3.5.1 最佳反应对应法
对于双人博弈,最佳反应对应可以图形化分析。
设 为给定列玩家选择列2的概率时,行玩家的最佳反应(行1的概率),类似定义 。
纳什均衡对应两条最佳反应曲线的交点。
性别之战最佳反应曲线
收益矩阵: | | 足球 | 芭蕾 | |---|---| | 足球 | (2, 1) | (0, 0) | | 芭蕾 | (0, 0) | (1, 2) |
设 为行玩家选择足球的概率, 为列玩家选择足球的概率。
行玩家的期望效用:
- 选择足球:
- 选择芭蕾:
最佳反应:
- 若 ,即 ,则 (选足球)
- 若 ,即 ,则 (选芭蕾)
- 若 ,两种选择无差异, 上的任何 都是最佳反应
类似地,列玩家的最佳反应:
- 若 ,则 (选芭蕾)
- 若 ,则 (选足球)
- 若 , 上的任何 都是最佳反应
均衡交点:、,以及一段最佳反应曲线的交叠。
3.5.2 代数求解法
对于具体的博弈,混合均衡可以通过方程组求解。
混合均衡的求解步骤:
- 确定候选支集:通常假设对称博弈中双方使用相同策略
- 写出期望效用方程:在支集上,各纯策略的期望效用必须相等(无差异条件)
- 求解概率:从无差异条件解出各策略的概率
- 验证最佳反应:确认求解的概率确实构成最佳反应
石头-剪刀-布的均衡
设 为行玩家选择石头、布、剪刀的概率。
无差异条件(各策略期望效用相等):
计算期望效用(行玩家收益为1表示赢,-1表示输):
在对称均衡 下:
对称性要求
验证:期望效用 ,无差异条件满足。
3.6 纳什均衡的存在性扩展
3.6.1 无限策略空间的存在性
纳什定理的证明依赖于策略空间的紧性和效用函数的连续性。对于无限策略空间,需要额外条件。
定理(无限博弈的纳什存在性): 设博弈满足:
- 每个玩家的策略空间 是欧几里得空间的紧凸子集
- 效用函数 是连续的
- 对每个 , 是拟凹的(效用函数关于自己的策略是凹的)
则存在纳什均衡。
拟凹性的作用:拟凹性保证最佳反应集合是凸的,使得角谷定理的条件得以满足。
3.6.2 一般化与局限
纳什均衡的存在性不需要所有条件都满足。在某些情况下:
- 即使策略空间非凸,如果效用函数满足某些条件,仍可能存在均衡
- 在连续统玩家博弈中,纳什均衡的存在性可能需要更复杂的条件
例外的存在性困境: 存在没有纳什均衡的博弈(非有限、策略空间非凸等)。这类博弈需要引入更复杂的均衡概念或放宽理性假设。
四、演化博弈论
4.1 演化博弈的基本框架
4.1.1 从理性均衡到演化稳定
演化博弈论(Evolutionary Game Theory)起源于生物学家对动物行为和种群动态的研究。与标准博弈论不同,演化博弈论不假设完美的理性计算,而是通过自然选择和策略复制来解释策略的演化。
核心思想:
- 策略的成功程度由其适应度(fitness)衡量
- 适应度高的策略在种群中增长更快
- 通过”复制”过程,高适应度策略逐渐取代低适应度策略
演化博弈论提供了另一种理解均衡的方式:不依赖完美理性假设,而是通过动态过程达到稳定状态。
4.1.2 演化稳定策略
演化稳定策略(Evolutionarily Stable Strategy, ESS)是演化博弈论的核心概念,由Maynard Smith和Price于1973年引入。
ESS定义:策略 是演化稳定的,如果对每个替代策略 ,存在阈值 使得:
其中 表示策略 对策略组合 的适应度。
直觉解释: 如果整个种群都采用ESS ,那么当一小群突变者采用策略 入侵时,在自然选择下这些突变者无法获得更高适应度,最终将被淘汰。
鸽-鹰博弈的ESS
鸽 鹰 鸽 鹰 其中 是资源的价值, 是争斗的成本。
当 时(争斗成本超过资源价值),存在混合ESS:种群中鸽子的比例为 ,鹰的比例为 。
当 时(资源价值高),鹰是严格ESS——种群将演化到全部鹰。
4.1.3 ESS与纳什均衡的关系
ESS与纳什均衡有密切联系:
- ESS是纳什均衡:如果 是ESS,则 是纳什均衡
- 纳什均衡不一定是ESS:某些纳什均衡不能抵御小比例突变者的入侵
纳什均衡不等于ESS
在协调博弈中,两个纯策略纳什均衡都是ESS,但混合策略均衡可能不是ESS——因为在混合均衡下,小比例的突变可能导致一方类型的固定。
4.2 复制者动态
4.2.1 复制者动态方程
复制者动态(Replicator Dynamics)描述了策略频率的时间演化,其基本思想是:表现优于平均的策略比例增加,表现劣于平均的策略比例减少。
复制者动态方程:
其中:
- 是采用策略 的种群比例,满足
- 是策略 的适应度(等于其期望效用)
- 是平均适应度
动态特性:
- 当 时,(策略 增加)
- 当 时,(策略 减少)
- 当 时,(策略 稳定)
猎鹿博弈的复制者动态
猎鹿博弈:
猎鹿 猎兔 猎鹿 (4, 4) (0, 2) 猎兔 (2, 0) (2, 2) 设 为采用猎鹿策略的比例, 为采用猎兔的比例。
猎鹿者的适应度: 猎兔者的适应度: 平均适应度:
猎鹿者的动态:
固定点分析:
- (全猎兔)
- (全猎鹿)
- 满足 ,解得
稳定性分析:
- :不稳定(如果有一个小比例的猎鹿者,其适应度 ,将被淘汰)
- :不稳定(猎鹿者入侵后,适应度 )
- :不稳定(接近此点时,偏离会导致向某一方演化)
结果:动态将收敛到 (全猎兔)——这是风险占优均衡。
4.2.2 复制者动态的性质
复制者动态具有以下重要性质:
- 保持单纯性:如果初始状态是纯策略,则动态保持在边界上
- 不变性:概率单纯形不变
- 选择压力:动态收敛速度取决于适应度差异
- 与ESS的关系:ESS是复制者动态的稳定不动点,但逆命题不成立
Lyapunov稳定性:如果一个策略组合是ESS,那么它不仅是纳什均衡,而且是复制者动态的渐近稳定点。
4.2.3 ESS与复制者动态的关系
定理:设 是演化稳定策略,则 是复制者动态的稳定不动点。
逆定理不成立:存在复制者动态的稳定不动点不是ESS。例如,某些不稳定均衡在复制者动态下可能是稳定的(虽然在ESS定义下不稳定)。
两种稳定性的区别
ESS强调对突变的抵抗——如果整个种群是 ,小比例的突变者无法入侵。
复制者动态的稳定性强调对微小扰动的恢复——如果种群状态被轻微扰动,动态会回归。
在某些博弈中,这两种稳定性不等价。
4.3 博弈动态的其他模型
4.3.1 最佳反应动态
最佳反应动态(Best Response Dynamics)假设每期有一个随机选择的玩家调整到最优反应策略。
过程:
- 随机选择玩家
- 玩家 选择
- 其他人策略不变
收敛性:最佳反应动态不一定收敛——可能产生周期或混沌。
石头-剪刀-布的最佳反应动态
考虑石头-剪刀-布,假设某期状态为 。
选择剪刀玩家作为调整者:
- 对手选择石头的概率为1/2
- 剪刀在对手选择石头时获得最高收益
- 玩家将调整到剪刀
这可能导致循环动态。
4.3.2 虚幻学习
虚幻学习(Fictitious Play)是一种基于历史学习的动态模型:
- 假设每个玩家相信对手的策略是历史平均频率
- 玩家选择最佳反应
- 更新历史平均
虚幻学习的收敛性:
- 某些博弈中虚幻学习收敛到纳什均衡
- 但也存在收敛失败的例子
性别之战中的虚幻学习
设初始信念为 (列玩家选足球和芭蕾的概率相等)。
行玩家选择足球(因为 )
第一期后,行玩家选足球,列玩家观测并更新信念。
如果列玩家恰好选了足球,两人协调成功,信念向足球移动。
虚幻学习可能收敛到协调均衡,但也可能停留在混合状态。
4.3.3 复制者方程的几何解释
复制者动态可以在单纯形上可视化:
- 单纯形的角点代表纯策略状态
- 动态向量场在单纯形内部产生流动
- 稳定不动点对应吸引子
这种几何视角帮助理解:
- 吸引域的大小(初始状态在何区域会收敛到某均衡)
- 动态路径的性质(单调、振荡、螺旋等)
- 多重均衡下的选择机制
4.4 演化博弈的应用
4.4.1 生物进化中的应用
演化博弈论在生物学中有广泛应用:
- 动物争斗行为:解释为何某些物种采用”仪式化”争斗而非全力以赴
- 利他行为的演化:为何自然选择会保留利他基因?(亲缘选择、互惠利他)
- 性比率理论:解释为何大多数物种的性别比接近1:1
- 合作演化:为何在自私的基因竞争中,合作能够出现并维持?
互惠利他主义
互惠利他(Reciprocal Altruism)在重复博弈框架下可以解释:
- 多次相遇的个体之间可以建立合作关系
- “一报还一报”(Tit-for-Tat)策略在重复囚徒困境中具有演化优势
- 这解释了无亲缘关系个体之间合作的出现
4.4.2 社会学习与文化演化
演化博弈论的思想可以类比到人类社会:
- 社会规范演化:社会规范通过模仿和学习在人群中传播
- 语言演化:语言使用习惯的演化符合复制者动态
- 技术采用:新技术通过社会网络传播,类似策略的复制过程
- 市场均衡:市场价格动态可以类比为策略动态
人工社会的实验经济学
在实验经济学中,研究者经常观察参与者在重复博弈中如何学习。
这些实验揭示了真实人类行为与理论预测之间的差距,为改进博弈论模型提供了经验基础。
五、合作博弈论与Shapley值
5.1 合作博弈的形式
5.1.1 联盟博弈的定义
合作博弈论(Cooperative Game Theory)研究玩家如何形成联盟、分享合作收益的问题。
联盟博弈(Coalitional Game)由 定义:
- 是玩家集合
- 是联盟值函数(Characteristic Function),满足
联盟的价值: 表示联盟 可以获得的收益(或创造的额外价值)。这个值可以是:
- 联盟成员共同获得的净产出
- 联盟通过协调能够实现的收益
- 联盟的谈判能力指标
三人合作灌溉
三位农夫可以独立或合作灌溉:
- 单独耕作:各得1单位
- 任意两人合作:总产出5单位
- 三人合作:总产出10单位
联盟值函数:
- (单人产出)
- (双人合作产出)
- (三人合作产出)
如何公平分配这10单位?
5.1.2 联盟博弈的类型
超可加博弈(Superadditive Game):对任意不交联盟 :
这意味着大联盟总是至少和分拆联盟的收益一样好。大多数有正外部性的博弈是超可加的。
凸博弈(Convex Game):对任意 :
凸博弈的特点是边际贡献递减——加入大联盟的边际贡献小于加入小联盟。凸博弈的核非空,且Shapley值在核中。
5.1.3 分配方案与解概念
合作博弈论的核心问题是:如何公平分配联盟的总收益 ?
分配(Imputation):向量 满足:
- 效率性:
- 个体理性:对每个 ,
解概念(Solution Concept):将联盟博弈映射到分配方案的函数。
主要的解概念包括:
- 核(Core):所有不被任何联盟压制的分配
- Shapley值:基于边际贡献期望的公平分配
- 核仁(Nucleolus):最小化最大联盟”抱怨”的分配
5.2 核
5.2.1 核的定义
核(Core)是一组不会被任何联盟压制的分配。
定义:分配 在核中,当且仅当不存在 使得:
直观理解:如果存在联盟 使得其成员通过偏离获得更高收益,他们有激励组成联盟。因此,不稳定的分配不在核中。
三人穿衣博弈的核
三人合作穿衣:每人单独穿衣得1,三人合作(互相帮助)得5。
联盟值:
- (三人穿衣的产出仍是5)
效率性要求: 个体理性:
核的条件:对任意 :
- :
因此核是:
这等价于每个 ,且任意两者之和 。
5.2.2 核的存在性
核不一定存在!这与纳什均衡不同——存在没有核的合作博弈。
衬衫-裤子博弈(没有核)
三个玩家:
- 玩家1有衬衫(单独价值0,与他人合作各加1)
- 玩家2有裤子(单独价值0,与他人合作各加1)
- 玩家3什么都不有
联盟值:
核的条件:
但 意味着 … 实际上无解。
核为空!
5.2.3 核与纳什均衡的联系
核与纳什均衡有深刻联系:
- 在两人博弈中,核和纳什均衡等价
- 在n人合作博弈中,核是”团体理性”的纳什均衡
社会计划者的视角:核要求联盟稳定性(团体理性),而纳什均衡要求个体稳定性。两者结合产生更强的不稳定约束。
5.3 Shapley值
5.3.1 Shapley值的定义
Shapley值 是玩家 在联盟博弈 中的”公平”收益分配:
其中:
- 是联盟 中玩家的排列数
- 是 之后玩家的排列数
- 是所有可能的排列数
- 是玩家 加入联盟 时的边际贡献
直观解释:Shapley值是玩家加入联盟时边际贡献的期望值,按所有可能的联盟形成顺序平均。
Shapley值的计算
三人穿衣博弈:
玩家1的Shapley值:
联盟顺序 S 边际贡献 1,2,3 {2} 1 5 4 1,3,2 {3} 1 5 4 2,1,3 {2} 1 5 4 2,3,1 {2,3} 5 5 0 3,1,2 {3} 1 5 4 3,2,1 {2,3} 5 5 0 玩家1出现在位置2(排在一位玩家之后)的概率是 ,出现在位置3(排在两位玩家之后)的概率是 。
类似地,
验证:!
… 等等,这里有误。让我们重新计算。
重新分析穿衣博弈:
- (三人穿衣总产出)
- 但 Shapley 值是分配总价值,不是总产出减去成本
如果三人穿衣的净价值是5,那么 Shapley 值应该满足
设单人穿衣产出为1(但没有合作),双人穿衣产出为5,三人穿衣产出为5
此时 Shapley 值可能需要重新设定
5.3.2 Shapley值的公理化特征
Shapley值是满足以下公理的唯一分配方案:
公理1:效率性(Efficiency)
总分配等于联盟的总价值。
公理2:对称性(Symmetry) 若玩家 和 对所有联盟 有相同边际贡献,即 对所有 ,则 。
等价贡献的参与者应获得等价分配。
公理3:虚拟玩家公理(Dummy Player Axiom) 若 对所有包含 的 成立(即 不增加任何联盟的价值),则 。
没有贡献的玩家不应获得分配。
公理4:可加性(Additivity) 对任意两个博弈 和 ,。
可加性意味着如果两个”同时进行”的博弈有联合收益,分配是可叠加的。
Shapley (1953) 证明了满足上述四条公理的分配方案唯一,即 Shapley 值。
5.3.3 Shapley值的性质
对称性:Shapley 值对对称玩家无差异 边际性:Shapley 值反映玩家的平均边际贡献 线性性:Shapley 映射是线性的
Shapley 值的计算简化
对于对称玩家(边际贡献函数对称),Shapley 值的计算可以简化。
若所有玩家对称,则 。
例如,在穿衣博弈中若三人产出相同,则每人得 。
5.4 核仁与夏普利值的比较
5.4.1 核仁
核仁(Nucleolus)是另一种解概念,通过最小化联盟的”最大抱怨”来选择分配。
设 为分配,定义联盟 的”过度”(excess):
过度为负表示联盟感觉分配不公(得到少于应得),为正表示联盟得到超过其价值(可能不可行)。
核仁定义为最小化最大过度的分配:
性质:
- 核仁存在且唯一
- 若核非空,核仁在核中
- 核仁满足对称性、个体理性等性质
5.4.2 Shapley值 vs 核仁
| 特征 | Shapley值 | 核仁 |
|---|---|---|
| 唯一性 | 始终唯一 | 始终唯一 |
| 存在性 | 始终存在 | 始终存在 |
| 公理化 | 边际贡献公平 | 最小化联盟抱怨 |
| 计算复杂度 | 多项式时间 | 可能指数时间 |
| 稳定性 | 不一定在核中 | 若核非空则在其中 |
穿衣博弈的两种解
穿衣博弈:
Shapley 值:每人
核:满足
核仁:对称性要求
两种解概念产生相同的对称分配。
六、机制设计
6.1 机制设计的基本框架
6.1.1 什么是机制设计
机制设计(Mechanism Design)是博弈论的”逆向工程”:不是分析给定规则下的博弈结果,而是从期望的结果出发,反向设计规则(机制),使理性个体在追求私利时自然实现设计者目标。
核心问题:
- 如何设计规则使”个体理性”与”社会最优”一致?
- 在信息不对称下如何设计激励?
- 什么样的结果可以”可执行”?
机制设计广泛应用于:
- 拍卖理论
- 公共品供给
- 政府采购
- 市场设计
- 互联网平台
6.1.2 基本设定
环境(Environment): 表示外生状态,包括:
- 玩家的类型(偏好、技能、私有价值等)
- 可能的状态变量
社会选择函数 将环境映射到社会结果(物品分配、资源配置等)。
机制(Mechanism):由行动空间 和结果函数 组成。
机制指定:
- 玩家可以采取什么行动
- 给定行动组合产生什么结果
直接机制要求玩家报告自己的类型(或其他相关信息)。
单物品拍卖
拍卖是一个机制:
- 投标者提交投标
- 拍卖规则决定获胜者和支付
Vickrey拍卖(次价拍卖)的规则:
- 最高投标者获胜
- 支付第二高投标额
6.1.3 激励相容
激励相容(Incentive Compatibility, IC)是机制设计的核心概念。
占优策略激励相容(Dominant Strategy IC):
即,无论其他人如何报告,说实话对每个玩家都是占优策略。
贝叶斯纳什激励相容(Bayesian Nash IC):
在贝叶斯框架下,激励相容要求实话是给定其他人报告的期望效用下的最优反应。
IC的类型选择
占优策略IC是最强的激励相容概念——说真话是无论他人如何都最优的。
贝叶斯纳什IC较弱——说真话是期望意义下的最优,但可能存在某些其他人报告时谎报更优。
占优策略IC具有更强的鲁棒性(不依赖对他人类型的假设),但可能需要更强的信息条件或产生更低的社会福利。
6.1.4 个体理性
个体理性(Individual Rationality, IR)保证玩家愿意参与机制。
参与约束:玩家参与机制的效用不低于不参与(保留效用)的效用。
对于直接机制:
其中 是玩家的保留效用。
强个体理性(Strong IR): 对所有 。
6.2 显示原理与VCG机制
6.2.1 显示原理
显示原理(Revelation Principle)由Myerson(1979)提出,是机制设计的基石。
定理(显示原理): 如果存在任何机制(可能间接)使理性玩家在均衡中报告 ,那么存在一个直接机制使说实话 是占优策略均衡,并产生相同的结果。
含义:
- 我们可以将搜索限制在”说实话是均衡”的直接机制上
- 不失一般性,我们可以假设机制要求玩家报告真实类型
- 这大大简化了机制设计问题
6.2.2 VCG机制
VCG机制(Vickrey-Clarke-Groves Mechanism)是对一般社会选择函数的激励相容机制。
对于资源分配问题,VCG支付为:
其中 是机制选择的结果(最大化报告类型的总价值)。
VCG的性质:
- 强激励相容:说实话是占优策略
- 帕累托有效性:给定报告,结果是有效率的
- 个体理性:支付非负(至少不需付钱)
VCG在单物品拍卖中的应用
单物品拍卖,物品对每个人的价值为 (类型就是价值)。
VCG机制要求:
- 选择获胜者:最大化 ,即分配给最高价值者
- 支付:获胜者 支付第二高价值(因为 )
这正是 Vickrey 拍卖!
6.2.3 VCG机制的直觉
VCG支付的经济解释:
- 支付等于 对他人的”边际贡献”(外部性)
- 获得了多少价值,他人就损失了多少
- 因此支付恰好等于 的”边际价值”
VCG有时被称为”边际贡献定价”。
VCG的局限性
- 计算复杂性:需要求解最优分配问题(可能NP-hard)
- 外部性假设:假设玩家价值仅取决于结果,不考虑策略互动
- 单峰值假设:通常假设价值函数满足某些单调性
- 参与激励:可能需要外部补贴来保证个体理性
6.3 Vickrey拍卖的深入分析
6.3.1 Vickrey拍卖的完整描述
Vickrey拍卖(次价密封投标拍卖)的规则:
- 投标者密封提交投标
- 最高投标者获胜
- 获胜者支付第二高投标额(而非自己的投标额)
激励相容性证明:
设投标者 的真实价值为 ,其他人的最高投标为 。
情况1:
- 说真话:投标 ,赢得物品,支付 ,净效用
- 若谎报 :
- 若 :输掉物品,效用0
- 若 :仍赢得物品,支付不变 ,效用不变
- 结论:说实话严格优于任何其他投标
情况2:
- 无论 多大,只要 就输掉物品
- 效用恒为0
- 结论:说实话不劣于谎报
因此,说实话是占优策略。
Vickrey拍卖的"反直觉"性质
Vickrey证明了”说真话”是占优策略,这与直觉(人们会过度或过低投标)相反。
关键洞见:获胜者支付第二高价格,而非自己的价格,因此:
- 高估自己的投标不会提高支付
- 低估自己的投标可能失去获胜机会
激励结构鼓励投标者报告真实价值。
6.3.2 收入等价定理
收入等价定理(Revenue Equivalence Theorem):在一定条件下,所有满足IC和IR的拍卖机制产生相同的期望收入。
定理假设:
- 投标者风险中性
- 投标者价值独立同分布
- 投标者私下知道自己的价值
- 支付取决于谁的投标最高
结论:若两种机制都满足IC且都让类型最低的投标者期望效用为0,则它们产生相同期望收入。
推论:Vickrey拍卖与其他满足条件的拍卖机制产生相同期望收入。
第一价格拍卖 vs 第二价格拍卖
第一价格拍卖:获胜者支付自己的投标
在第一价格拍卖中:
- 真实价值为 的投标者应投标低于 (以保留信息租金)
- 均衡策略是某种折扣形式
收入等价定理表明,在标准假设下,第一价格拍卖和Vickrey拍卖的期望收入相同。
但在实际中,收入可能因:
- 风险厌恶
- 关联价值(common value)
- 预算约束等因素而不同
6.3.3 公开竞标与密封投标
Vickrey拍卖允许投标者在不知道他人投标的情况下做出决策,这有优势:
- 不需要协调投标时间
- 减少”串通”的可能性
- 投标决策可以同时做出
但也有局限:
- 不能实时调整投标
- 在某些情境下,公开竞标可能产生更好的价格发现
6.4 机制设计的其他应用
6.4.1 匹配市场
稳定匹配(Stable Matching)是机制设计的重要应用。
问题设定:
- 医院与医学生进行双向匹配
- 医院和学生各有偏好
- 目标:找到一个稳定匹配——没有医院-学生对彼此的偏好超过当前匹配
Gale-Shapley算法:
- 医院向最偏好的学生发出邀请
- 被多个医院邀请的学生接受最偏好的,拒绝其他
- 被拒绝的医院向次偏好的学生发出邀请
- 重复直到所有邀请被接受或所有医院已联系所有学生
性质:
- 算法终止于稳定匹配
- 结果对提议方(医院)是最优的
- 是策略proof的——医院不能通过谎报偏好获得更好的结果
住院医匹配
NRMP(美国住院医师匹配计划)使用Gale-Shapley算法的变体。
该机制保证:
- 学生策略性地报告偏好不会更好(学生对机制诚实是占优策略)
- 医院需要策略性地报告偏好以获得最优结果
6.4.2 广告拍卖
现代互联网广告平台使用拍卖机制分配广告位。
广义第二价格拍卖(Generalized Second Price, GSP):
- 广告位按质量得分排序
- 广告主为每次点击投标
- 获胜者支付:使其广告位低于下一个广告位所需的最低投标
VCG在广告拍卖中的应用:
- Google AdWords使用VCG变体
- Facebook广告拍卖考虑广告主价值和用户体验
6.4.3 区块链与代币经济学
去中心化系统中的激励机制设计:
- 比特币的Proof of Work
- 以太坊的Proof of Stake
- DAO治理代币分配
这些系统需要激励相容的机制来保证:
- 矿工/验证者诚实工作
- 网络安全
- 公平的资源分配
6.5 机制设计的前沿议题
6.5.1 信息设计
信息设计(Information Design / Persuasion)研究如何设计信息结构以引导预期结果。
信号博弈:sender选择信号,receiver收到信号后采取行动。
- 贝叶斯说服问题
- 信息设计的”推”vs”拉”
信息设计的重要性
在许多情境中,机制设计者可以控制:
- 参与者获得什么信息
- 信息如何被传递
- 何时披露信息
良好的信息设计可以显著改善社会福利。
6.5.2 鲁棒机制设计
鲁棒机制设计(Robust Mechanism Design)研究在:
- 模型不确定
- 参与者有限理性
- 执行约束等情况下
如何设计稳健的机制。
6.5.3 动态机制设计
动态机制设计研究:
- 多期交互中的激励问题
- 长期合约设计
- 重复拍卖
七、博弈论与人工智能
7.1 多智能体系统
7.1.1 多智能体博弈建模
在人工智能系统中,多智能体环境本质上是博弈。
合作多智能体系统:
- 多个智能体有共同目标
- 需要协调行动
- 问题:如何共享信息、分担任务
竞争多智能体系统:
- 智能体有冲突目标
- 需要策略推理
- 问题:如何预测对手、最大化己方收益
混合多智能体系统:
- 部分合作、部分竞争
- 联盟形成与瓦解
- 谈判与资源分配
7.1.2 MARL中的博弈论方法
多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)面临独特挑战:
- 非平稳性:其他智能体学习时,环境对单个智能体不再是静止的
- 信用分配:难以评估个体对团队成功的贡献
- 博弈结构:需要考虑策略互动
博弈论视角的解决方案:
- 将环境视为重复博弈
- 纳什均衡作为收敛目标
- 合作博弈论用于信用分配
团队博弈中的价值分解
价值分解网络(VDN)将团队价值函数分解为个体价值函数之和:
Shapley值可用于更精细的信用分配。
7.2 博弈论在算法中的应用
7.2.1 生成对抗网络
生成对抗网络(GAN)是博弈论与机器学习结合的经典案例。
GAN博弈结构:
- 生成器 :尝试生成”假”样本欺骗判别器
- 判别器 :尝试区分真实样本和生成样本
- 两人零和博弈
纳什均衡:当 学习到数据分布, 无法区分真假时,达到均衡。
训练挑战:
- 零和博弈可能导致训练不稳定
- 模式崩溃(mode collapse)
- 难以找到纳什均衡
GAN的训练动态
GAN训练可以被视为求解两人零和博弈的纳什均衡。
梯度下降在纳什均衡处可能不收敛——因为一个玩家的梯度下降可能导致另一个玩家的梯度上升。
7.2.2 对抗鲁棒性
对抗样本(Adversarial Examples)问题可以从博弈论角度分析:
- 攻击者(Adversary):试图构造使分类器误分类的输入
- 防御者(Defender):试图训练鲁棒分类器
Min-Max优化:
这是对抗训练的数学形式。
7.2.3 推荐系统中的博弈论
推荐系统可以被建模为多方博弈:
- 平台(mediator):设计匹配机制
- 用户:选择商品/内容
- 内容创作者:决定创作什么
机制设计问题:
- 如何设计激励使用户和创作者都满意
- 如何实现信息茧房的打破
- 如何平衡短期点击与长期满意度
7.3 算法博弈论
7.3.1 机制设计在算法中的应用
算法机制设计(Algorithmic Mechanism Design)研究:
- 计算高效的激励相容机制
- 近似比与激励相容的权衡
- 组合拍卖的机制设计
在线广告:
- 实时竞价(RTB)系统
- 展示广告拍卖
- 搜索广告排序
联邦学习:
- 参与者贡献的度量
- 公平激励分配
- 防止搭便车
7.3.2 Price of Anarchy
无政府状态代价(Price of Anarchy, PoA)度量去中心化均衡与中央设计最优之间的效率差距。
定义:
其中分子是社会最优,分母是纳什均衡中的最小社会福利。
结果:
- 在许多自私路由博弈中, 是有界的
- Braess悖论说明添加资源可能降低整体效率
- PoA帮助评估去中心化系统设计的优劣
路由博弈的PoA
网络路由可以建模为:
- 用户自私选择最短路径
- 均衡可能不是社会最优
当延迟函数是多项式时,PoA有明确界:
- 线性延迟:
- 二次延迟:
- 一般多项式延迟: 随度数增长
7.3.3 区块链与共识机制
区块链系统中的博弈论:
- Proof of Work:挖矿奖励的激励机制
- Proof of Stake:验证者质押与惩罚机制
- 委托代理:委托投票与代理激励机制
激励机制设计的目标:
- 防止51%攻击
- 保证诚实行为
- 抑制搭便车
7.4 博弈论视角的AI安全
7.4.1 AI对齐问题
AI对齐(AI Alignment)可以视为多方博弈:
- 人类:期望AI行为符合人类价值观
- AI系统:被训练优化某个目标
- 设计者:设计训练过程和目标
激励相容视角:
- 如何设计机制使AI”愿意”被对齐
- 避免AI找到目标的”捷径”(奖励黑客)
奖励黑客与古德哈特定律
当一个指标成为目标时,它就不再是一个好指标(Goodhart’s Law)。
AI可能会找到”奖励黑客”——获得高奖励但不真正实现目标的方式。
这与博弈论中”不可信威胁”有相似性。
7.4.2 多智能体对齐
当多个AI系统交互时:
- 如何保证它们合作而非竞争
- 如何防止有害的联盟形成
- 如何实现开放目标(open-source goals)
机制设计方法:
- 设计激励鼓励有益行为
- 透明度要求促进信任
- 审计机制防止偏离
八、习题与思考
8.1 基础练习
习题1:找出下列博弈的所有纯策略纳什均衡,并计算混合策略均衡:
| L | R | |
|---|---|---|
| U | (3, 2) | (0, 4) |
| D | (2, 1) | (4, 3) |
习题2:证明囚徒困境中,“坦白”是严格占优策略。
习题3:计算下列联盟博弈的Shapley值:
习题4:用逆向归纳法求解下列序贯博弈:
玩家1选择A或B
若玩家1选A,玩家2选C或D(收益:玩家1选A选C得(2,3),选A选D得(1,1))
若玩家1选B,玩家2选C或D(收益:玩家1选B选C得(3,1),选B选D得(0,0))
习题5:证明石头-剪刀-布的纳什均衡是等概率混合策略。
8.2 进阶思考
思考题1:纳什均衡的存在性依赖于哪些假设?当这些假设不满足时,会发生什么?
思考题2:比较ESS与纳什均衡。这两种均衡概念在描述”稳定状态”时有何不同?
思考题3:在什么意义上,Vickrey拍卖的”说真话是占优策略”是”反直觉”的?直觉应该是什么?
思考题4:Folk定理表明无限重复博弈的SPE结果空间很大。这是否意味着Folk定理”空洞化”了SPE的概念?
思考题5:在机制设计中,为什么需要”显示原理”?它的核心洞见是什么?
思考题6:博弈论如何帮助理解AI系统中的激励问题?
8.3 开放性问题
问题1:在演化博弈论中,复制者动态是描述实际演化过程的准确模型吗?还有什么其他可能的动态?
问题2:核不一定存在——这对合作博弈论意味着什么?如何处理没有核的博弈?
问题3:区块链系统中的激励机制设计是否能借鉴传统机制设计的理论?面临哪些新挑战?
问题4:在AI系统中,博弈论均衡是否总是”合理”的预测?如果不是,我们如何改进预测?
九、数学附录
9.1 角谷不动点定理的详细证明
定理(角谷不动点定理): 设 是非空、紧凸集, 是上半连续的多值映射,且对所有 , 是非空凸集。则存在 使得 。
证明思路:
- 将多值映射转化为单值问题
- 使用Brouwer不动点定理
- 构造辅助函数
(详细证明涉及上半连续对应的图、闭包性质等,可参考泛函分析教材)
9.2 效用理论的公理基础
冯·诺依曼-摩根斯滕效用公理:
- 完备性:对任意 ,要么 ,要么 (或两者)
- 传递性:若 且 ,则
- 连续性:若 ,则存在 使得
- 独立性:若 ,则对任意 和 ,
在这些公理下,存在一个效用函数 使得 ,且 在概率混合下是线性的:
这为混合策略下的期望效用计算提供了基础。
9.3 动态规划的博弈论视角
在序贯博弈中,逆向归纳与动态规划有深刻联系:
值函数:
这类似于Bellman方程的”反向”形式。
最优策略:玩家在每个信息集上选择最大化后续值函数的行动。
参考文献
- Nash, J. (1950). Equilibrium Points in N-Person Games. Proceedings of the National Academy of Sciences, 36(1), 48-49.
- Nash, J. (1951). Non-Cooperative Games. Annals of Mathematics, 54(2), 286-295.
- von Neumann, J., & Morgenstern, O. (1944). Theory of Games and Economic Behavior. Princeton University Press.
- Osborne, M. J., & Rubinstein, A. (1994). A Course in Game Theory. MIT Press.
- Myerson, R. B. (1991). Game Theory: Analysis of Conflict. Harvard University Press.
- Fudenberg, D., & Tirole, J. (1991). Game Theory. MIT Press.
- Shapley, L. S. (1953). A Value for n-Person Games. Contributions to the Theory of Games, 2(28), 307-317.
- Vickrey, W. (1961). Counterspeculation, Auctions, and Competitive Sealed Tenders. Journal of Finance, 16(1), 8-37.
- Maynard Smith, J., & Price, G. R. (1973). The Logic of Animal Conflict. Nature, 246, 15-18.
- Kreps, D. M., & Wilson, R. (1982). Sequential Equilibria. Econometrica, 50(4), 863-894.
- Myerson, R. B. (1979). Incentive Compatibility and the Bargaining Problem. Econometrica, 47(1), 61-73.
- Gale, D., & Shapley, L. S. (1962). College Admissions and the Stability of Marriage. American Mathematical Monthly, 69(1), 9-15.
- Rubinstein, A. (1982). Perfect Equilibrium in a Bargaining Model. Econometrica, 50(1), 97-109.