博弈论基础

文档概述

博弈论是研究决策主体行为相互作用及策略选择的数学理论。本指南系统介绍标准形式博弈与扩展形式博弈、Nash均衡的存在性证明、演化博弈论、合作博弈论(Shapley值)以及机制设计(Vickrey拍卖)等核心内容。


关键词

序号关键词英文核心概念
1标准形式博弈Normal Form Game 三元组
2扩展形式博弈Extensive Form Game序贯决策的博弈树
3Nash均衡Nash Equilibrium无玩家可单方偏离获利
4混合策略Mixed Strategy策略的概率分布
5演化稳定策略ESS演化博弈的稳定状态
6Shapley值Shapley Value贡献公平分配的解概念
7机制设计Mechanism Design反向设计激励相容的规则
8Vickrey拍卖Vickrey Auction次价密封投标拍卖
9纳什证明Nash Existence Proof角谷不动点定理
10囚徒困境Prisoner’s Dilemma个体理性与集体理性的冲突
11激励相容Incentive Compatibility说真话是占优策略
12占优策略Dominant Strategy无论他人行动均最优

引言:博弈论的思想源流

0.1 从冯·诺依曼到纳什——博弈论的百年历程

博弈论(Game Theory)作为一门独立的数学学科,其历史可追溯至20世纪初期。1913年,恩斯特·策梅洛(Ernst Zermelo)发表了《关于集合论在象棋博弈中的应用》,首次尝试用数学方法分析博弈,这一工作被视为博弈论思想的萌芽。1921年至1928年间,法国数学家埃米尔·博雷尔(Émile Borel)开始系统研究策略博弈,并提出了混合策略的早期概念。1928年,约翰·冯·诺依曼(John von Neumann)发表了《 Zur Theorie der Gesellschaftsspiele》,证明了极小极大定理,奠定了博弈论作为数学分支的基础。

1944年,冯·诺依曼与奥斯卡·摩根斯滕(Oskar Morgenstern)合著的《博弈论与经济行为》问世,标志着博弈论作为一个完整理论体系的诞生。这部划时代的著作将博弈论系统化,并首次将其应用于经济学分析。书中提出了标准形式博弈和扩展形式博弈的基本框架,引入了合作博弈的概念,并探讨了效用理论的基础问题。冯·诺依曼和摩根斯滕的工作深刻影响了20世纪后半叶的经济学发展。

然而,早期博弈论面临一个根本性困难:对于非零和博弈,缺乏有效的均衡概念。零和博弈中,一方的收益恰好是另一方的损失,局中人之间的利益完全对立。对于这类博弈,极小极大定理提供了完整的解的概念。但现实中的大多数博弈——包括经济竞争、政治谈判、国际关系——并非零和博弈,局中人之间既有冲突也有合作的可能。

1950年,约翰·纳什(John Nash)在普林斯顿大学的博士论文和随后的论文中,提出了纳什均衡的概念,这一概念具有革命性的意义。纳什证明了有限博弈中纳什均衡的存在性,这一结果被《财富》杂志誉为”改变世界的17个方程”之一。纳什均衡的核心洞见在于:在均衡状态下,每个参与者都选择了给定他人选择下的最优策略,因此没有任何人愿意单方面改变自己的选择。这是一种”僵持”状态,任何偏离都会让偏离者受损。

纳什均衡的提出为博弈论提供了统一的概念框架。此后60余年间,博弈论经历了爆炸式发展,产生了大量重要的理论成果和应用分支。1994年,纳什与约翰·海萨尼(John Harsanyi)、莱因哈德·泽尔腾(Reinhard Selten)共同获得诺贝尔经济学奖,表彰他们在博弈论分析中的基础性贡献。2012年和2014年,埃尔文·罗斯(Alvin Roth)和罗伊德·沙普利(Lloyd Shapley)分别因稳定匹配理论和市场设计获得诺贝尔经济学奖,这些工作都与博弈论密切相关。2020年,保罗·米尔格罗姆(Paul Milgrom)和罗伯特·威尔逊(Robert Wilson)因改进拍卖理论和发明新拍卖形式获奖,再次彰显了博弈论在经济学中的核心地位。

0.2 博弈论的学科定位与交叉应用

博弈论是一门高度跨学科的数学理论,其思想和方法渗透到经济学、政治学、社会学、心理学、生物学、计算机科学、人工智能、法学、军事学等众多领域。在经济学中,博弈论是微观经济理论的核心支柱,从产业组织理论到国际经济学,从劳动经济学到金融经济学,几乎所有涉及交互决策的领域都离不开博弈论的工具。在生物学中,演化博弈论为理解动物行为、物种竞争、生态系统演化提供了强有力的框架。在计算机科学中,算法博弈论成为互联网经济学、加密货币、区块链协议设计的理论基础。在人工智能领域,多智能体系统的协调与竞争、机制设计、拍卖算法、强化学习中的博弈论分析等问题日益重要。

博弈论的独特之处在于,它关注的是决策主体之间的策略互动。当一个主体的最优选择依赖于其他主体的选择时,传统的优化理论无法直接应用,我们需要博弈论的概念和方法。这种策略相互依存的情境在现实中比比皆是:从日常的人际交往到商业竞争,从国际政治博弈到网络安全攻防,博弈论的视角能够帮助我们更好地理解这些复杂情境。

0.3 本书的学习路径

本书系统介绍博弈论的基础理论与方法论。我们从标准形式博弈开始,建立博弈论的基本框架,引入占优策略、纳什均衡等核心概念。随后,我们转向扩展形式博弈,讨论序贯决策、信息结构、子博弈完美均衡等问题。第三章深入探讨纳什均衡的存在性证明,这是博弈论最重要的理论支柱之一。第四章介绍演化博弈论,展示博弈论与生物学的交叉应用。第五章讨论合作博弈论,详述Shapley值等解概念。第六章探讨机制设计,特别是Vickrey拍卖的原理与应用。最后,我们讨论博弈论的前沿议题及其与人工智能的联系。


一、标准形式博弈

1.1 博弈论的基本框架

标准形式博弈(Normal Form Game)是博弈论中最基本的描述形式,由一个三元组 完全定义:

  • 玩家集合,表示参与博弈的决策主体个数
  • 行动空间,其中 是玩家 的可行行动集合(策略空间), 中的元素称为该玩家的纯策略
  • 效用函数,其中 表示玩家 的收益(支付)函数

时,博弈称为双人博弈;当 有限时,博弈称为有限博弈。本书主要讨论有限博弈,因为这类博弈具有较好的数学性质,便于分析。

1.1.1 双人博弈的收益矩阵表示

对于双人有限博弈,我们可以用收益矩阵(Payoff Matrix)直观展示每个策略组合下各玩家的收益。设玩家1(行玩家)有 个纯策略,玩家2(列玩家)有 个纯策略,则收益矩阵为:

通常,我们只记录行玩家的收益或用简写形式 表示行玩家收益为 、列玩家收益为

性别之战(Battle of the Sexes)

足球芭蕾
足球(2, 1)(0, 0)
芭蕾(0, 0)(1, 2)

第一个数字是行玩家(妻子)的收益,第二个是列玩家(丈夫)的收益。夫妻偏好一致但优先级不同:都更喜欢在一起(2,1)或(1,2)而非分开(0,0)。妻子更喜欢足球,丈夫更喜欢芭蕾,但两人都更愿意一起看同一节目。

囚徒困境(Prisoner's Dilemma)

坦白抵赖
坦白(-5, -5)(0, -8)
抵赖(-8, 0)(-1, -1)

两个嫌疑人被分别审讯。如果两人都抵赖,各判1年;一人坦白一人抵赖,坦白者释放、抵赖者判8年;两人都坦白,各判5年。占优策略分析表明,无论对方如何选择,坦白都是更好的选择,导致双人共入狱5年——这比合作的结果更差。

协调博弈(Coordination Game)

左行右行
左行(1, 1)(0, 0)
右行(0, 0)(1, 1)

两个司机相向而行,各选择左行或右行。双方协调一致时安全通过(各得1),不协调时可能相撞(各得0)。这是一个纯协调博弈,存在两个对称的纳什均衡。

斗鸡博弈(Chicken Game / Hawk-Dove Game)

前进让步
前进(-10, -10)(1, -1)
让步(-1, 1)(-5, -5)

两辆车相向而行,各选择前进或让步。都前进则相撞(各得-10);一方前进一方让步,前进者赢得声誉(1)、让步者丢脸(-1);都让步则双方丢脸(各得-5)。存在两个不对称的纳什均衡(前进/让步)和一个混合策略均衡。

1.2 策略类型详解

1.2.1 纯策略

纯策略(Pure Strategy)是确定性的策略选择。玩家 选择某个纯策略 ,然后固定执行该策略。纯策略博弈的策略空间是离散的。

1.2.2 混合策略

混合策略(Mixed Strategy)是玩家以概率分布 随机选择纯策略。当纯策略博弈不存在纯策略纳什均衡(如石头-剪刀-布),或理性分析需要引入不确定性时,混合策略变得重要。

混合策略集合定义为:

其中 上的概率单纯形,是一个紧凸集。每个 表示选择纯策略 的概率。

1.2.3 混合策略下的期望效用

引入混合策略后,博弈变为:

其中 是所有玩家的混合策略组合, 是纯策略组合 下玩家 的效用。

特别地,若玩家 采用纯策略 而其他玩家采用混合策略 ,则:

1.2.4 支集与完全混合策略

给定混合策略 ,其支集(Support)是概率为正的纯策略集合:

时, 称为完全混合策略(completely mixed strategy)。

石头-剪刀-布的混合均衡

这是一个三人同时行动(实际上是两玩家对称)的同时行动博弈:

石头剪刀
石头(0, 0)(-1, 1)(1, -1)
剪刀(1, -1)(0, 0)(-1, 1)
(-1, 1)(1, -1)(0, 0)

该博弈没有纯策略纳什均衡。其唯一的混合策略纳什均衡是:每个玩家以等概率 选择石头、剪刀、布。这一均衡是对称的,反映了公平博弈中的无差异原则。

1.3 占优策略与重复删除

1.3.1 占优关系的严格定义

是玩家 的两个纯策略。

严格占优(Strict Dominance):策略 严格优于 ,若对所有

理性玩家绝不会选择被严格占优的策略——因为无论其他人如何行动,选择严格占优策略都能获得更高效用。

弱占优(Weak Dominance):策略 弱优于 ,若对所有

且至少存在一个 使得不等式严格成立。

严格被占优(Strictly Dominated):策略 是被占优的,若存在另一个策略 严格优于它。

1.3.2 理性共识与共同知识

“理性人不会选择被严格占优策略”这一论断蕴含着重要的理性假设和共同知识要求:

  1. 理性:每个玩家都追求效用最大化
  2. 共同知识:每个玩家都知道所有玩家的理性
  3. 递归应用:每个玩家知道其他玩家知道所有玩家的理性,以此类推

这些条件在理论上可以无限递归,形成公共知识(Common Knowledge)的层次结构。共同知识的假设在博弈论中至关重要,许多重要结论都依赖于它。

共同知识的脆弱性

共同知识的假设在现实中很难完全满足。当玩家对他人理性程度、信息质量存在不确定性时,分析会变得复杂。贝叶斯博弈通过引入类型空间来处理这类不确定性。

1.3.3 迭代删除严格劣势策略

IESDS算法(Iterated Elimination of Strictly Dominated Strategies):

  1. 初始化:设 为原始行动空间
  2. 迭代:在第 步,识别并删除在当前行动空间 下被严格占优的策略,得到
  3. 终止:当 时停止
  4. 结果:剩余的策略集是理性共识下的可能策略

IESDS的核心思想是:理性玩家会删除被严格占优策略,而所有玩家都知道这一点,因此可以递归应用。

IESDS在囚徒困境中的应用

对于囚徒困境:

坦白抵赖
坦白(-5, -5)(0, -8)
抵赖(-8, 0)(-1, -1)

对行玩家而言:

  • 坦白 vs 抵赖:当列玩家坦白时,;当列玩家抵赖时,
  • 因此,抵赖被坦白严格占优,理性行玩家会选择坦白

对列玩家同理,坦白被独立地确认为理性选择。

IESDS的结论是坦白-坦白是唯一剩余的结果。

IESDS在斗鸡博弈中的局限性

斗鸡博弈:

前进让步
前进(-10, -10)(1, -1)
让步(-1, 1)(-5, -5)

不存在严格占优策略:前进在对方前进时更优,但在对方让步时更差。因此IESDS无法删除任何策略,博弈留下两个纯策略纳什均衡和一个混合策略均衡。

1.3.4 IESDS的性质

IESDS具有以下重要性质:

  1. 一致性(Consistency):无论删除顺序如何,最终剩余的策略集相同(如果有限次删除完成)
  2. 与纳什均衡的关系:IESDS删除后剩余的任何策略组合都构成某个纳什均衡的子集
  3. 完备性局限:存在博弈(如石头-剪刀-布)无法通过IESDS删除任何策略,但这些博弈仍可能有纳什均衡

IESDS的局限性

  • IESDS可能删除所有策略(如在某些博弈中)
  • 弱占优的删除可能产生路径依赖(不同删除顺序导致不同结果)
  • IESDS不保证纳什均衡的存在性(如有限博弈可能没有纯策略纳什均衡)

1.4 最佳反应函数

1.4.1 最佳反应的定义

给定其他玩家的策略 ,玩家 最佳反应(Best Response)是使效用最大化的策略集合:

最佳反应函数 将其他玩家的策略映射到 的最优策略集合。

1.4.2 反应对应与多值映射

当最佳反应不唯一时, 是一个对应(correspondence)而非函数。对于双人博弈的收益矩阵,最佳反应的计算如下:

  • 对每个行策略 ,计算其在每列策略下的效用
  • 是列策略 的最佳反应,当且仅当 对所有其他行 成立

最佳反应计算

考虑博弈:

LR
U(3, 2)(1, 4)
D(1, 0)(2, 1)

行玩家的最佳反应:

  • 给定列选择L:,因此
  • 给定列选择R:,因此

列玩家的最佳反应:

  • 给定行选择U:,因此
  • 给定行选择D:,因此

纳什均衡满足 ,检验得(U, R)是唯一纳什均衡。

1.4.3 混合策略的最佳反应

对于混合策略,期望效用的计算至关重要。设 是其他玩家的混合策略组合,玩家 选择纯策略 的期望效用为:

混合策略 的期望效用为各纯策略效用的加权平均:

最佳反应分析的关键结论:玩家只会在期望效用不低于其他任何策略的纯策略上随机(支集条件)。这导致混合策略均衡的重要性质。

1.5 纳什均衡的直观理解

1.5.1 纳什均衡的正式定义

纳什均衡:策略组合 是纳什均衡,当且仅当对每个玩家

即,没有任何玩家可以通过单方面改变策略来提高自己的收益。

混合策略纳什均衡:上述定义中的 可以是混合策略,此时不等式对混合策略集合成立。

1.5.2 纳什均衡的直观解释

纳什均衡可以被理解为一种”僵持”状态:给定他人的策略,没有人愿意单方面改变自己的选择。这种均衡具有自验性(self-enforcing)——一旦达到均衡,没有任何内部动力推动改变。

纳什均衡的经济学解释是:它是一个没有协调失败(coordination failure)的状态。在某些博弈中(如斗鸡博弈),协调一致的失败会导致次优结果,纳什均衡帮助我们识别哪些策略组合是稳定的。

1.5.3 纳什均衡的类型

纳什均衡可分为以下类型:

类型特征存在性
纯策略纳什均衡所有玩家使用纯策略不一定存在(如石头-剪刀-布)
混合策略纳什均衡至少一个玩家使用混合策略有限博弈必存在
对称纳什均衡所有玩家使用相同策略不一定存在
多重纳什均衡博弈有多个纳什均衡常见于协调博弈

性别之战的多重均衡

足球芭蕾
足球(2, 1)(0, 0)
芭蕾(0, 0)(1, 2)

该博弈有两个不对称的纯策略纳什均衡:(足球, 足球) 和 (芭蕾, 芭蕾)。此外,还存在一个对称的混合策略纳什均衡:妻子以2/3概率选足球、1/3概率选芭蕾,丈夫以1/3概率选足球、2/3概率选芭蕾。

1.6 经典博弈案例详解

1.6.1 囚徒困境的深层结构

囚徒困境是博弈论中最著名的案例之一,它深刻揭示了个体理性与集体理性之间的张力。

形式化分析: 设 (Temptation)为背叛的诱惑(一方背叛、对方合作时的收益),(Reward)为合作奖励(双方合作时的收益),(Punishment)为惩罚(双方背叛时的收益),(Sucker)为傻瓜收益(一方合作、对方背叛时的收益)。

参数满足:,且 (合作比平均背叛更好)。

囚徒困境的支付结构:

  • 坦白是严格占优策略
  • (坦白, 坦白) 是唯一的纳什均衡
  • ,集体最优是合作

无限重复与终止剂触发: 如果囚徒困境被重复无限次(或者有限但足够长),合作可以通过触发策略(trigger strategy)维持:

  • 首先选择合作
  • 一旦对方背叛,此后永远背叛

在无限重复博弈中,如果贴现因子足够高(双方都充分重视未来),冷酷策略(Grim Trigger)可以维持合作。这引出了时间偏好长期关系对合作的影响。

囚徒困境的现实映照

囚徒困境的逻辑广泛应用于解释:

  • 军备竞赛:两国都倾向于扩军(占优策略),但双方裁军才是集体最优
  • 公共品悲剧:个人搭便车导致公共资源过度使用
  • 环境问题:各国排放污染以追求短期利益,忽视长期环境代价
  • 商业价格战:企业降价竞争,最终可能两败俱伤

1.6.2 智猪博弈(Boxed Pigs)

智猪博弈是囚徒困境的变体,展示了大企业与小企业领导者与追随者之间的博弈结构。

博弈设定

  • 大猪和小猪同处一个猪圈,一端有食槽,另一端有踏板
  • 踩踏板需要付出成本,但会让食物落入食槽
  • 踩踏板的收益分配取决于谁去吃

支付矩阵(假设踩踏板成本为2,食物价值为10):

大猪踩大猪等待
小猪踩(6, 4)(-1, 9)
小猪等待(5, 1)(0, 0)

分析:

  • 小猪的严格占优策略是等待
  • 大猪的唯一理性选择是踩踏板
  • 均衡结果:(大猪踩, 小猪等待) = (5, 9)

经济学启示

  • 智猪博弈解释了为何小企业倾向于”搭便车”
  • 技术研发、基础设施建设等领域存在类似的大猪-小猪结构
  • 领导者往往承担更多成本但获得更多收益

1.6.3 猎鹿博弈(Stag Hunt)

猎鹿博弈探讨了风险偏好与协调的问题,与囚徒困境有微妙区别。

设定

  • 两人合作可以猎获一只鹿(各得4)
  • 单人可猎获一只野兔(各得2)
  • 如果合作失败(对方逃跑)而自己追鹿,则一无所获(0)

支付矩阵

猎鹿猎兔
猎鹿(4, 4)(0, 2)
猎兔(2, 0)(2, 2)

分析:

  • 猎鹿是风险占优(risk-dominant)但非占优的策略
  • 两个纯策略纳什均衡:(猎鹿, 猎鹿) 和 (猎兔, 猎兔)
  • (猎鹿, 猎鹿) 的社会福利更高,是帕累托最优的均衡
  • (猎兔, 猎兔) 是风险占优的均衡——当担心对方不合作时,猎兔更安全

与囚徒困境的关键区别

  • 囚徒困境中 (坦白, 坦白) 不是帕累托最优
  • 猎鹿博弈中两个均衡都是帕累托排序的
  • 这意味着猎鹿博弈不存在”社会困境”——问题是选择哪个均衡,而非集体失败

猎鹿博弈的现实意义

猎鹿博弈描述了人类社会中常见的协调问题:

  • 技术标准竞争:多人合作采用同一标准可获得网络效应,但采用非主流标准可以规避风险
  • 社会规范形成:采用合作规范可以获得群体收益,但偏离规范有时更安全
  • 职业选择:追求高风险高回报 vs 稳定但平庸的工作

1.6.4 斗鸡博弈(Hawk-Dove / Chicken)

斗鸡博弈展示了承诺价值不对称均衡

支付矩阵

前进让步
前进(-10, -10)(1, -1)
让步(-1, 1)(-5, -5)

分析

  • 不存在纯策略占优策略
  • 两个不对称纯策略纳什均衡:(前进, 让步) 和 (让步, 前进)
  • 存在对称混合策略纳什均衡

计算混合均衡: 设行玩家以概率 选择前进、 选择让步,列玩家以概率 选择前进。

行玩家选择前进的期望效用:

行玩家选择让步的期望效用:

令两者相等:,解得

对称均衡为

斗鸡博弈的应用

  • 古巴导弹危机:美苏双方都威胁前进,但最终一方让步
  • 商业竞争:价格战、渠道战中的对峙
  • 交通博弈:两车相向而行,都不谦让可能导致事故

1.6.5 胆小鬼博弈(Game of Chicken)

胆小鬼博弈与斗鸡博弈本质相同,但心理学角度的解读略有差异:

  • 荣誉驱动:前进被视为勇敢,让步被视为懦弱
  • 非物质收益:效用中包含声誉、尊严等非物质因素
  • 社会压力:旁观者期望增加了一方的退出成本

这类博弈揭示了博弈论分析中效用函数设定的重要性。相同的数学结构可以对应不同的现实情境,而对效用的不同假设可能导致不同的预测。

1.7 零和博弈与极小极大定理

1.7.1 零和博弈的定义

零和博弈(Zero-Sum Game)是一类特殊的博弈,满足:

即一方所得恰好是另一方所失。零和博弈体现了完全冲突的情境——不存在合作的可能。

许多经典博弈(象棋、围棋、扑克)都可以建模为零和博弈。

1.7.2 极小极大定理

冯·诺依曼于1928年证明的极小极大定理是博弈论的奠基性结果之一。

定理(极小极大定理):对于任意双人零和有限博弈,存在值 和混合策略 使得:

即:

  • 行玩家选择策略最大化其最小收益(最大化最小值)
  • 列玩家选择策略最小化行玩家的最大收益(最小化最大值)
  • 在混合策略下,两者相等

极小极大策略的直观解释

  • 行玩家希望最大化自己的收益,但列玩家会对抗
  • 最优策略是最大化最坏情况下的收益
  • 这是一种保守但理性的策略

石头-剪刀-布的极小极大

均衡策略:每个玩家以等概率选择三种手势

无论对方如何选择,期望收益始终为

验证:

  • 若对方固定选择石头,我方等概率选择时期望为0
  • 若对方也混合,期望仍为0
  • 这是”安全”的策略——即使对方故意针对,也无法使我的期望收益为负

Matching Pennies

HeadTail
Head(1, -1)(-1, 1)
Tail(-1, 1)(1, -1)

行玩家希望匹配,列玩家希望不匹配。

  • 行玩家的极小极大值:
  • 均衡是双方都以0.5概率选择任一面
  • 均衡期望值为0

1.7.3 极小极大与纳什均衡的关系

对于零和博弈,纳什均衡具有特殊性质:

  • 零和博弈的纳什均衡等价于极小极大策略
  • 均衡值是唯一的(虽然策略可能不唯一)
  • 任何纳什均衡产生的效用相同

对于一般非零和博弈,极小极大概念不直接适用,因为玩家的目标不同。


二、扩展形式博弈

2.1 博弈树与信息结构

2.1.1 扩展形式博弈的基本要素

扩展形式博弈(Extensive Form Game)用博弈树描述序贯决策,相比标准形式博弈,能够更精细地刻画:

  • 时间顺序:谁在何时行动
  • 信息结构:玩家在决策时知道什么
  • 行动后果:每个行动组合导致的结果

扩展形式博弈的组成要素

  1. 节点集合 :包括决策节点和终点节点
  2. 边/行动:从决策节点出发的分支
  3. 玩家指派:每个决策节点分配给某个玩家
  4. 信息分区:将节点划分为信息集
  5. 效用函数:定义在终点节点上
  6. 概率分布(若有自然行动):定义外生不确定性的概率

2.1.2 博弈树的表示

博弈树是一种有向树结构:

  • 根节点:博弈的起始点
  • 内部节点:决策节点,由某玩家控制
  • 叶节点:终点节点,附有收益向量

为扩展形式博弈, 表示非终止节点集合, 表示终止节点集合。

从根节点到叶节点的路径表示一个完整的博弈历史(history)。

简单序贯博弈:进入阻绝博弈

企业A考虑是否进入市场,B是市场在位者。A进入后,B可以选择:

  • 斗争(导致双方损失)
  • 默许(接受新进入者)

博弈树

        A进入/不进入
        /        \
    B斗争      B默许     (A不进入则B不需行动)
    /   \        |
  A败   A胜     终止

假设收益:

  • A不进入:(0, 10)
  • A进入,B斗争:(−2, 2)
  • A进入,B默许:(5, 5)

2.1.3 信息集

信息集(Information Set)是同一玩家在博弈中无法区分的节点集合。

形式上,信息集是节点集合 。玩家知道自己在信息集内,但不知道具体是哪个节点。

完美信息博弈:每个信息集都是单点集,即每个决策节点都是独享的。玩家在行动时完全知道自己处于博弈的哪个阶段。

不完美信息博弈:存在非单点的信息集。玩家在决策时不知道某些先前发生的事件(如对手的私人信息)。

不完美信息:同时行动博弈

两个玩家同时选择行动,可建模为扩展形式博弈:

    (根节点)
    /      \
  玩家1   玩家2行动
  行动     |
     信息集(玩家2不知道玩家1的选择)

玩家2的两个节点处于同一信息集,表示他不知道玩家1的具体选择。

2.1.4 完美回忆与记忆假设

完美回忆(Perfect Recall)要求:每个玩家记得自己过去的所有行动。

完美回忆博弈满足:

  1. 同一玩家的不同信息集不相交
  2. 玩家在信息集中的所有路径共享相同的行动历史

大多数博弈论分析假设完美回忆,即玩家不会”忘记”自己过去的选择。

非完美回忆的特殊性

在非完美回忆博弈中,策略概念需要修正——玩家的策略应定义在信息集上,而非节点上。如果玩家”忘记”了过去的选择,博弈分析会变得复杂,因为需要考虑策略的内部一致性。

2.2 子博弈与逆向归纳

2.2.1 子博弈的定义

子博弈(Subgame)是从某个非终止节点开始、包含该节点所有后继的博弈。

形式上,子博弈 由以下要素组成:

  • 节点集合:以 为根的子树
  • 信息结构:继承原博弈
  • 效用函数:继承原博弈

子博弈对应于博弈树中的某个”子节点”及其以下部分。

2.2.2 子博弈完美均衡

子博弈完美均衡(Subgame Perfect Equilibrium, SPE):

  1. 是原博弈的纳什均衡
  2. 在每个子博弈上产生的行动都是纳什均衡

SPE的核心要求是策略必须是可信的——排除”不可信威胁”和”空头承诺”。

进入阻绝博弈的SPE

收益:

  • A不进入:(0, 10)
  • A进入,B斗争:(−2, 2)
  • A进入,B默许:(5, 5)

逆向归纳分析

  1. 在A进入的子博弈中,B选择:
    • 斗争:收益2
    • 默许:收益5
    • 因此B会选择默许
  2. 回到根节点,A的预期:
    • 不进入:收益0
    • 进入:收益5(因为B会默许)
    • 因此A会选择进入

SPE:(进入, 默许),路径收益 (5, 5)

注意:如果B威胁斗争,A进入会导致 (−2, 2),但这是不可信威胁——因为进入发生后,B的理性选择是默许。SPE剔除了这种威胁。

2.2.3 逆向归纳法的局限性

逆向归纳法是一个强有力的求解工具,但它有重要局限:

  1. 剃刀原理的假设:假设玩家是完美理性的,且这种理性是公共知识
  2. 微小扰动的脆弱性:剃须刀完美的逆向归纳均衡可能对小扰动不稳健
  3. 历史无关的路径依赖:某些均衡可能依赖于博弈开始时的不相关历史
  4. 计算复杂度:对于大规模博弈,逆向归纳可能不可计算

蜈蚣博弈悖论

蜈蚣博弈(Centipede Game):

  • 两名玩家交替决定是否终止博弈
  • 若在第 轮终止,支付为 ;若继续,移到下轮
  • 假设博弈持续100轮

逆向归纳预测:玩家1应在第1轮就终止博弈(因为第2轮玩家2会终止……)

但这与直觉相悖——如果两人都”理性地”选择继续,最后的合作结果可能更好。蜈蚣博弈悖论揭示了逆向归纳的某些反直觉预测。

2.3 承诺与可信威胁

2.3.1 承诺的价值

在序贯博弈中,承诺(Commitment)可以改变博弈结果。承诺是指玩家以某种方式限制自己的未来选择,从而改变对手的预期。

可信承诺的特征:

  1. 可执行性:承诺必须是可置信的——对手相信承诺会被遵守
  2. 战略效应:承诺通过改变对手的策略选择来影响均衡

Stackelberg领导者的承诺优势

在Stackelberg竞争中:

  • 领导者先选择产量
  • 追随者观测到 后选择
  • 市场价格 ,成本为零

逆向归纳求解

  • 追随者利润:

  • FOC:

  • 最优反应:

  • 领导者预测追随者反应,选择 最大化

  • FOC:,解得

  • 追随者反应:

比较Cournot均衡(同时选择):

  • 领导者的Stackelberg利润更高

领导者的先动优势来自承诺——他首先行动,追随者必须在其产量给定的情况下反应。

2.3.2 边缘政策与威胁

边缘政策(Brinkmanship)是指玩家将博弈推向危险边缘,以迫使对手让步。

在古巴导弹危机中,肯尼迪和赫鲁晓夫都采用了边缘政策策略——将事件推向战争边缘,以迫使对方妥协。

边缘政策的博弈论分析

  • 威胁必须可信——如果对手认为你不会真的走到那一步,威胁无效
  • 可信威胁需要成本——威胁方必须承担走到边缘的风险
  • 均衡通常是某种形式的让步或妥协

2.3.3 声誉与重复博弈中的合作

声誉效应(Reputation Effects)在重复博弈中起着重要作用。

考虑囚徒困境的无限重复版本:

  • 每期的贴现因子为
  • 玩家的目标是最大化贴现效用和

冷酷策略(Grim Trigger):首先合作,一旦对方背叛则永远背叛。

合作条件:如果双方都采用冷酷策略,合作是子博弈完美的,当且仅当:

即合作的总贴现收益不少于背叛的收益。

整理得:

当贴现因子足够大(玩家充分耐心)时,合作可以在SPE中维持。

2.4 扩展形式博弈的策略表示

2.4.1 行为策略与混合策略

在扩展形式博弈中,策略有两种表示方式:

行为策略(Behavioral Strategy):每个信息集上指定各行动的概率分布。

为玩家 在信息集 上的行动概率分布。行为策略独立指定各信息集上的行动概率。

混合策略:以概率分布随机选择完整的策略计划(整个策略树)。

完美回忆下的等价性(Kuhn定理): 在完美回忆博弈中,混合策略与行为策略是等价的——每个混合策略都可以用一个行为策略表示,反之亦然。

2.4.2 策略的简化与信息集

在扩展形式博弈中,策略只需在每个信息集上指定行动——因为玩家根据信息集知道自己的决策点,但不知道具体的历史路径。

两阶段博弈的策略简化

博弈结构:

  • 第一阶段:玩家1行动(
  • 第二阶段:玩家2在观察到玩家1行动后行动(

玩家2的策略必须指定在每个观察结果下的行动:

  • 策略1:若玩家1选 则选 ,若选 则选 (即总是
  • 策略2:若玩家1选 则选 ,若选 则选
  • 策略3:若玩家1选 则选 ,若选 则选
  • 策略4:若选 则选 ,若选 则选 (即总是

因此,玩家2有 个纯策略(每个信息集2个行动,共2个信息集)。

2.5 重复博弈

2.5.1 有限重复博弈

有限重复博弈(Finite Repeated Game)将基础博弈(称为”阶段博弈”)重复有限次。

设阶段博弈 被重复 次,且所有参与者观测到之前所有阶段的结果。

关键结果:如果阶段博弈有唯一的纳什均衡,那么在有限重复博弈中,唯一的子博弈完美均衡是在每一期都重复该纳什均衡。

逆推论证:从最后一期开始,逆向归纳显示最后期的结果必须是阶段博弈的纳什均衡;然后前一期同理可得。如此递归,整个博弈路径是阶段博弈纳什均衡的重复。

囚徒困境的有限重复

如果囚徒困境被重复两次,唯一的SPE是:

  • 两期都选择坦白

即使存在合作的历史(第一期双方抵赖),第二期的理性选择仍是坦白——因为这是阶段博弈的纳什均衡。

2.5.2 无限重复博弈

无限重复博弈将阶段博弈重复无限期。

玩家的目标函数是平均收益贴现收益和

平均收益准则

贴现准则,其中 是贴现因子

2.5.3 folk定理

无名氏定理(Folk Theorem)描述了无限重复博弈中SPE可实现的结果范围。

无名氏定理(平均收益版本): 设 是阶段博弈, 是单期博弈中每个玩家可保证的最小收益(安全水平), 是帕累托最优收益向量。

如果 足够接近1(玩家足够耐心),那么对于任意满足 的收益向量 ,存在一个贴现因子 使得对所有 ,存在SPE实现收益

无名氏定理(贴现版本): 设 ,存在 使得当 时,任意”接近”帕累托最优的收益向量都可以作为SPE实现。

Folk定理的含义

Folk定理表明,无限重复博弈的SPE结果空间非常大——几乎任何理性可行的结果都可以被支持。这反映了一个深刻洞见:长期关系中的耐心可以支持各种合作安排。但Folk定理没有说明哪个均衡会实际实现——需要额外的均衡选择理论。

2.6 讨价还价理论

2.6.1 纳什讨价还价解

纳什讨价还价解(Nash Bargaining Solution)是两人讨价还价问题的公理化解。

问题设定

  • 两个参与者就如何分割蛋糕进行谈判
  • 蛋糕大小标准化为1
  • 谈判破裂时,双方获得保留效用(威胁点)
  • 可行集 是所有可能的收益分配集合

公理化方法:纳什提出了一组公理,满足这些公理的唯一解是:

即在威胁点约束下,最大化双方收益与威胁点之差的乘积。

纳什公理

  1. 效率性:解是帕累托最优的
  2. 对称性:如果可行集对称且威胁点对称,则解也对称
  3. 线性不变性:对收益的线性变换不影响解
  4. 无关替代方案的独立性:如果某个可行分配从可行集中移除但最优解不变,解不变

纳什讨价还价解的计算

设威胁点 ,可行集为 (线性效用)

最大化目标:

约束:(帕累托边界)

拉格朗日:

FOC:

解得:

纳什解是公平分配。

2.6.2 轮流出价的讨价还价模型

Rubinstein轮流出价模型(1982)提供了序贯谈判的微观基础。

设定

  • 两个玩家轮流就分割蛋糕进行提议
  • 玩家1先提议
  • 玩家2可以接受、拒绝或提出反提议
  • 拒绝后谈判进入下一期,贴现因子为

均衡结果

  • 玩家1在第一期提出分割:
  • 玩家2接受

直观解释

  • 玩家2知道如果拒绝,博弈会进入下一期
  • 下一期的结果与本期类似(只是贴现)
  • 因此玩家2的议价能力取决于其耐心程度

三、Nash均衡存在性证明

3.1 纳什均衡的正式定义

纳什均衡(Nash Equilibrium)是策略组合 ,满足对每个玩家

即,在给定他人策略的情况下,没有玩家能通过单方面改变策略来提高自己的收益。

混合策略纳什均衡:上述定义允许 为混合策略。此时:

3.2 纳什定理

纳什定理(Nash, 1950):每一个有限博弈(有限玩家、有限行动)至少存在一个纳什均衡(可能包含混合策略)。

这是博弈论最重要的存在性结果之一,证明了纳什均衡作为”解概念”的合理性。

3.3 存在性证明:角谷不动点定理

纳什定理的证明依赖于角谷不动点定理(Kakutani’s Fixed Point Theorem),这是Brouwer不动点定理的对应版本。

3.3.1 角谷不动点定理

定理(角谷不动点定理): 设 是非空、紧凸集, 是一个上半连续的多值映射,且对所有 是非空凸集。则存在 使得

直观理解

  • 连续函数在闭区间上必有不动点(Brouwer定理)
  • 角谷定理将函数推广为对应(correspondence)
  • 上半连续性保证对应图的某种连续性
  • 凸性条件保证不动点的存在

3.3.2 最佳反应对应

最佳反应对应 定义为:

性质

  1. 非空性:由于 是紧集且 连续,最大值存在
  2. 凸性 关于 是线性的(期望效用),因此最大值集合是凸的
  3. 上半连续性:最佳反应对应是上半连续的

3.3.3 纳什对应的构造

纳什对应 定义为:

即所有玩家最佳反应集合的笛卡尔积。

验证角谷定理条件

  1. 定义域是紧凸集

    • 是紧凸集(有限个概率单纯形的乘积)
  2. 非空凸值

    • 非空:最大值存在
    • 凸性:若 ,则对任意 的效用不低于两者,因此也在最佳反应集合中
  3. 上半连续性

    • 最佳反应对应在 变化时连续

3.3.4 证明完成

由角谷不动点定理,存在 使得:

这意味着对每个 ,即:

这正是纳什均衡的定义。

证明的直观理解

可以将纳什均衡视为策略空间上的”稳定点”:如果其他人都按均衡策略行动,每个人都没有动机偏离自己的均衡策略。角谷不动点定理保证了这种稳定点的存在——本质上是因为策略空间的”凸性”和”连续性”。

3.4 纳什均衡的精炼

3.4.1 颤抖手完美均衡

纳什均衡的存在性证明是纯数学的,但它没有排除某些”病态”均衡——这些均衡可能依赖于精确的参数巧合,或者对微小的扰动非常脆弱。

颤抖手完美均衡(Trembling Hand Perfect Equilibrium, THPE)要求均衡对”颤抖”稳健。

定义:策略组合 是颤抖手完美的,如果存在一个序列 收敛到 ,其中每个 是某个完全混合策略博弈的纳什均衡。

直观解释:假设每个玩家可能以微小概率犯错(颤抖),THPE要求在这种扰动下仍有均衡策略接近

THPE的精炼效果

  • 剔除了依赖精确参数巧合的均衡
  • 保留了稳健的、符合直觉的均衡

斗鸡博弈的THPE

斗鸡博弈有两个纯策略纳什均衡:(前进, 让步) 和 (让步, 前进)。

这两个均衡都是颤抖手完美的——它们对微小扰动稳健。

混合策略均衡 可能不是THPE——当引入扰动时,对称混合可能不稳定。

3.4.2 序贯均衡

序贯均衡(Sequential Equilibrium)由Kreps和Wilson(1982)提出,结合了SPE的序贯理性要求和THPE的稳健性。

定义:序贯均衡由 组成,其中:

  • 是玩家 的行为策略
  • 是玩家 在各信息集上的信念(主观概率)

满足:

  1. 序贯理性:给定信念 ,策略 在每个信息集上是贝叶斯最优的
  2. 一致性:信念 是由策略组合产生的,通过贝叶斯法则更新

序贯均衡是比SPE更强的均衡概念——它同时要求策略和信念系统的一致性。

3.4.3 直觉准则

Kreps等人提出的直觉准则(Intuitive Criterion)进一步精炼了 Signaling Games 中的均衡。

直觉准则的思想是:如果某策略只在某些”不理性”的威胁下才能被排除,那么它应该被保留。

形式化表达较复杂,但其核心洞见是:在剔除弱占优策略时,如果对手能确信某类玩家不会采用某种策略,那么这种判断会影响均衡选择。

3.5 混合策略均衡的计算方法

3.5.1 最佳反应对应法

对于双人博弈,最佳反应对应可以图形化分析。

为给定列玩家选择列2的概率时,行玩家的最佳反应(行1的概率),类似定义

纳什均衡对应两条最佳反应曲线的交点。

性别之战最佳反应曲线

收益矩阵: | | 足球 | 芭蕾 | |---|---| | 足球 | (2, 1) | (0, 0) | | 芭蕾 | (0, 0) | (1, 2) |

为行玩家选择足球的概率, 为列玩家选择足球的概率。

行玩家的期望效用:

  • 选择足球:
  • 选择芭蕾:

最佳反应:

  • ,即 ,则 (选足球)
  • ,即 ,则 (选芭蕾)
  • ,两种选择无差异, 上的任何 都是最佳反应

类似地,列玩家的最佳反应:

  • ,则 (选芭蕾)
  • ,则 (选足球)
  • 上的任何 都是最佳反应

均衡交点:,以及一段最佳反应曲线的交叠。

3.5.2 代数求解法

对于具体的博弈,混合均衡可以通过方程组求解。

混合均衡的求解步骤

  1. 确定候选支集:通常假设对称博弈中双方使用相同策略
  2. 写出期望效用方程:在支集上,各纯策略的期望效用必须相等(无差异条件)
  3. 求解概率:从无差异条件解出各策略的概率
  4. 验证最佳反应:确认求解的概率确实构成最佳反应

石头-剪刀-布的均衡

为行玩家选择石头、布、剪刀的概率。

无差异条件(各策略期望效用相等):

计算期望效用(行玩家收益为1表示赢,-1表示输):

在对称均衡 下:

对称性要求

验证:期望效用 ,无差异条件满足。

3.6 纳什均衡的存在性扩展

3.6.1 无限策略空间的存在性

纳什定理的证明依赖于策略空间的紧性和效用函数的连续性。对于无限策略空间,需要额外条件。

定理(无限博弈的纳什存在性): 设博弈满足:

  1. 每个玩家的策略空间 是欧几里得空间的紧凸子集
  2. 效用函数 是连续的
  3. 对每个 是拟凹的(效用函数关于自己的策略是凹的)

则存在纳什均衡。

拟凹性的作用:拟凹性保证最佳反应集合是凸的,使得角谷定理的条件得以满足。

3.6.2 一般化与局限

纳什均衡的存在性不需要所有条件都满足。在某些情况下:

  • 即使策略空间非凸,如果效用函数满足某些条件,仍可能存在均衡
  • 在连续统玩家博弈中,纳什均衡的存在性可能需要更复杂的条件

例外的存在性困境: 存在没有纳什均衡的博弈(非有限、策略空间非凸等)。这类博弈需要引入更复杂的均衡概念或放宽理性假设。


四、演化博弈论

4.1 演化博弈的基本框架

4.1.1 从理性均衡到演化稳定

演化博弈论(Evolutionary Game Theory)起源于生物学家对动物行为和种群动态的研究。与标准博弈论不同,演化博弈论不假设完美的理性计算,而是通过自然选择策略复制来解释策略的演化。

核心思想:

  • 策略的成功程度由其适应度(fitness)衡量
  • 适应度高的策略在种群中增长更快
  • 通过”复制”过程,高适应度策略逐渐取代低适应度策略

演化博弈论提供了另一种理解均衡的方式:不依赖完美理性假设,而是通过动态过程达到稳定状态。

4.1.2 演化稳定策略

演化稳定策略(Evolutionarily Stable Strategy, ESS)是演化博弈论的核心概念,由Maynard Smith和Price于1973年引入。

ESS定义:策略 是演化稳定的,如果对每个替代策略 ,存在阈值 使得:

其中 表示策略 对策略组合 的适应度。

直觉解释: 如果整个种群都采用ESS ,那么当一小群突变者采用策略 入侵时,在自然选择下这些突变者无法获得更高适应度,最终将被淘汰。

鸽-鹰博弈的ESS

其中 是资源的价值, 是争斗的成本。

时(争斗成本超过资源价值),存在混合ESS:种群中鸽子的比例为 ,鹰的比例为

时(资源价值高),鹰是严格ESS——种群将演化到全部鹰。

4.1.3 ESS与纳什均衡的关系

ESS与纳什均衡有密切联系:

  1. ESS是纳什均衡:如果 是ESS,则 是纳什均衡
  2. 纳什均衡不一定是ESS:某些纳什均衡不能抵御小比例突变者的入侵

纳什均衡不等于ESS

在协调博弈中,两个纯策略纳什均衡都是ESS,但混合策略均衡可能不是ESS——因为在混合均衡下,小比例的突变可能导致一方类型的固定。

4.2 复制者动态

4.2.1 复制者动态方程

复制者动态(Replicator Dynamics)描述了策略频率的时间演化,其基本思想是:表现优于平均的策略比例增加,表现劣于平均的策略比例减少。

复制者动态方程

其中:

  • 是采用策略 的种群比例,满足
  • 是策略 的适应度(等于其期望效用)
  • 是平均适应度

动态特性

  • 时,(策略 增加)
  • 时,(策略 减少)
  • 时,(策略 稳定)

猎鹿博弈的复制者动态

猎鹿博弈:

猎鹿猎兔
猎鹿(4, 4)(0, 2)
猎兔(2, 0)(2, 2)

为采用猎鹿策略的比例, 为采用猎兔的比例。

猎鹿者的适应度: 猎兔者的适应度: 平均适应度:

猎鹿者的动态:

固定点分析:

  • (全猎兔)
  • (全猎鹿)
  • 满足 ,解得

稳定性分析:

  • :不稳定(如果有一个小比例的猎鹿者,其适应度 ,将被淘汰)
  • :不稳定(猎鹿者入侵后,适应度
  • :不稳定(接近此点时,偏离会导致向某一方演化)

结果:动态将收敛到 (全猎兔)——这是风险占优均衡。

4.2.2 复制者动态的性质

复制者动态具有以下重要性质:

  1. 保持单纯性:如果初始状态是纯策略,则动态保持在边界上
  2. 不变性:概率单纯形不变
  3. 选择压力:动态收敛速度取决于适应度差异
  4. 与ESS的关系:ESS是复制者动态的稳定不动点,但逆命题不成立

Lyapunov稳定性:如果一个策略组合是ESS,那么它不仅是纳什均衡,而且是复制者动态的渐近稳定点。

4.2.3 ESS与复制者动态的关系

定理:设 是演化稳定策略,则 是复制者动态的稳定不动点。

逆定理不成立:存在复制者动态的稳定不动点不是ESS。例如,某些不稳定均衡在复制者动态下可能是稳定的(虽然在ESS定义下不稳定)。

两种稳定性的区别

ESS强调对突变的抵抗——如果整个种群是 ,小比例的突变者无法入侵。

复制者动态的稳定性强调对微小扰动的恢复——如果种群状态被轻微扰动,动态会回归。

在某些博弈中,这两种稳定性不等价。

4.3 博弈动态的其他模型

4.3.1 最佳反应动态

最佳反应动态(Best Response Dynamics)假设每期有一个随机选择的玩家调整到最优反应策略。

过程

  1. 随机选择玩家
  2. 玩家 选择
  3. 其他人策略不变

收敛性:最佳反应动态不一定收敛——可能产生周期或混沌。

石头-剪刀-布的最佳反应动态

考虑石头-剪刀-布,假设某期状态为

选择剪刀玩家作为调整者:

  • 对手选择石头的概率为1/2
  • 剪刀在对手选择石头时获得最高收益
  • 玩家将调整到剪刀

这可能导致循环动态。

4.3.2 虚幻学习

虚幻学习(Fictitious Play)是一种基于历史学习的动态模型:

  1. 假设每个玩家相信对手的策略是历史平均频率
  2. 玩家选择最佳反应
  3. 更新历史平均

虚幻学习的收敛性

  • 某些博弈中虚幻学习收敛到纳什均衡
  • 但也存在收敛失败的例子

性别之战中的虚幻学习

设初始信念为 (列玩家选足球和芭蕾的概率相等)。

行玩家选择足球(因为

第一期后,行玩家选足球,列玩家观测并更新信念。

如果列玩家恰好选了足球,两人协调成功,信念向足球移动。

虚幻学习可能收敛到协调均衡,但也可能停留在混合状态。

4.3.3 复制者方程的几何解释

复制者动态可以在单纯形上可视化:

  • 单纯形的角点代表纯策略状态
  • 动态向量场在单纯形内部产生流动
  • 稳定不动点对应吸引子

这种几何视角帮助理解:

  • 吸引域的大小(初始状态在何区域会收敛到某均衡)
  • 动态路径的性质(单调、振荡、螺旋等)
  • 多重均衡下的选择机制

4.4 演化博弈的应用

4.4.1 生物进化中的应用

演化博弈论在生物学中有广泛应用:

  1. 动物争斗行为:解释为何某些物种采用”仪式化”争斗而非全力以赴
  2. 利他行为的演化:为何自然选择会保留利他基因?(亲缘选择、互惠利他)
  3. 性比率理论:解释为何大多数物种的性别比接近1:1
  4. 合作演化:为何在自私的基因竞争中,合作能够出现并维持?

互惠利他主义

互惠利他(Reciprocal Altruism)在重复博弈框架下可以解释:

  • 多次相遇的个体之间可以建立合作关系
  • “一报还一报”(Tit-for-Tat)策略在重复囚徒困境中具有演化优势
  • 这解释了无亲缘关系个体之间合作的出现

4.4.2 社会学习与文化演化

演化博弈论的思想可以类比到人类社会:

  1. 社会规范演化:社会规范通过模仿和学习在人群中传播
  2. 语言演化:语言使用习惯的演化符合复制者动态
  3. 技术采用:新技术通过社会网络传播,类似策略的复制过程
  4. 市场均衡:市场价格动态可以类比为策略动态

人工社会的实验经济学

在实验经济学中,研究者经常观察参与者在重复博弈中如何学习。

这些实验揭示了真实人类行为与理论预测之间的差距,为改进博弈论模型提供了经验基础。


五、合作博弈论与Shapley值

5.1 合作博弈的形式

5.1.1 联盟博弈的定义

合作博弈论(Cooperative Game Theory)研究玩家如何形成联盟、分享合作收益的问题。

联盟博弈(Coalitional Game)由 定义:

  • 是玩家集合
  • 是联盟值函数(Characteristic Function),满足

联盟的价值 表示联盟 可以获得的收益(或创造的额外价值)。这个值可以是:

  • 联盟成员共同获得的净产出
  • 联盟通过协调能够实现的收益
  • 联盟的谈判能力指标

三人合作灌溉

三位农夫可以独立或合作灌溉:

  • 单独耕作:各得1单位
  • 任意两人合作:总产出5单位
  • 三人合作:总产出10单位

联盟值函数:

  • (单人产出)
  • (双人合作产出)
  • (三人合作产出)

如何公平分配这10单位?

5.1.2 联盟博弈的类型

超可加博弈(Superadditive Game):对任意不交联盟

这意味着大联盟总是至少和分拆联盟的收益一样好。大多数有正外部性的博弈是超可加的。

凸博弈(Convex Game):对任意

凸博弈的特点是边际贡献递减——加入大联盟的边际贡献小于加入小联盟。凸博弈的核非空,且Shapley值在核中。

5.1.3 分配方案与解概念

合作博弈论的核心问题是:如何公平分配联盟的总收益

分配(Imputation):向量 满足:

  1. 效率性
  2. 个体理性:对每个

解概念(Solution Concept):将联盟博弈映射到分配方案的函数。

主要的解概念包括:

  1. (Core):所有不被任何联盟压制的分配
  2. Shapley值:基于边际贡献期望的公平分配
  3. 核仁(Nucleolus):最小化最大联盟”抱怨”的分配

5.2 核

5.2.1 核的定义

(Core)是一组不会被任何联盟压制的分配。

定义:分配 在核中,当且仅当不存在 使得:

直观理解:如果存在联盟 使得其成员通过偏离获得更高收益,他们有激励组成联盟。因此,不稳定的分配不在核中。

三人穿衣博弈的核

三人合作穿衣:每人单独穿衣得1,三人合作(互相帮助)得5。

联盟值:

  • (三人穿衣的产出仍是5)

效率性要求: 个体理性:

核的条件:对任意

因此核是:

这等价于每个 ,且任意两者之和

5.2.2 核的存在性

核不一定存在!这与纳什均衡不同——存在没有核的合作博弈。

衬衫-裤子博弈(没有核)

三个玩家:

  • 玩家1有衬衫(单独价值0,与他人合作各加1)
  • 玩家2有裤子(单独价值0,与他人合作各加1)
  • 玩家3什么都不有

联盟值:

核的条件:

意味着 … 实际上无解。

核为空!

5.2.3 核与纳什均衡的联系

核与纳什均衡有深刻联系:

  • 两人博弈中,核和纳什均衡等价
  • n人合作博弈中,核是”团体理性”的纳什均衡

社会计划者的视角:核要求联盟稳定性(团体理性),而纳什均衡要求个体稳定性。两者结合产生更强的不稳定约束。

5.3 Shapley值

5.3.1 Shapley值的定义

Shapley值 是玩家 在联盟博弈 中的”公平”收益分配:

其中:

  • 是联盟 中玩家的排列数
  • 之后玩家的排列数
  • 是所有可能的排列数
  • 是玩家 加入联盟 时的边际贡献

直观解释:Shapley值是玩家加入联盟时边际贡献的期望值,按所有可能的联盟形成顺序平均。

Shapley值的计算

三人穿衣博弈:

玩家1的Shapley值:

联盟顺序S边际贡献
1,2,3{2}154
1,3,2{3}154
2,1,3{2}154
2,3,1{2,3}550
3,1,2{3}154
3,2,1{2,3}550

玩家1出现在位置2(排在一位玩家之后)的概率是 ,出现在位置3(排在两位玩家之后)的概率是

类似地,

验证:

… 等等,这里有误。让我们重新计算。

重新分析穿衣博弈:

  • (三人穿衣总产出)
  • 但 Shapley 值是分配总价值,不是总产出减去成本

如果三人穿衣的净价值是5,那么 Shapley 值应该满足

设单人穿衣产出为1(但没有合作),双人穿衣产出为5,三人穿衣产出为5

此时 Shapley 值可能需要重新设定

5.3.2 Shapley值的公理化特征

Shapley值是满足以下公理的唯一分配方案:

公理1:效率性(Efficiency)

总分配等于联盟的总价值。

公理2:对称性(Symmetry) 若玩家 对所有联盟 有相同边际贡献,即 对所有 ,则

等价贡献的参与者应获得等价分配。

公理3:虚拟玩家公理(Dummy Player Axiom) 若 对所有包含 成立(即 不增加任何联盟的价值),则

没有贡献的玩家不应获得分配。

公理4:可加性(Additivity) 对任意两个博弈

可加性意味着如果两个”同时进行”的博弈有联合收益,分配是可叠加的。

Shapley (1953) 证明了满足上述四条公理的分配方案唯一,即 Shapley 值。

5.3.3 Shapley值的性质

对称性:Shapley 值对对称玩家无差异 边际性:Shapley 值反映玩家的平均边际贡献 线性性:Shapley 映射是线性的

Shapley 值的计算简化

对于对称玩家(边际贡献函数对称),Shapley 值的计算可以简化。

若所有玩家对称,则

例如,在穿衣博弈中若三人产出相同,则每人得

5.4 核仁与夏普利值的比较

5.4.1 核仁

核仁(Nucleolus)是另一种解概念,通过最小化联盟的”最大抱怨”来选择分配。

为分配,定义联盟 的”过度”(excess):

过度为负表示联盟感觉分配不公(得到少于应得),为正表示联盟得到超过其价值(可能不可行)。

核仁定义为最小化最大过度的分配:

性质

  • 核仁存在且唯一
  • 若核非空,核仁在核中
  • 核仁满足对称性、个体理性等性质

5.4.2 Shapley值 vs 核仁

特征Shapley值核仁
唯一性始终唯一始终唯一
存在性始终存在始终存在
公理化边际贡献公平最小化联盟抱怨
计算复杂度多项式时间可能指数时间
稳定性不一定在核中若核非空则在其中

穿衣博弈的两种解

穿衣博弈:

Shapley 值:每人

核:满足

核仁:对称性要求

两种解概念产生相同的对称分配。


六、机制设计

6.1 机制设计的基本框架

6.1.1 什么是机制设计

机制设计(Mechanism Design)是博弈论的”逆向工程”:不是分析给定规则下的博弈结果,而是从期望的结果出发,反向设计规则(机制),使理性个体在追求私利时自然实现设计者目标。

核心问题:

  • 如何设计规则使”个体理性”与”社会最优”一致?
  • 在信息不对称下如何设计激励?
  • 什么样的结果可以”可执行”?

机制设计广泛应用于:

  • 拍卖理论
  • 公共品供给
  • 政府采购
  • 市场设计
  • 互联网平台

6.1.2 基本设定

环境(Environment): 表示外生状态,包括:

  • 玩家的类型(偏好、技能、私有价值等)
  • 可能的状态变量

社会选择函数 将环境映射到社会结果(物品分配、资源配置等)。

机制(Mechanism):由行动空间 和结果函数 组成。

机制指定:

  • 玩家可以采取什么行动
  • 给定行动组合产生什么结果

直接机制要求玩家报告自己的类型(或其他相关信息)。

单物品拍卖

拍卖是一个机制:

  • 投标者提交投标
  • 拍卖规则决定获胜者和支付

Vickrey拍卖(次价拍卖)的规则:

  • 最高投标者获胜
  • 支付第二高投标额

6.1.3 激励相容

激励相容(Incentive Compatibility, IC)是机制设计的核心概念。

占优策略激励相容(Dominant Strategy IC):

即,无论其他人如何报告,说实话对每个玩家都是占优策略。

贝叶斯纳什激励相容(Bayesian Nash IC):

在贝叶斯框架下,激励相容要求实话是给定其他人报告的期望效用下的最优反应。

IC的类型选择

占优策略IC是最强的激励相容概念——说真话是无论他人如何都最优的。

贝叶斯纳什IC较弱——说真话是期望意义下的最优,但可能存在某些其他人报告时谎报更优。

占优策略IC具有更强的鲁棒性(不依赖对他人类型的假设),但可能需要更强的信息条件或产生更低的社会福利。

6.1.4 个体理性

个体理性(Individual Rationality, IR)保证玩家愿意参与机制。

参与约束:玩家参与机制的效用不低于不参与(保留效用)的效用。

对于直接机制:

其中 是玩家的保留效用。

强个体理性(Strong IR): 对所有

6.2 显示原理与VCG机制

6.2.1 显示原理

显示原理(Revelation Principle)由Myerson(1979)提出,是机制设计的基石。

定理(显示原理): 如果存在任何机制(可能间接)使理性玩家在均衡中报告 ,那么存在一个直接机制使说实话 是占优策略均衡,并产生相同的结果。

含义

  • 我们可以将搜索限制在”说实话是均衡”的直接机制上
  • 不失一般性,我们可以假设机制要求玩家报告真实类型
  • 这大大简化了机制设计问题

6.2.2 VCG机制

VCG机制(Vickrey-Clarke-Groves Mechanism)是对一般社会选择函数的激励相容机制。

对于资源分配问题,VCG支付为:

其中 是机制选择的结果(最大化报告类型的总价值)。

VCG的性质

  1. 强激励相容:说实话是占优策略
  2. 帕累托有效性:给定报告,结果是有效率的
  3. 个体理性:支付非负(至少不需付钱)

VCG在单物品拍卖中的应用

单物品拍卖,物品对每个人的价值为 (类型就是价值)。

VCG机制要求:

  • 选择获胜者:最大化 ,即分配给最高价值者
  • 支付:获胜者 支付第二高价值(因为

这正是 Vickrey 拍卖!

6.2.3 VCG机制的直觉

VCG支付的经济解释:

  • 支付等于 对他人的”边际贡献”(外部性)
  • 获得了多少价值,他人就损失了多少
  • 因此支付恰好等于 的”边际价值”

VCG有时被称为”边际贡献定价”。

VCG的局限性

  1. 计算复杂性:需要求解最优分配问题(可能NP-hard)
  2. 外部性假设:假设玩家价值仅取决于结果,不考虑策略互动
  3. 单峰值假设:通常假设价值函数满足某些单调性
  4. 参与激励:可能需要外部补贴来保证个体理性

6.3 Vickrey拍卖的深入分析

6.3.1 Vickrey拍卖的完整描述

Vickrey拍卖(次价密封投标拍卖)的规则:

  1. 投标者密封提交投标
  2. 最高投标者获胜
  3. 获胜者支付第二高投标额(而非自己的投标额)

激励相容性证明

设投标者 的真实价值为 ,其他人的最高投标为

情况1

  • 说真话:投标 ,赢得物品,支付 ,净效用
  • 若谎报
    • :输掉物品,效用0
    • :仍赢得物品,支付不变 ,效用不变
  • 结论:说实话严格优于任何其他投标

情况2

  • 无论 多大,只要 就输掉物品
  • 效用恒为0
  • 结论:说实话不劣于谎报

因此,说实话是占优策略

Vickrey拍卖的"反直觉"性质

Vickrey证明了”说真话”是占优策略,这与直觉(人们会过度或过低投标)相反。

关键洞见:获胜者支付第二高价格,而非自己的价格,因此:

  • 高估自己的投标不会提高支付
  • 低估自己的投标可能失去获胜机会

激励结构鼓励投标者报告真实价值。

6.3.2 收入等价定理

收入等价定理(Revenue Equivalence Theorem):在一定条件下,所有满足IC和IR的拍卖机制产生相同的期望收入。

定理假设

  1. 投标者风险中性
  2. 投标者价值独立同分布
  3. 投标者私下知道自己的价值
  4. 支付取决于谁的投标最高

结论:若两种机制都满足IC且都让类型最低的投标者期望效用为0,则它们产生相同期望收入。

推论:Vickrey拍卖与其他满足条件的拍卖机制产生相同期望收入。

第一价格拍卖 vs 第二价格拍卖

第一价格拍卖:获胜者支付自己的投标

在第一价格拍卖中:

  • 真实价值为 的投标者应投标低于 (以保留信息租金)
  • 均衡策略是某种折扣形式

收入等价定理表明,在标准假设下,第一价格拍卖和Vickrey拍卖的期望收入相同。

但在实际中,收入可能因:

  • 风险厌恶
  • 关联价值(common value)
  • 预算约束等因素而不同

6.3.3 公开竞标与密封投标

Vickrey拍卖允许投标者在不知道他人投标的情况下做出决策,这有优势:

  • 不需要协调投标时间
  • 减少”串通”的可能性
  • 投标决策可以同时做出

但也有局限:

  • 不能实时调整投标
  • 在某些情境下,公开竞标可能产生更好的价格发现

6.4 机制设计的其他应用

6.4.1 匹配市场

稳定匹配(Stable Matching)是机制设计的重要应用。

问题设定

  • 医院与医学生进行双向匹配
  • 医院和学生各有偏好
  • 目标:找到一个稳定匹配——没有医院-学生对彼此的偏好超过当前匹配

Gale-Shapley算法

  1. 医院向最偏好的学生发出邀请
  2. 被多个医院邀请的学生接受最偏好的,拒绝其他
  3. 被拒绝的医院向次偏好的学生发出邀请
  4. 重复直到所有邀请被接受或所有医院已联系所有学生

性质

  • 算法终止于稳定匹配
  • 结果对提议方(医院)是最优的
  • 是策略proof的——医院不能通过谎报偏好获得更好的结果

住院医匹配

NRMP(美国住院医师匹配计划)使用Gale-Shapley算法的变体。

该机制保证:

  • 学生策略性地报告偏好不会更好(学生对机制诚实是占优策略)
  • 医院需要策略性地报告偏好以获得最优结果

6.4.2 广告拍卖

现代互联网广告平台使用拍卖机制分配广告位。

广义第二价格拍卖(Generalized Second Price, GSP):

  • 广告位按质量得分排序
  • 广告主为每次点击投标
  • 获胜者支付:使其广告位低于下一个广告位所需的最低投标

VCG在广告拍卖中的应用

  • Google AdWords使用VCG变体
  • Facebook广告拍卖考虑广告主价值和用户体验

6.4.3 区块链与代币经济学

去中心化系统中的激励机制设计:

  • 比特币的Proof of Work
  • 以太坊的Proof of Stake
  • DAO治理代币分配

这些系统需要激励相容的机制来保证:

  • 矿工/验证者诚实工作
  • 网络安全
  • 公平的资源分配

6.5 机制设计的前沿议题

6.5.1 信息设计

信息设计(Information Design / Persuasion)研究如何设计信息结构以引导预期结果。

信号博弈:sender选择信号,receiver收到信号后采取行动。

  • 贝叶斯说服问题
  • 信息设计的”推”vs”拉”

信息设计的重要性

在许多情境中,机制设计者可以控制:

  • 参与者获得什么信息
  • 信息如何被传递
  • 何时披露信息

良好的信息设计可以显著改善社会福利。

6.5.2 鲁棒机制设计

鲁棒机制设计(Robust Mechanism Design)研究在:

  • 模型不确定
  • 参与者有限理性
  • 执行约束等情况下

如何设计稳健的机制。

6.5.3 动态机制设计

动态机制设计研究:

  • 多期交互中的激励问题
  • 长期合约设计
  • 重复拍卖

七、博弈论与人工智能

7.1 多智能体系统

7.1.1 多智能体博弈建模

在人工智能系统中,多智能体环境本质上是博弈。

合作多智能体系统

  • 多个智能体有共同目标
  • 需要协调行动
  • 问题:如何共享信息、分担任务

竞争多智能体系统

  • 智能体有冲突目标
  • 需要策略推理
  • 问题:如何预测对手、最大化己方收益

混合多智能体系统

  • 部分合作、部分竞争
  • 联盟形成与瓦解
  • 谈判与资源分配

7.1.2 MARL中的博弈论方法

多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)面临独特挑战:

  1. 非平稳性:其他智能体学习时,环境对单个智能体不再是静止的
  2. 信用分配:难以评估个体对团队成功的贡献
  3. 博弈结构:需要考虑策略互动

博弈论视角的解决方案

  • 将环境视为重复博弈
  • 纳什均衡作为收敛目标
  • 合作博弈论用于信用分配

团队博弈中的价值分解

价值分解网络(VDN)将团队价值函数分解为个体价值函数之和:

Shapley值可用于更精细的信用分配。

7.2 博弈论在算法中的应用

7.2.1 生成对抗网络

生成对抗网络(GAN)是博弈论与机器学习结合的经典案例。

GAN博弈结构

  • 生成器 :尝试生成”假”样本欺骗判别器
  • 判别器 :尝试区分真实样本和生成样本
  • 两人零和博弈

纳什均衡:当 学习到数据分布, 无法区分真假时,达到均衡。

训练挑战

  • 零和博弈可能导致训练不稳定
  • 模式崩溃(mode collapse)
  • 难以找到纳什均衡

GAN的训练动态

GAN训练可以被视为求解两人零和博弈的纳什均衡。

梯度下降在纳什均衡处可能不收敛——因为一个玩家的梯度下降可能导致另一个玩家的梯度上升。

7.2.2 对抗鲁棒性

对抗样本(Adversarial Examples)问题可以从博弈论角度分析:

  • 攻击者(Adversary):试图构造使分类器误分类的输入
  • 防御者(Defender):试图训练鲁棒分类器

Min-Max优化

这是对抗训练的数学形式。

7.2.3 推荐系统中的博弈论

推荐系统可以被建模为多方博弈:

  • 平台(mediator):设计匹配机制
  • 用户:选择商品/内容
  • 内容创作者:决定创作什么

机制设计问题

  • 如何设计激励使用户和创作者都满意
  • 如何实现信息茧房的打破
  • 如何平衡短期点击与长期满意度

7.3 算法博弈论

7.3.1 机制设计在算法中的应用

算法机制设计(Algorithmic Mechanism Design)研究:

  • 计算高效的激励相容机制
  • 近似比与激励相容的权衡
  • 组合拍卖的机制设计

在线广告

  • 实时竞价(RTB)系统
  • 展示广告拍卖
  • 搜索广告排序

联邦学习

  • 参与者贡献的度量
  • 公平激励分配
  • 防止搭便车

7.3.2 Price of Anarchy

无政府状态代价(Price of Anarchy, PoA)度量去中心化均衡与中央设计最优之间的效率差距。

定义

其中分子是社会最优,分母是纳什均衡中的最小社会福利。

结果

  • 在许多自私路由博弈中, 是有界的
  • Braess悖论说明添加资源可能降低整体效率
  • PoA帮助评估去中心化系统设计的优劣

路由博弈的PoA

网络路由可以建模为:

  • 用户自私选择最短路径
  • 均衡可能不是社会最优

当延迟函数是多项式时,PoA有明确界:

  • 线性延迟:
  • 二次延迟:
  • 一般多项式延迟: 随度数增长

7.3.3 区块链与共识机制

区块链系统中的博弈论:

  • Proof of Work:挖矿奖励的激励机制
  • Proof of Stake:验证者质押与惩罚机制
  • 委托代理:委托投票与代理激励机制

激励机制设计的目标:

  • 防止51%攻击
  • 保证诚实行为
  • 抑制搭便车

7.4 博弈论视角的AI安全

7.4.1 AI对齐问题

AI对齐(AI Alignment)可以视为多方博弈:

  • 人类:期望AI行为符合人类价值观
  • AI系统:被训练优化某个目标
  • 设计者:设计训练过程和目标

激励相容视角

  • 如何设计机制使AI”愿意”被对齐
  • 避免AI找到目标的”捷径”(奖励黑客)

奖励黑客与古德哈特定律

当一个指标成为目标时,它就不再是一个好指标(Goodhart’s Law)。

AI可能会找到”奖励黑客”——获得高奖励但不真正实现目标的方式。

这与博弈论中”不可信威胁”有相似性。

7.4.2 多智能体对齐

当多个AI系统交互时:

  • 如何保证它们合作而非竞争
  • 如何防止有害的联盟形成
  • 如何实现开放目标(open-source goals)

机制设计方法

  • 设计激励鼓励有益行为
  • 透明度要求促进信任
  • 审计机制防止偏离

八、习题与思考

8.1 基础练习

习题1:找出下列博弈的所有纯策略纳什均衡,并计算混合策略均衡:

LR
U(3, 2)(0, 4)
D(2, 1)(4, 3)

习题2:证明囚徒困境中,“坦白”是严格占优策略。

习题3:计算下列联盟博弈的Shapley值:

习题4:用逆向归纳法求解下列序贯博弈:

玩家1选择A或B
若玩家1选A,玩家2选C或D(收益:玩家1选A选C得(2,3),选A选D得(1,1))
若玩家1选B,玩家2选C或D(收益:玩家1选B选C得(3,1),选B选D得(0,0))

习题5:证明石头-剪刀-布的纳什均衡是等概率混合策略。

8.2 进阶思考

思考题1:纳什均衡的存在性依赖于哪些假设?当这些假设不满足时,会发生什么?

思考题2:比较ESS与纳什均衡。这两种均衡概念在描述”稳定状态”时有何不同?

思考题3:在什么意义上,Vickrey拍卖的”说真话是占优策略”是”反直觉”的?直觉应该是什么?

思考题4:Folk定理表明无限重复博弈的SPE结果空间很大。这是否意味着Folk定理”空洞化”了SPE的概念?

思考题5:在机制设计中,为什么需要”显示原理”?它的核心洞见是什么?

思考题6:博弈论如何帮助理解AI系统中的激励问题?

8.3 开放性问题

问题1:在演化博弈论中,复制者动态是描述实际演化过程的准确模型吗?还有什么其他可能的动态?

问题2:核不一定存在——这对合作博弈论意味着什么?如何处理没有核的博弈?

问题3:区块链系统中的激励机制设计是否能借鉴传统机制设计的理论?面临哪些新挑战?

问题4:在AI系统中,博弈论均衡是否总是”合理”的预测?如果不是,我们如何改进预测?


九、数学附录

9.1 角谷不动点定理的详细证明

定理(角谷不动点定理): 设 是非空、紧凸集, 是上半连续的多值映射,且对所有 是非空凸集。则存在 使得

证明思路

  1. 将多值映射转化为单值问题
  2. 使用Brouwer不动点定理
  3. 构造辅助函数

(详细证明涉及上半连续对应的图、闭包性质等,可参考泛函分析教材)

9.2 效用理论的公理基础

冯·诺依曼-摩根斯滕效用公理

  1. 完备性:对任意 ,要么 ,要么 (或两者)
  2. 传递性:若 ,则
  3. 连续性:若 ,则存在 使得
  4. 独立性:若 ,则对任意

在这些公理下,存在一个效用函数 使得 ,且 在概率混合下是线性的:

这为混合策略下的期望效用计算提供了基础。

9.3 动态规划的博弈论视角

在序贯博弈中,逆向归纳与动态规划有深刻联系:

值函数

这类似于Bellman方程的”反向”形式。

最优策略:玩家在每个信息集上选择最大化后续值函数的行动。


参考文献

  1. Nash, J. (1950). Equilibrium Points in N-Person Games. Proceedings of the National Academy of Sciences, 36(1), 48-49.
  2. Nash, J. (1951). Non-Cooperative Games. Annals of Mathematics, 54(2), 286-295.
  3. von Neumann, J., & Morgenstern, O. (1944). Theory of Games and Economic Behavior. Princeton University Press.
  4. Osborne, M. J., & Rubinstein, A. (1994). A Course in Game Theory. MIT Press.
  5. Myerson, R. B. (1991). Game Theory: Analysis of Conflict. Harvard University Press.
  6. Fudenberg, D., & Tirole, J. (1991). Game Theory. MIT Press.
  7. Shapley, L. S. (1953). A Value for n-Person Games. Contributions to the Theory of Games, 2(28), 307-317.
  8. Vickrey, W. (1961). Counterspeculation, Auctions, and Competitive Sealed Tenders. Journal of Finance, 16(1), 8-37.
  9. Maynard Smith, J., & Price, G. R. (1973). The Logic of Animal Conflict. Nature, 246, 15-18.
  10. Kreps, D. M., & Wilson, R. (1982). Sequential Equilibria. Econometrica, 50(4), 863-894.
  11. Myerson, R. B. (1979). Incentive Compatibility and the Bargaining Problem. Econometrica, 47(1), 61-73.
  12. Gale, D., & Shapley, L. S. (1962). College Admissions and the Stability of Marriage. American Mathematical Monthly, 69(1), 9-15.
  13. Rubinstein, A. (1982). Perfect Equilibrium in a Bargaining Model. Econometrica, 50(1), 97-109.

相关文档