带熵博弈的局势分析学与计策理论(上册)
2012-6
科学出版社
姜殿玉
《带熵博弈的局势分析学与计策理论(上册)》在传统博弈系统上引进信息熵、极大熵和极小熵原理,建立了带熵博弈论及其应用系统.并研究了两个专题:一是各局中人都恰有两个行动的博弈中各种均衡及边际分布是完全混合Nash 均衡的相关均衡(称可边际相关均衡),以及信息熵最小的可边际相关均衡(称为最优局势分布)的求解法及其应用,二是将带熵博弈系统扩展到包含决策系统和经典(带熵)博弈系统作为子系统的公理化谋略博弈系统,研究了这种谋略博弈系统的性质和算法等.用《带熵博弈的局势分析学与计策理论(上册)》的理论和方法可解决传统博弈论无法解决的问题,可得到由传统博弈论无法得到的更优美、精确、与实际更吻合的结果.《带熵博弈的局势分析学与计策理论(上册)》可供应用数学、经济学、系统科学与系统工程、运筹学、信息与控制、管理科学与工程等专业的研究生、专家学者以及相关领域的研究人员研究与参考.
前言第0章 导论0.1 经典博弈系统的不完备性0.2 本书的主要内容O.3 一些初步应用及研究价值第0章 参考文献第一部分 经典博弈论第1章 经典矩阵博弈1.1 经典矩阵博弈的概念1.1.1 基本成分1.1.2 基本公理1.1.3 矩阵博弈1.2 vonNeumann博弈论基本定理1.3 矩阵博弈的良策1.4 关于博弈解的几个定理1.5 策略的优超关系及博弈的线性规划解法1.6 几个特殊矩阵博弈的解法1.6.1 2×2矩阵博弈的求解1.6.2 2×n矩阵博弈的求解1.6.3 m×2矩阵博弈的求解第2章 经典连续博弈2.1 连续博弈的基本概念2.2 连续博弈的基本定理2.3 连续博弈的解集第3章 经典策略博弈3.1 n人策略博弈及其纯:Nash均衡3.2 n人正规博弈的完全混合Nash均衡3.3 2×2双矩阵博弈的求解3.4 策略博弈Nash均衡的不唯一性和不可交换性3.4.1 聚点均衡论3.4.2 廉价磋商论(cheat)talk)第1—3章 参考文献第二部分 零和博弈的判断理论第4章 矩阵博弈上的判断理论4.1 判断块4.1.1 预备结果4.1.2 分块的外面、虚面和实面及其维数4.1.3 实面的存在性4.1.4 分块的相对边界的构造4.1.5 有限凸划分下分块的I,ebesgue可测性4.1.6 判断块及其凸性4.2 判断下的良策集4.3 博弈解与判断的关系以及其他问题第5章 连续博弈上的判断理论5.1 判断块5.2 判断下的良策集5.3 博弈解与判断间的关系5.4 D(0,1)的扩张闭凸集的紧策略集的相对最优紧凸子集第4—5章 参考文献第三部分 信息熵理论第6章 离散型随机变量的信息熵理论6.1 有限博弈混合策略或判断的不明确性与熵6.2 熵的性质6.3 联合熵及其性质第7章 有限闭区间上连续型随机变量的信息熵7.1 连续型随机变量的概率的积分表示7.2 闭区间上连续型随机变量的相对熵和绝对熵7.3 闭区间上连续型随机变量的熵不等式第8章 极大熵和极小熵原理8.1 最可能先验概率分布——极大熵原理8.2 极小炳原理第6—8章 参考文献第四部分 带熵博弈论第9章 矩阵博弈的Neumann.Shannon博弈解9.1 矩阵博弈的:Neumann—Sha:nnc)n博弈解9.2 等均值矩阵博弈第10章 连续博弈的极大熵策略密度博弈解10.1 概率密度函数空间(或策略密度空间)的凸紧性10.2 连续博弈的良策密度空间及其凸紧性10.3 M-极大熵策略密度博弈解集10.4 极大熵策略密度的算法10.5 一类带M-极大熵策略密度博弈解的连续博弈第11章 n人条件博弈的期望均衡及其应用11.1 n人条件博弈的期望均衡11.2 应用例子11.3 n人有限博弈的期望均衡11.4 在环境生态管理上的应用11.5 自然条件下同级消费者的平均规模附录公共资源的悲剧第12章 有限带熵理性博弈的纯Nash均衡集和期望均衡集12.1 投影、截面和子族分解定理12.2 N-M稳定集12.3 极大稳定矩形12.4 L-博弈12.5 理想完全静态博弈12.6 理想完全静态博弈中两个相交且不等的极大稳定矩形的关12.7 有聚点博弈12.8 完全静态博弈及其期望均衡12.9 几个经典例子的进一步研究12.10 正则博弈的N-M稳定集及其唯一存在定理第13章 一些常见双矩阵博弈的混合Nash均衡和期望均衡分析13.1 双矩阵博弈的混合Nash均衡与期望均衡13.2 小偷守卫博弈13.3 穷人-富人巡逻博弈13.4 查税-逃税博弈13.5 军力调拨博弈与正当防卫无罪的带熵博弈论根据13.6 一类双矩阵博弈及其在生态环境科学中的应用13.6.1 问题的提出13.6.2 当x为已知时几种思想下的结论13.6.3 当x>0为未知时的博弈结论13.6.4 在生态环境科学上的应用第9-13章 参考文献名词索引ABSTRACTCONTENTS
第0章 导论 0.1经典博弈系统的不完备性 我们首先来回顾一下第一次数学危机的诱因。古希腊著名的Pythagoras学派一方面认为一切数都是整数或者两个整数之比,也就是现在的“有理数”;另一方面他们已经发现了著名的Pythagoras定理,也就是我们所说的“勾股定理”:直角三角形斜边的平方等于两个直角边的平方和。然而Pythagoras的得意门生Hippasus却发现:单位直角边的等腰直角三角形的斜边却不能表示为两个整数之比。正像哥白尼由于发现日内心说而被地心说信徒活活烧死一样,由于Hippasus向Pythagoras学派提出了挑战而被该学派的信徒们抛入大海,然而这却导致了第一次数学危机。最终历史裁定了Pythagoras学派的错误,人们通过引进“无理数”的概念,而形成有理数集与无理数集之并集是实数集的新的观念。这次危机使得数学前进了一大步。从上述例子可以看出,当某个系统被接受以后,人们往往认为这种系统是完备的,什么对象都属于这个系统。正像Pythagoras学派认为什么数都是两个整数之比一样!现在列举博弈论方面的几个例子。(1)摸球博弈危机:对矩阵博弈的混合良策,ThomasL.C.在文献[1]中建议通过用随机摸球法来指挥部队前进还是撤退。但实际上没有一个军事指挥官不通过侦查来判断对手的行动,而坐在指挥所里用摸球和掷币的方法来指挥军事行动。为什么由经典博弈论建议的方法与实际情况不相符呢?我们的理论回答了这个问题:这样的军事博弈原本不在经典博弈论体系之内,可是ThomasL。C。却硬把它放在经典博弈系统中,因而解释不通!正如《孙子兵法》所说:“知彼知己,百战不殆。不知彼而知己,一胜一负。不知彼不知己,每战必殆。”这与Pythagoras悖论同病!我们通过在经典博弈系统上加入判断成分,使之形成扩展了的新系统,则上述军事和商战博弈就在我们的系统之内。如同通过将全体“无理数”添加到“有理数”集合中,从而扩大了数系,使得单位直角边的等腰直角三角形的斜边长度落在新的数系中 (2)性别战危机:有一对新婚夫妇打算一起到外面度过一个难忘的周末。丈夫喜欢看足球赛,妻子喜欢看芭蕾舞且夫妇更愿意在一起是他们的共同知识。如果不许商量并让他们同时各自做出决策,究竟是去某足球场还是去某芭蕾舞剧场,他们 应该怎样决策呢?众所周知这个博弈有两个“纯Nash均衡”:一起看球或一起看芭蕾舞。但究竟会实现哪一个纯Nash均衡呢?很多人提出了不同的方法。第一种观点是通过两人商量用抓阄的方法把原来的非合作博弈转化成合作博弈[1],但这违背原假定(不许商量)。第二种观点[2]是“实际生活中,也许是这次看足球,下次看芭蕾舞,如此循环,形成一种默契。这里还有‘先动优势’,比如说,若男的买票,两人就会出现在足球场,若女的买票,两人就会出现在芭蕾舞厅”。但是,前者不是一次性博弈,后者的假定多出了“先动优势”且谁买票也必须是双方的共同知识――超出了博弈结构中的共同知识所要求的范围。第三种观点是[1]没有理由认为只有某个平衡偶①才是博弈的结果。可能结果也许是丈夫去芭蕾舞厅,妻子去足球场。就像美国小说家亨利的小说《圣诞礼物》中的丈夫用卖了自己的金表的钱给妻子买了一把精致的发梳;而妻子却用卖掉秀发而得到的钱给丈夫买了一条金表链。由此可见,这些博弈结果大都来自于非数理性的“想当然”,随心所欲地添加条件,因此其逻辑性很不严密。我们的理论却对此给出了数学上严格、结果上圆满的解答:在经典博弈系统中,这个问题是无解的;而如果将极大熵原理作为全体局中人的共同知识加入到经典博弈系统中,而形成新的博弈系统,那么这个问题就有解了:两人在完全不知道对方的决策信息的情况下,只能是丈夫去足球场,妻子去芭蕾舞剧场。这不但从数学上证明了文献[1]中定性地提到的“没有理由认为只有某个平衡偶①才是博弈的结果”,而且也避免了发梳与金表链类悲剧发生的可能性。如果他们知道一些相关信息,他们就要么双双出现在足球场,要么双双出现在芭蕾舞剧场(见本书例12.9.2)。如同单位直角边的等腰直角三角形的斜边长度是多少在“有理数系”中无解;而在“实数系”中则有解一样!再考虑两个人分一块蛋糕的博弈[2],每个人独立地提出自己要求的份额。如果两人所要求的份额之和不超过这块蛋糕,则每人得到他所要的份额,否则因无法满足他们的要求,所以谁也得不到什么。如果将这个博弈放在经典体系中,那么这两个人无法实现两人所要份额恰是这块蛋糕数的Nash均衡。即在经典博弈系统中,此问题无解;但若将极大熵原理作为共同知识加入到经典系统中,从而形成新的博弈系统,则此博弈就有解了――每人都要蛋糕数的一半。这样的例子比比皆是,不再赘述了。这种例子也说明了经典博弈论假定了局中人具有传统的理性和确定的知识,所以经典博弈体系中的局中人能够解决的问题或者形成的均衡是一定的。但将极大熵原理作为共同知识加入到传统博弈体系中,就会使得局中人都变得比原来聪明。知识在现代博弈论中发挥着越来越重要的作用。诺贝尔经济学奖得主、著名博弈论专家Aumann教授通过公理化方法系统地研究了知识的语法结构和语义结 ①即纯Nash均衡。――引者 0。1经典博弈系统的不完备性3 构[3.4],建立了知识的公理化体系,从而使得这个问题的研究形成一股新的潮流。读书可增长知识,人的知识多了能够解决问题或者提高解决问题的方案的质量的可能性就大了。因此,作为理论上的“副产品”,我们也从数学上证明了“知识使人聪明”、“知识就是力量”等千古名言。(3)“混合策略的不明确性”不明确:文献[1]指出:对于零和博弈,使用混合策略可以增加迷惑对手的不明确性。因此局中人所使用的混合最优策略的不明确性越大越好。诺贝尔经济学奖得主ThomasC。Schelling教授在他的关于博弈论的代表作[5]第175页中说:“在纯粹冲突博弈论也就是零和博弈论中,随机策略扮演着核心角色。可以不夸张地说,随机行为这一因素在过去的十到十五年期间里一直是博弈论研究中最为核心的问题。在二人博弈中,随机化的实质是为了回避对手掌握自己的行为规律,防止对手通过分析自己的行为来掌握自己的行为规律,最终达到迷惑对手的目的。”可见顶级博弈论专家们一直都在关注着“混合策略的不明确性”及其大小的问题,可是“混合策略的不明确性”的数学定义究竟是什么?究竟如何测度它?在经典博弈论中却没有这种成分。在我们的理论中,将把信息论之父Shannon的信息熵[6]概念引进经典博弈系统,从而构成新的博弈系统――带熵博弈论,就严格数学化地、圆满地解决了上述问题。(4)“智猪博弈”[7]直观现象的严格数学化研究:猪圈里有一大一小两头猪。猪圈的一边有个踏板,另一边有一个猪食槽。每踏一次踏板,就有一定数量的猪食流进食槽。如果一头猪去踏踏板,那么另一头猪就会等在食槽边抢先吃到猪食,而去踏踏板的猪反而后吃到猪食。一般的博弈论教科书中分析这个问题都比较肤浅。仅仅给出大小猪踏一次踏板流入食槽的猪食数量并对踏踏板所付出的成本给出固定的数量。例如在[2]中,有这样两种模型:(4.1)多劳不多得模型[2](17.18):踏一下踏板,10个单位的猪食进槽,但需要支出2个单位的成本。若大猪先到,大猪吃到9个单位,小猪只能吃到1个单位;若小猪先到,大猪吃到6个单位,小猪吃到4个单位;若两猪同时到,大猪吃到7个单位,小猪吃到3个单位。此时的最优策略是大猪踏,小猪等,各得4个单位。(4.2)多劳反而少得模型[2](60.61):踏一下踏板,8个单位的猪食进槽,但需要支出2个单位的成本。若大猪先到,大猪吃到7个单位,小猪只能吃到1个单位;若小猪先到,大猪和小猪各吃到4个单位;若两猪同时到,大猪吃到5个单位,小猪吃到3个单位。此时的最优策略是大猪踏,小猪等,大猪吃到4个单位,小猪吃到4个单位。下面再引用一篇网络上广泛流传的匿名文章:“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的食物数量和踏板与投食口之间的距离。如果改变一下核心指标,猪圈里还会出现同样的“小猪躺着大猪跑”的现象吗?试试看。改变方案一:减量方案。投食仅为原来的一半分量。结果大猪小猪都不去踏踏板了。小猪去踏,大猪将会把食物吃完;大猪去踏,小猪将也会把食物吃完。谁去踏踏板,就意味着为对方贡献食物,所以谁也不会有踏踏板的动力了。如果目的是想让猪们去多踏踏板,这个游戏规则的设计显然是失败的。改变方案二:增量方案。投食为原来的一倍分量。结果是大猪、小猪都会去踏踏板。谁想吃,谁就会去踏踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在“共产主义”社会,所以竞争意识不会很强。对于游戏规则的设计者来说,这个规则的成本相当高(每次提供双倍的食物);因而竞争不激烈,想让猪们去多踏踏板的效果并不好。改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近,结果多劳多得,小猪和大猪都会拼命地抢着踏踏板。对于游戏设计者,这是一个最好的方案,成本不高,但收获最大。原版的“智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。但是对于社会而言,因为小猪未能参与竞争,小猪搭便车时的社会资源配置并不是最佳状态。为使资源最有效配置,规则的设计者是不愿意看见有人搭便车的,政府如此,公司的老板也是如此。而能否完全杜绝“搭便车”现象,就要看游戏规则的核心指标设置是否合适了。比如,公司的奖励力度大,有持股,有期权,公司职员各个都成了百万富翁,成本高不说,员工的积极性也不一定很高。这相当于“智猪博弈”增量方案所描述的情形。但是如果奖励力度不大,而且见者有份(不劳动的“小猪”也有),一度十分努力的大猪也不会有动力了――就像“智猪博弈”减量方案所描述的情形。最好的激励机制就像改变方案三――减量加移位的办法,奖励并非人人有份,而是直接针对个人(如业务按比例提成),既节约了成本(对公司而言),又消除了“搭便车”现象,能实现有效的激励。然而,以上述网络文章为代表的分析属于定性和直观分析。也就是说,这种分析没有揭示出这个博弈的数量关系。例如,在分别给定大猪踏小猪等待、小猪踏大猪等待、两猪都踏和两猪都等待时,大猪和小猪各自吃到的猪食数量和付出的成本数的情况下,上述三种情况出现的概率究竟有多大?当上述给定量中的某些发生变化时,对上面概率的影响如何?如果给定上述概率,应该如何设计上述数量化的激励指标?这是传统博弈论无法解决的问题。将信息熵和极小熵与极大熵原理作为局中人的共同知识加入到传统博弈论系统上便可得到我们新的博弈系统,再基于Aumann的相关均衡理论,即可建立起一 0.1经典博弈系统的不完备性5 门所谓的局势分析学,上述问题都可以使用局势分析学加以解决。因此局势分析学既可以数量化地应用于经济学中的博弈激励设计,又可以预测博弈各个局势出现的概率。同样,“重金之下必有勇夫”是中国的一句格言,然而,在经典博弈论中却无法证明它,但是应用局势分析学就可以轻而易举地给出其数学证明。(5)博弈论与东方谋略:其实,博弈论早在公元前一千多年就在我国诞生了,例如姜子牙的军事谋略等。春秋时代的《孙子兵法》更久负盛名,该书在国外也具有很大的影响,早就有日、英、法、德、俄等至少14种译作流传于世。第一次世界大战以后,德皇威廉二世对未早日读到《孙子兵法》而后悔不迭。日本把孙武推崇为“百世兵家之师”并把《孙子兵法》誉为“兵家圣典”(见文献[8]),而且将其有效地运用于现代经济管理的各条渠道,开创了“兵法经营学派”(见文献[9])。在我国著名的兵法谋略小说《三国演义》中,诸葛亮活活气死博弈高手周瑜,周瑜临死时仰天长叹“既生瑜何生亮!”,也使得博弈高手司马懿惊叹其为盖世奇才。事实上,诸葛亮的草船借箭、借东风等奇计使得周瑜折服。面对司马懿15万大兵压境诸葛亮设下的空城计使得司马懿错失良机。正如诸葛亮所说:“为将而不通天文,不识地利,不知奇门,不晓阴阳,不看阵图,不明兵势,是庸才也。”周瑜设反间计使蒋干传书于曹操,借曹操之手杀了水军都督蔡瑁、张允;施苦肉计于黄盖,以坚定曹操相信黄盖投曹等计策,自以为无人知晓,但却逃不脱诸葛亮的一双慧眼。即诸葛亮不但善于算人,而且还善于算人之所算。上述故事说明了东方谋略化博弈中,不但有局中人,而且还有局外人(天气、地理环境、市场情况等):其中局中人在博弈中不但有策略,而且还涉及其利益;局外人只有策略,而不涉及其利益。传统博弈论中没有判断成分,而谋略化博弈论不但有每个局中人关于其他局中人的局势判断(一级判断),而且还有其他局中人关于局势判断的判断。直到更高级的判断。由此可见我们的谋略化博弈系统是在传统博弈系统基础上加上熵的知识(包括极大熵和极小熵原理)、局外人、高级判断系统等等而形成的更高级的博弈系统。当把上述所加入的系统限制为空集时,我们的系统就退化为经典博弈系统。因此我们的新系统是比传统博弈系统更大的系统,前者是后者的升级版本,因而两者之间是无矛盾的、兼容的。由上可知,严密的科学系统都如同数系的发展一样。对于一定的科学系统,必然存在着某种对象不在这个系统之内,这样就需要通过扩大系统,而将这一类对象包含在其中。因此科学的发展将永远没有止境。甚至根据哥德尔不完备定理的哲学意义,对于任何一种相容的科学系统,都存在着某种对象,既不能由此系统推出,也不能由此系统得到排斥。0.2本书的主要内容 第一部分研究本书涉及的经典博弈论的内容。其结果大多是作者自己自成体系的推演。第1章研究矩阵博弈理论,第2章研究连续博弈理论,第3章研究经典策略博弈理论。通过这一部的阅读,初学博弈论的读者无需阅读其他书籍,即可往下阅读本书。特别是第3章给出的一些经典二人双行动(每个局中人都恰有两个行动)的博弈,在后面很多地方都重复出现。第二部分研究二人对抗博弈(即零和博弈)中的判断问题,即局中人对于对手所用策略的概率的判断问题。这部将为以后的博弈上的信息熵和博弈的计策理论打下基础。其中第4章是关于矩阵博弈的,第5章是关于连续博弈的。第三部分研究与本书有密切关系且是本书基础理论的信息熵理论。其中第6章研究了离散型随机变量的信息熵问题,这里的基本内容来源于传统信息论中的熵论文献,包括熵的概念引进与性质。第7章研究连续型随机变量的信息熵。作者做的主要工作是用非标准分析的思想把无穷大概念由一个“点”扩展为无限集合(其中有各种各样的无穷多个“无穷大”),并把定义在有限闭区间内的离散型随机变量的概率用积分形式来表示。从某种程度上将与定义在有限闭区间上的连续型随机变量的概率统一起来。进而找到有限闭区间上连续型随机变量的相对熵和绝对熵的最小值。第8章证明了离散型随机变量的极大熵原理,并提出了极小熵原理。第四部分是“带熵博弈论”的基本理论。其中第9章把信息熵引进矩阵博弈,把经典博弈解的概念加以限制,形成使信息熵达到最大的博弈解。这种新的博弈解保持了原有博弈解的全部性质。第10章把经典连续博弈的结构作了改进,形成了一种所谓策略密度博弈解。在此结构上讨论绝对熵或相对熵最大的博弈解。第11章研究一种新的博弈――条件博弈及其上的一种特殊均衡――期望均衡,把它用于有限博弈并给出了一些应用例子。第12章研究正规博弈的纯Nash均衡集和期望均衡集的实现性问题,并将合作博弈中由vonNeumannJ。和O。Morgenstrn给出的合作博弈分配的稳定集的概念平移到非合作博弈的纯Nash均衡集合中来,得到有关N-M稳定集的存在唯一性定理。第13章利用期望均衡和极小熵原理研究了二人双行动博弈的均衡分析问题。其中包括小偷,守卫博弈、穷人,富人巡逻博弈、查税,逃税博弈和军力调拨博弈与正当防卫无罪的带熵博弈论根据等问题,进一步研究了一类2×2双矩阵博弈及其在生态环境科学中的应用。第五部分作为带熵博弈论的一种特殊情形,研究双行动(即每个局中人都恰有两个行动)带熵博弈的局势分析学。在第14章中,为了便于统一地更为简便地研究这类博弈,我们将一般的n人双行动博弈中局中人的两个行动做0-1编号,使得博弈的局势都表示为长度为n的二进制数,将这种博弈分为显对称、隐对称和非对……