?

博弈論：社會科學的物理學*

2024-01-03 12:26劉軼群劉敬偉

九江學院學報(自然科學版) 2023年4期

關鍵詞：足球賽納什博弈論

羅君劉軼群劉敬偉

(1茅臺學院工商管理系貴州仁懷 564507；2維多利亞大學古斯塔夫森商學院加拿大維多利亞 V8W2Y2)

1研究背景

博弈論，是研究個體間策略性互動行為的理論，又稱互動決策理論.由于社會是由個體(個人或組織)組成的，因此，博弈論已經深入到了社會科學的幾乎所有領域，又因其數理分析的嚴密性，被認為是社會科學的物理學[1].

1944年，由馮·諾依曼和摩根斯坦合著的《博弈論與經濟行為》(Theory of Game and Economic Behavioer，by John von Neumann and Oskar Morgenstern，1944)一書的出版，標志著博弈理論的初步形成.博弈論誕生的初期，主要以普林斯頓大學為研究中心，并逐漸擴散開來.博弈論的研究被分為兩大分支：非合作博弈(Non-cooperative Game)與合作博弈(Cooperative Game)，1980年代為其成長爆發期，1994年諾貝爾經濟學獎首次頒發給博弈論研究的奠基人約翰·納什(John F. Nash)、海薩尼(John C. Harsanyi)和澤爾騰(Jr. Reinhard Selten)，以表彰他們對非合作博弈均衡所做的開拓性貢獻.其中，納什的貢獻在于納什均衡(Nash Equilibrium)，海薩尼的貢獻在于不完全信息下的均衡性，澤爾騰則是對完美均衡(Perfect Equilibrium)作出了貢獻[2].截至2022年度，諾貝爾經濟學獎先后9次頒發給博弈論領域的學者，足見博弈論的魅力.

博弈論的主要研究領域有：①演化博弈論，主要源自梅納德·史密斯和普瑞斯發表在Nature上的“動物沖突的邏輯”(The Logic of Animal Conflict，J.Maynard Smith and G.R.Price，1973)一文；②行為博弈論(behaviroal game theory)，通過考察人類非理性因素，研究參與人的策略選擇問題，有實驗博弈(在實驗室進行的博弈)和實證博弈(在實際情景中進行的博弈；③算法博弈論，算法博弈論融合了計算科學與博弈理論，主要研究領域包括各種均衡的計算及復雜性問題、機制設計(包括在線拍賣、在線廣告)、計算社會選擇等；④組合博弈論(combinatorial game theory)主要研究具有完全信息的序貫博弈；⑤非貝葉斯博弈(non-bayesian games)，在放松傳統博弈理論的貝葉斯假設下，探討不確定性下的決策.

2 n人非合作博弈模型、解概念與范例

2.1模型

參與人i∈{1，2，…，n}有mi個行動策略，令si∈{1，2，…，mi}表示參與人i的選項，參與人i的支付(tradeoff)為ai(s1，s2，…，sn)，再令xi=(xi(1)，xi(2)，…，xi(mi))表示參與人i的策略分布(xi(·)非負且和為1)，亦即xi表示參與人i在其mi個行動策略中的概率分配.模型要解決的問題是，如何決定博弈中各個參與人的策略選擇.

2.2解概念(solutions concepts)

納什均衡解(nash equilibrium)與完美均衡解(perfect equilibrium)是非合作博弈的兩個基本解概念.納什均衡解(Nash，1950)是指：任一參與人在知道其他參與人的策略選擇后，并不改變自己的策略選擇；完美均衡解(Selten，1975)是指：在納什均衡解中，那些明顯不會被比下去而有可能被采用的策略，換句話說，有弱劣策略的納什均衡不是完美均衡[3].

2.3范例

2.3.1情侶博弈又稱性別戰(battle of sexes)，Ann和Bob是一對情侶，周末到了，Ann想去聽一場難得的音樂會，而Bob想去看一場同樣難得的足球賽，當然，兩人不想分開，希望能在一起共度美好時光，怎么辦呢？Ann(參與人1)和Bob(參與人2)各有兩個選項：聽音樂會(選項1)和看足球賽(選項2)，該博弈的支付矩陣如表1所示.

表1 情侶博弈支付矩陣

從以上博弈支付矩陣來看，如果兩個人一起去聽音樂會，Ann與Bob的效用分別為4，1；如果兩個人一起去看足球賽，其效用分別為1，4；其他不在一起的組合，效用皆為0.

Ann和Bob各自的效用還可以用一個2×2矩陣A和B來分別表示：

該博弈有三個納什均衡解，包括兩個純策略均衡和一個混合策略均衡：(1)x1=(1，0)，x2=(1，0).即兩人都去聽音樂會，Ann的效用為4而Bob為1；(2)x1=(0，1)，x2=(0，1).即兩人都去看足球賽，Ann的效用為1而Bob為4；(3)x1=(4/5，1/5)，x2=(1/5，4/5).即Ann以4/5的概率去聽音樂會，以1/5的概率去看足球賽，而Bob則以1/5的概率去聽音樂會，以4/5的概率去看足球賽，Ann和Bob的效用皆為4/5(=4/5×1/5×4+1/5×4/5×1).這三個納什均衡解同時也是完美均衡解，但完美均衡解并沒有明確告訴Ann和Bob該采用三個解中的哪一個：Ann可以說服Bob一起去聽音樂會，Bob也可以說服Ann一起去看足球賽，或者兩人選擇其實并無效率的混合策略，這需要參與人進一步協調和溝通.納什均衡解的“唯一性”問題，至今尚未解決.

2.3.2非完美均衡解博弈考慮如下兩個參與人之間的博弈(各有兩個選項)：

該博弈有兩個純策略納什均衡解：(1)x1=(1，0)，x2=(1，0)；(2)x1=(0，1)，x2=(0，1).亦即，兩人都采用選項1，或者兩人都采用選項2，但前者明顯劣于后者，也就是說前者明顯能被后者比下去，因此前者雖然是納什均衡解但不是完美均衡解.

2.3.3斗雞博弈(chicken game) 又稱膽小鬼博弈。兩個參與人，各自駕車在一條道路上沿著路中間高速相向迎面而來，此時雙方各有兩個選項：選項1：避讓(閃到路邊)；選項2：不避讓(沿著路中間繼續高速前行)，各自的支付矩陣如下：

矩陣A和B互為對稱矩陣，其中，相互避讓的效用或支付為0(表示互不吃虧)，雙方都不避讓的效用或支付為-109(表示兩敗俱傷)，己方避讓對方不避讓為-10(表示不滿對方的霸道)，己方不避讓對方避讓為1(表示占便宜).該博弈有三個納什均衡解：①己方讓對方不讓；②己方不讓對方讓；③各自以99/100的概率避讓，以1/100的概率不避讓.在面對沖突(比如遭受侵略)時，要讓對方強烈地相信己方會采取“不讓”的策略，對方就越有可能采取“讓”的策略.

2.3.4囚徒困境(prisoner's dilemma)[4]兩個嫌犯(兩個參與人)被警察隔離審訊，他們各自都有兩個選項：選項1：認罪；選項2：不認罪.博弈的支付(表示判刑的時間)矩陣如下：

矩陣A和B互為轉置矩陣，該博弈只有一個納什均衡解：雙方都認罪，各自被判處5年徒刑.雖然雙方都不認罪(各自被判1年)對他們是最好的結果，但如果一方認罪另一方不認罪，不認罪的一方會被加重處罰，而認罪的一方則被免于處罰，因而存在被對方出賣的風險，從理性人的角度出發，都不認罪的選項無法形成納什均衡解，兩嫌犯只有在警察設計的誘因機制下認罪.

3 n人合作博弈的模型、解概念與范例

3.1模型

3.2解概念

核中有多個解時，該如何選擇呢？核仁便是核中的一個公平解.核仁(Schmeidler，1969)所依據的分配思想，是讓一個群體中最不幸成員的幸福最大化，若有多重選擇時，再使次不幸成員的幸福最大化，以此類推，直到找到一個解[9].這里所指的成員是任一個次級聯盟(不含大聯盟及空集)，共有2n-2個成員.

夏普利值是指(Shapley，1953)參與人的貢獻以邊際貢獻來衡量，n個參與人共有n！個排列，某個參與人的分配值為其在n！個排列中的平均邊際貢獻[10].在一個排列中，令S(可為空集)表示排在參與人i前面的所有參與人，則參與人i在該排序中的邊際貢獻為v(S∪{i})-v(S).

3.3范例

三家公司擬成立合作研發中心，其中各個公司(1，2，3)單獨研發，其成本分別為11、8、7；公司1、2合作研發的成本為14；公司1、3合作研發的成為為15；公司2、3合作研發的成本為13；公司1、2、3合作研發的成本為為20.那么，三家公司應如何公平分擔合作研發的成本呢？

首先，將該問題表示為3人合作博弈模型：(1)v(φ)=0；(2)v({1})=v({2})=v({3})=0(因為單獨研發沒有節省成本)；(3)v({1，2})=5(公司1，2合作研發，可節省成本5(=11+8-14))；同理：(4)({1，3})=3；(5)v({2，3})=2；(6)v({1，2，3})=6.

其次，求該博弈的核：該博弈的核為以下不等式組的解集(由六個不等式和一個等式所圍成的區域，如圖1陰影部分所示)：

圖1 合作博弈的核 (不等式組的解集)

再次，求該博弈的核仁：各成員(不包含大聯盟和空集)的幸福值可以定義為其分配總值減去其聯盟價值(見表2)，因為y1+y2+y3=6，因此由表2可知，成員{1}和成員{2，3}的幸福值之和為4，成員{2}和成員{1，3}的幸福值之和為3，成員{3}和成員{1，2}的幸福值之和為1.最不幸成員為{3}和{1，2}(他們的幸福值之和最小)，他們平分其幸福值，各得0.5，故成員{3}新的聯盟價值為0.5(=0+0.5)，而成員{1，2}新的聯盟價值為5.5(=5+0.5).接下來，將5.5分配給{1，2}中的{1}和{2}，此時，{1，3}和{2，3}的幸福值之和為1.5(=6+0.5-5)為最小，因此平分其幸福值，各得0.75，各自新的聯盟價值分別為3.75(=3+0.75)和2.75(=2+0.75)，在已知{3}的聯盟價值為0.5的條件下，可得{1}和{2}新的聯盟價值(分配值)分別為3.25(=3.75-0.5)和2.25(=2.75-0.5).由此，可求得該博弈的核仁為(y1，y2，y3)=(3.25，2.25，0.5)，進而可以求得三家公司各自的成本分攤分別為7.75(=11-3.25)，5.75(=8-2.25)和6.5(=7-0.5).

表2 各成員的幸福值

最后，求該博弈的夏普利值：參與人1、2、3共有六個排列，分別為：123，132，213，231，312，321.他們在這六個排列中的邊際貢獻分別為(0，5，1)，(0，3，3)，(5，0，1)，(4，0，2)，(3，3，0)，(4，2，0).因此參與人1、2、3的平均邊際貢獻(即夏普利值)分別為：8/3，13/6，7/6.如表3所示.進而，根據夏普利值的分配邏輯，三家公司各自分攤的成本分別為：25/3(=11-8/3)，35/6(=8-13/6)和35/6(=7-7/6).

表3 博弈的夏普利值

4結語

目前，博弈論已形成一個相對完備的方法論體系，成為一種強有力的數理分析工具，并廣泛應用于經濟學、管理學、社會學、政治學等社會學科領域[11].由于其多使用復雜的數學方法構建博弈模型，又被稱為社會科學的物理學.

博弈論有兩個分支：非合作博弈與合作博弈.馮·諾伊曼和摩根斯坦首次提出合作博弈的概念，并對合作博弈進行了大量的討論和研究，而他們對非合作博弈的研究僅介紹了簡單的零和博弈，也就是說，博弈論最先發端于對合作博弈[12].繼納什之后，學者們對非合作博弈展開了深入細致的研究，取得了豐富的成果，使其成為體系相對完備的一個分支，而合作博弈的研究進展則相對滯后，始終落后于非合作博弈.

當前，在企業、社會、國家面臨新的競爭與合作關系的背景下，合作博弈由于其側重于合作效率以及公平分配的研究，更加符合新型競合關系的內在要求[13]，因此，需要加強對合作博弈理論與應用的探索和研究，為促進企業、社會、國家之間的協調與合作作出應有的貢獻.

猜你喜歡

足球賽納什博弈論

“趣玩杯”桌上足球賽

小哥白尼(趣味科學)(2021年7期)2021-11-05

THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS

錦繡·中旬刊(2021年3期)2021-07-14

THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS

錦繡·中旬刊(2021年8期)2021-03-15

踢一場月球足球賽

小哥白尼(趣味科學)(2021年11期)2021-02-28

快樂的足球賽

意林(兒童繪本)(2018年3期)2018-05-09

博弈論視角下的自首行為分析

山西省政法管理干部學院學報(2016年1期)2016-07-31

無知之幕與博弈:從“黃燈規則”看博弈論的一種實踐方案

燕山大學學報（哲學社會科學版）(2015年3期)2016-01-05

愛，納什博弈人生的真理

意林·作文素材(2015年14期)2015-08-26

樊畿不等式及其在博弈論中的應用

應用數學與計算數學學報(2015年1期)2015-07-20

博弈論視角下醫療糾紛解決方式選擇

中共寧波市委黨校學報(2014年5期)2014-03-01

九江學院學報(自然科學版)2023年4期

九江學院學報(自然科學版)的其它文章: “理醫工”課程實踐平臺在培養跨學科應用型醫工人才上的探索*; 鋁合金機械臂的表面改性與耐磨性能研究*; 數控落地鏜銑床在超長臂機加工中的應用研究*; 基于激光干涉測量的鉑熱電阻溫度傳感器智能測溫校準方法研究*; 基于混合機器學習模型的建筑工程造價預測方法*; 基于多傳感器模糊融合的火災檢測*

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合