納什平衡

納什平衡(Nash equilibrium),又稱為非合作博弈均衡,是博弈論的一個重要術語,以約翰·納什命名。在一個博弈過程中,無論對方的策略選擇如何,當事人一方都會選擇某個確定的策略,則該策略被稱作支配性策略。如果兩個博弈的當事人的策略組合分別構成各自的支配性策略,那么這個組合就被定義為納什平衡。

一個策略組合被稱為納什平衡,當每個博弈者的平衡策略都是為了達到自己期望收益的最大值,與此同時,其他所有博弈者也遵循這樣的策略。

基本介紹

  • 中文名:納什平衡
  • 外文名:Nash equilibrium
  • 領域:運籌學
  • 提出時間:1951
  • 提出者:約翰·納什
  • 相關名詞:納什均衡
簡介,納什平衡的由來,分類,經典案例,囚徒困境,硬幣正反,影響,

簡介

納什平衡(Nash equilibrium),又稱為非合作博弈均衡,是博弈論的一個重要術語,以約翰·納什命名。在一個博弈過程中,無論對方的策略選擇如何,當事人一方都會選擇某個確定的策略,則該策略被稱作支配性策略。如果兩個博弈的當事人的策略組合分別構成各自的支配性策略,那么這個組合就被定義為納什平衡。
一個策略組合被稱為納什平衡,當每個博弈者的平衡策略都是為了達到自己期望收益的最大值,與此同時,其他所有博弈者也遵循這樣的策略。

納什平衡的由來

關於納什平衡的普遍意義和存在性定理的證明等奠定非合作博弈理論發展基礎的重要成果,是約翰·納什普林斯頓大學攻讀博士學位時完成的。實際上,博弈論的研究起始於1944年馮·諾依曼Von Neumann)和奧斯卡·摩根斯坦(Oscar Morgenstern)合著的《博弈論和經濟行為》。然而卻是納什首先用嚴密的數學語言和簡明的文字準確地定義了納什平衡這個概念,並在包含“混合策略(mixed strategies)”的情況下,證明了納什平衡在n人有限博弈中的普遍存在性,從而開創了與諾依曼和摩根斯坦框架路線均完全不同的“非合作博弈(Non-cooperative Game)”理論,進而對“合作博弈(Cooperative Game)”和“非合作博弈”做了明確的區分和定義。阿爾伯特·塔克(Albert tucker)教授評價其論文,“這是對博弈理論的高度原創性和重要的貢獻。它發展了本身很有意義的n人有限非合作博弈的概念和性質。並且它很可能開拓出許多在兩人零和問題以外的,至今尚未涉及的問題。在概念和方法兩方面,該論文都是作者的獨立創造。”

分類

納什平衡可以分成兩類:“純戰略納什平衡”和“混合戰略納什平衡”。
要說明純戰略納什平衡和混合戰略納什平衡,要先說明純戰略和混合戰略。
所謂純戰略是提供給玩家要如何進行賽局的一個完整的定義。特別地是,純戰略決定在任何一種情況下要做的移動。戰略集合是由玩家能夠施行的純戰略所組成的集合。而混合戰略是對每個純戰略分配一個機率而形成的戰略。混合戰略允許玩家隨機選擇一個純戰略。混合戰略博弈均衡中要用機率計算,因為每一種策略都是隨機的,達到某一機率時,可以實現支付最優。因為機率是連續的,所以即使戰略集合是有限的,也會有無限多個混合戰略。
當然,嚴格來說,每個純戰略都是一個“退化”的混合戰略,某一特定純戰略的機率為1,其他的則為0。
故“純戰略納什平衡”,即參與之中的所有玩家都玩純戰略;而相應的“混合戰略納什平衡”,之中至少有一位玩家玩混合戰略。並不是每個賽局都會有純戰略納什平衡,例如“錢幣問題"就只有混合戰略納什平衡,而沒有純戰略納什平衡。不過,還是有許多賽局有純戰略納什平衡(如協調賽局,囚徒困境和獵鹿賽局)。甚至,有些賽局能同時有純戰略和混合戰略平衡。

經典案例

囚徒困境

(1950年,數學家塔克任史丹福大學客座教授,在給一些心理學家作講演時,講到兩個囚犯的故事。)
假設有兩個小偷A和B聯合犯事、私入民宅被警察抓住。警方將兩人分別置於不同的兩個房間內進行審訊,對每一個犯罪嫌疑人,警方給出的政策是:如果一個犯罪嫌疑人坦白了罪行,交出了贓物,於是證據確鑿,兩人都被判有罪。如果另一個犯罪嫌疑人也作了坦白,則兩人各被判刑8年;如果另一個犯罪嫌人沒有坦白而是抵賴,則以妨礙公務罪(因已有證據表明其有罪)再加刑2年,而坦白者有功被減刑8年,立即釋放。如果兩人都抵賴,則警方因證據不足不能判兩人的偷竊罪,但可以私入民宅的罪名將兩人各判入獄1年。
囚徒困境博弈
A╲B
坦白
抵賴
坦白
-8,-8
0,-10
抵賴
-10,0
-1,-1
關於案例,顯然最好的策略是雙方都抵賴,結果是大家都只被判1年。但是由於兩人處於隔離的情況,首先應該是從心理學的角度來看,當事雙方都會懷疑對方會出賣自己以求自保、其次才是亞當·斯密的理論,假設每個人都是“理性的經濟人”,都會從利己的目的出發進行選擇。這兩個人都會有這樣一個盤算過程:假如他坦白,如果我抵賴,得坐10年監獄,如果我坦白最多才8年;假如他要是抵賴,如果我也抵賴,我就會被判一年,如果我坦白就可以被釋放,而他會坐10年牢。綜合以上幾種情況考慮,不管他坦白與否,對我而言都是坦白了划算。兩個人都會動這樣的腦筋,最終,兩個人都選擇了坦白,結果都被判8年刑期。
基於經濟學中Rational agent的前提假設,兩個囚犯符合自己利益的選擇是坦白招供,原本對雙方都有利的策略不招供從而均被判處一年就不會出現。這樣兩人都選擇坦白的策略以及因此被判8年的結局,納什均衡”首先對亞當·斯密的“看不見的手”的原理提出挑戰:按照斯密的理論,在市場經濟中,每一個人都從利己的目的出發,而最終全社會達到利他的效果。但是我們可以從“納什均衡”中引出“看不見的手”原理的一個悖論:從利己目的出發,結果損人不利己,既不利己也不利他。

硬幣正反

你正在圖書館枯坐,一位陌生美女主動過來和你搭訕,並要求和你一起玩個數學遊戲。美女提議:“讓我們各自亮出硬幣的一面,或正或反。如果我們都是正面,那么我給你3元,如果我們都是反面,我給你1元,剩下的情況你給我2元就可以了。”那么該不該和這位姑娘玩這個遊戲呢?這基本是廢話,當然該。問題是,這個遊戲公平嗎?
每一種遊戲依具其規則的不同會存在兩種納什平衡,一種是純策略納什平衡,也就是說玩家都能夠採取固定的策略(比如一直出正面或者一直出反面),使得每人都賺得最多或虧得最少;或者是混合策略納什平衡,而在這個遊戲中,便應該採用混合策略納什平衡。
你\美女
美女出正面
美女出反面
你出正面
+3,-3
-2,+2
你出反面
-2,+2
+1,-1
假設我們出正面的機率是x,反面的機率是1-x,美女出正面的機率是y,反面的機率是1-y。為了使利益最大化,應該在對手出正面或反面的時候我們的收益都相等(不然在這個遊戲中,對方可以改變正反面出現的機率讓我們的期望收入減少),由此列出方程就是
解方程得
同樣,美女的收益,列方程
解得y也等於
,而美女每次的期望收益則是
。這告訴我們,在雙方都採取最優策略的情況下,平均每次美女贏
元。

相關詞條

熱門詞條

聯絡我們