精煉貝葉斯均衡

精煉貝葉斯均衡 為博弈論相關的概念。不完全信息動態博弈的均衡稱之為精煉貝葉斯均衡。有些書上或論文中也寫成精煉貝葉斯納什均衡

基本介紹

  • 中文名:精煉貝葉斯均衡
  • 外文名:perfect Bayesian equilibrium
  • 學科博弈論
  • 典型案例黔驢技窮
基本解釋,案例分析,

基本解釋

這個概念是完全信息動態博弈的子博弈精煉納什均衡與不完全信息靜態均衡的貝葉斯(納什)均衡的結合。具體來說,精煉貝葉斯均衡是所有參與人戰略和信念的一種結合。它滿足如下條件:第一,在給定每個參與人有關其他參與人類型的信念的條件下,該參與人的戰略選擇是最優的。第二,每個參與人關於其他參與人所屬類型的信念,都是使用貝葉斯法則從所觀察到的行為中獲得的。
運用子博弈精煉均衡概念的邏輯,將從每一個信息集開始的博弈的剩餘部分稱為一個“後續博弈”(不同於子博弈,因為子博弈必須開始於單結信息集,並且不能切割信息集),
一個“合理”的均衡要求,給定每一個參與人有關其他參與人類型的後驗信念,參與人的戰略組合在每一個後續博弈上構成貝葉斯均衡。
假定參與人(在所有可能的情況下)根據貝葉斯法則修正先驗信念,並且,每個參與人都假定其他參與人選擇的是均衡戰略。
假定i屬於類型q的先驗機率是p(q)30,並且SKp(q)=1;給定i屬於q,i選擇a的條件機率為p(a|q),並且SHp(a|q)=1。那么,i選擇a的邊緣機率(全機率)是
Prob(a)=SKp(a|q)p(q)
即參與人i選擇行動a的總機率是每一種類型的i選擇a的條件機率p(a|q)的加權平均,權數是他屬於每種類型的先驗機率p(q)。
問題是:假如我們觀測到i選擇了a,i屬於類型q的後驗機率是多少?
我們用Prob(q|a)代表這個後驗機率,即給定a的情況下,i屬於類型q的機率。根據條件機率或乘積機率公式,
Prob(q,a)º p(a|q)p(q)
º Prob(q|a)Prob(a)
也就是說,i屬於q並選擇a的聯合機率,等於i屬於q的先驗機率乘以q類型的參與人選擇a的機率,或等於i選擇a的總機率乘以給定a情況下i屬於q的後驗機率。
因此,Prob(q|a)º p(a|q)p(q)/Prob(a)
º p(a|q)p(q)/ SKp(a|q)p(q)
這就是貝葉斯法則。精煉貝葉斯均衡假定參與人是根據貝葉斯法則修正先驗機率的。
貝葉斯法則要求Prob(a)>0即參與人i必須以正的機率選擇a,否則,後驗機率沒有定義。
如果Prob(a)=0,我們允許Prob(q|a)在[0,1]區間取任何值,只要所取的值與均衡戰略相容,即均衡仍然成立。
在動態博弈中,Prob(a)=0對應的是非均衡路徑上的信息集。
後驗機率Prob(q|a)不僅依賴於先驗機率p(q),而且依賴於參與人“認為”i是類型q並選擇行動a的條件機率p(a|q)。
在精煉貝葉斯均衡中,參與人“認為”的條件機率必須是正確的。
假定有n個參與人,參與人i的類型是qiÎQi,qi是私人信息,pi(q-i|qi)是屬於類型qi的參與人i認為其他n-1個參與人屬於類型q-i = (qi, …, qi-1, qi+1, …, qn)的先驗機率;
令Si是i的戰略空間,siÎSi是依賴於類型qi的一個特定戰略;a-i=(a1,…, ai-1, ai+1, …, an)是在第h個信息集上參與人i觀測到的其他n-1個參與人的行動組合,它是戰略組合s*-i=(s*1, …, s*i-1, s*i+1,…, s*i)的一部分(s*-i規定的行動);
pi(q-i|a-i)是在觀測到a-i的情況下參與人i認為其他n-1個參與人屬於類型q-i的後驗機率,pi是所有後驗機率的集合(即pi包括了參與人i在每一個信息集h上的後驗機率);
ui(si,s-i, qi)是i的效用函式。
那么,精煉貝葉斯均衡可以定義如下:
精煉貝葉斯均衡是一個戰略組合,s*(q)= (s*1(q1),…,s*n(qn))和一個後驗機率組合p=(p1,…,pn),滿足:
(P) 對於所有的參與人i,在每一個信息集h,
s*i(qi)Î argmax Spi(q-i|a-i)ui(si, s*-i,qi)
si q-i
(B) pi(q-i|a-i)是使用貝葉斯法則從先驗機率pi(q-i|qi)、觀測到的a-i和最優戰略s*-i(·)得到的(在可能的情況下)。
(P)是精煉條件,意為,給定其他參與人的戰略s*-i=(s*1, …, s*i-1, s*i+1,…, s*n)和參與人i的後驗機率pi(q-i|a-i),每個參與人i的戰略在所有從信息集h開始的後續博弈上都是最優的,或者說,所有參與人都是序貫理性的。
這個條件是子博弈精煉均衡在不完全信息動態博弈上的擴展。在完全信息動態博弈中,子博弈精煉納什均衡要求均衡戰略在每一個子博弈上構成納什均衡;類似地,在不完全信息動態博弈中,精煉貝葉斯均衡要求均衡戰略在每一個“後續博弈”上構成貝葉斯均衡。
(B)對應的是貝葉斯法則的運用。如果參與人是多次行動的,修正機率涉及貝葉斯法則的重複運用。因為戰略是一個行動規則,它本身是不可觀測的,參與人i只能根據觀測到的行動組合a-i修正機率,但他假定所觀測到的行動是最優戰略s*-i規定的行動。
限制條件“在可能的情況下”來自這樣的事實,如果a-i不是均衡戰略下的行動,觀測到的a-i是一個零機率事件,此時,貝葉斯法則對後驗機率沒有定義,任何的後驗機率pi(q-i|a-i)Î[0,1]都是允許的,只要它與均衡戰略相容
精煉貝葉斯均衡是均衡戰略和均衡信念的結合,給定信念p=(p1,…,pn),戰略組合s*=(s*1,…, s*n)是最優的;給定戰略s*=(s*1,…, s*n),信念p=(p1,…,pn)是使用貝葉斯法則從均衡戰略和所觀測到的行動得到的。
在精煉貝葉斯均衡中,後驗機率依賴於均衡戰略,均衡戰略依賴於後驗機率,如果我們不知道先行動者如何選擇,我們就不可能知道後行動者應該如何選擇,必須使用前向法進行貝葉斯修正。

案例分析

一個典型的案例就是成語“黔驢技窮”。
黔地的老虎從來沒有見過驢子,不知道驢子到底有多大本領。老虎採取的方法是不斷不斷接近驢子進行試探。通過試探,修正自己對驢子的看法,從而根據試探的結果選擇自己的策略。一開始,老虎見驢子沒什麼反映,它認為驢子本領不大;接下來老虎看見驢子大叫,又認為驢子的本領很大;然而,進一步試探的結果,老虎卻發現驢子的最大本領只是踢踢而已;最後,通過不斷試探,老虎得到關於驢子的準確信息,確認驢子沒有什麼本領,就選擇了衝上去把驢子吃掉的策略。這顯然是老虎的最優策略。

相關詞條

熱門詞條

聯絡我們