決策策略選擇:基於貝葉斯決策的決策策略選擇,概述,基於貝葉斯的多目標的Web 選擇

廣義的決策策略選擇則包含判斷與決策兩個部分。狹義的決策策略選擇是一個動態過程，是個體運用感知覺、記憶、思維等認知能力，對情境做出選擇，確定策略的過程。基於馬爾科夫決策策略選擇方法，解決具有複雜目標間關聯的多階段目標選擇問題。使用與或樹描述目標體系各層狀態間的影響關聯，並以目標體系整體失效為求解目的，建立了基於離散時間 MDP 的多階段打擊目標選擇模型。

基本介紹

中文名：決策策略選擇
外文名：Decision strategy selection
拼音： jué cè cè lüè xuǎn zé
所屬類別：科學方法
用途：選擇合適策略
涉及領域：各行各業

基於貝葉斯決策的決策策略選擇,概述,基於貝葉斯的多目標的Web 選擇策略,模型的評價,總結和展望,基於馬爾科夫決策的決策策略選擇,概述,1 目標選擇問題描述,2目標選擇過程建模,3求解算法,比賽中決策策略選擇,概述,1決策系統的設計,2決策策略的動態選擇算法,3實驗結果,囚徒困境下的決策策略選擇,概述,囚徒困境簡介及其傳統策略,囚徒困境中彰顯的人性特點和理性信任觀,現實生活中的“囚徒困境”及其應對策略,

基於貝葉斯決策的決策策略選擇

概述

近年來，隨著網際網路上Web 服務的大量出現，提供相同功能的Web 服務也越來越多，但這些Web 服務在非功能屬性上仍然存在差別。如何在這些服務中進行合理的選擇，對成功地構建面向服務套用(service oriented applications)具有非常重要的意義，是一個極具挑戰性的問題。

目前，針對Web 服務選擇的研究，大都是基於QoS (quality of service)模型的。QoS 的性能指標包括執行時間、費用、服務可靠性、有效性、用戶滿意度等，此外，還可能有一些特定領域的其他屬性.一個用戶可決定挑選最便宜的或最快的服務，或者是多QoS 目標的折中。文獻[4]根據工作流任務的結構特點對其進行分區，按照任務量和通信量將總工作流截止日期和總工作流花費分為每個任務分區上的子截止日期和子花費，在考慮用戶多個QoS 要求及工作流任務間通信時間的基礎上，提出基於信任與花費的綜合效益函式，給出信任與花費權值的確定方法以及一個以綜合效益最優為目標的調度算法—TCD，算法通過追求局部最優達到全局多目標最佳化調度。文獻[6]提出了一個在滿足截止日期的約束下追求最小花費或在滿足花費的約束下追求最短執行時間的單目標最佳化調度算法。還有的方法，生硬地為QoS 的各個性能指標賦予相應的權重，形成一個單目標函式來求解。還有的方法以用戶的歷史經驗為基礎計算用戶之間的相似程度，根據其他用戶的經驗對某個用戶的決策做出指導。

這些方法雖然都考慮到了用戶多QoS 要求，但沒有考慮到不同用戶的不同側重點，如：有的用戶寧願花費更多的錢去享受更快的Web 服務；有的用戶不在乎服務的快慢，但希望花費少些；有的用戶更加注重該服務的口碑（用戶滿意度）等。

基於貝葉斯決策的多QoS 目標的Web 服務選擇策略是在已有的具有相同功能的服務集的基礎上，選擇最可能讓自己滿意的一個Web 服務來執行。該策略將機器學習領域的經典方法：貝葉斯決策理論，運用到Web 服務的選擇中來，可以充分利用用戶自己的經驗庫（即自己曾經選擇的Web 服務的QoS 信息及是否令自己滿意），學習自己以往的經驗，做出更可能讓用戶滿意的選擇。

基於貝葉斯的多目標的Web 選擇策略

不同的用戶眼中的最優Web 服務是不同的，有的用戶更在乎執行時間，有的用戶更在乎費用，有的用戶更在乎服務的用戶滿意度。但對於同一個用戶來說，它的興趣一定遵循同一機率分布的。用戶曾經選擇的 Web 服務及當時對該服務是否滿意的集合，即“經驗庫” 中隱含著自己的偏好信息。基於貝葉斯決策的多QoS 目標的Web 服務選擇策略，利用貝葉斯決策理論，在用戶自己的經驗庫中進行學習，進而做出更可能讓用戶滿意的選擇。

2.1 貝葉斯理論介紹

貝葉斯理論是一種運用機率手段來進行推理的方法，被廣泛用於機器學習領域。它基於如下的假定，即待考查的量遵循某機率分布，且可根據這些機率及已觀察到的數據進行推理，以作出最優的決策。它通過對已知分類數據的學習，來預測訓練數據的分類。作為一種基於機率的統計學習和決策理論框架內的基礎方法，貝葉斯理論已得到了廣泛的套用。

2.2 模型的建立

該方法以消費者的歷史經驗為基礎，通過機率統計的手段，計算出消費者並未使用過的Web 服務能讓自己的滿意程度。基於貝葉斯決策的多QoS 目標的Web 服務選擇策略的過程如圖1 所示，主要分為以下幾部分。

（1）當用戶要執行某個活動時, 首先列出這個活動對應的所有具有相同功能的Web 服務以及各服務的QoS 性能指標。.

（2）利用貝葉斯決策模型和自己的經驗庫，計算各個Web 服務可能讓自己滿意的機率。

（3）挑選其中讓自己滿意機率最大的Web 服務。

（4）選擇該Web 服務，執行。

（5）執行結束，留下自己的反饋意見（滿意或不滿意）。將該服務的QoS 性能指標，以及自己的反饋意見（是否滿意）存入自己的經驗庫中，將相關信息提交給“服務管理中心”，更新該服務的QoS性能指標。

模型的評價

首先，該模型基於機器學習領域的經典方法：貝葉斯理論。該方法有嚴密的推導和證明，已被廣泛的套用於多個領域。所以該模型的理論基礎是非常堅實的。

其次，選擇Web 服務時，不需要用戶的介入。需要用戶做的工作僅僅是在Web 服務執行完了以後，作出評價（“滿意”或“不滿意”）。所以該模型更具有智慧型性。

最後，該模型是一個動態的模型，隨著時間的推移，如果用戶的偏好慢慢發生變化，該模型所做出的抉擇也會根據用戶經驗庫的更新慢慢偏移。

總結和展望

面對眾多功能相同，但在非功能屬性上仍然存在差別的Web 服務，如何進行合理的選擇，對成功地構建面向服務套用具有非常重要的意義。本文在總結了當前基於多QoS 目標的Web 服務選擇策略發展現狀的基礎上，介紹了一種基於貝葉斯的多QoS 目標的Web 服務選擇策略。該方法具有理論基礎堅實、智慧型性、動態性的優點。

基於馬爾科夫決策的決策策略選擇

概述

目標選擇是軍事決策過程的重要組成部分，現代戰爭中的目標選擇問題要置於打擊目標體系的作戰過程中分析。目標體系( Target System of System，TSoS) 是由多個作戰系統構成的集合，每個作戰系統實現一定任務並對體系使命產生影響。打擊目標體系的目的是使體系崩潰，打擊過程由於存在資源約束等原因被劃分為多個階段，因此如何打擊目標體系是具有複雜目標關聯的多階段目標選擇問題。傳統目標選擇方法多是通過層次分析法等對目標進行評估和排序，沒多屬性決策理論有考慮目標間複雜關聯，為處理該問題，目前主要採用貝葉斯網路描述目標體系內影響關聯。故障樹方法但以上方法均未考慮目標選擇的多階段決策特徵，沒有利用行動中間結果調整目標。目標選擇的動態性在動態武器目標分配問題和軍事行動規劃問題中得到研究。蔡懷平等研究了動態武器目標分配問題中的馬爾科夫性，解武傑等將馬爾可夫過程用於分析防空武器目標選擇策略; Boutilier 等在馬爾科夫決策過程(Markov Decision Process，MDP) 基礎上提出決策理論規劃方法對具有階段決策的軍事行動進行建模但沒有考慮目標關聯和相應的複雜打擊效果，不能直接用於求解打擊目標體系過程中的目標選擇問題。陽東升等利用動態貝葉斯網路描述了戰場重心及作戰行動間影響關係，但搜尋空間很大時求解效率不高，王長春等用複雜網路仿真方法分析體系對抗過程，但是建模過程較複雜。

1 目標選擇問題描述

為分析目標選擇問題，需分析打擊目標對目標體系狀態的影響。與或樹使用圖形化能將複雜問題分解為多個簡單子問題，因此使用與或樹描述體系中狀態間的影響關係。目標體系的狀態包括三類要素狀態: 目標單元狀態 GT 、目標系統能力狀態 GN 和目標體系能力狀態 GS 。目標單元是目標體系中最基礎的要素，能被直接摧毀，如單部雷達，其狀態用葉節點集 GT ={ gTi } ( 1≤i≤I) 描述，I 為目標單元數量，單元毀傷，gTi = 1; 單元正常，gTi = 0。目標系統是多個目標單元或子系統的集合，之間相互關聯，顯現某種作戰能力，如預警能力。其狀態用非終端節點集 GN = { gNj } ( 1 ≤j ≤J) 描述，J 為目標系統數量，系統能完成任務，gNj = 1; 不能完成任務，gNj = 0。其包含的目標單元和子系統能力狀態作為其在與或樹中子節點，通過邏輯與、或關係，對系統能力狀態產生影響。

目標體系是多個目標系統的集合，體現出支持某個使命的能力，如防空使命能力。體系能力狀態使用根節點 GS 描述，體系能達成使命，GS =1; 不能達成，GS = 0。其包含的各目標系統能力作為其子節點，通過邏輯與、或關係對體系能力狀態產生影響。

2目標選擇過程建模

2． 1 問題假設

(1) 打擊目標體系過程分為若干個作戰階段，使用有限資源，目的是使體系失效;

(2) 目標體系狀態為進攻方完全感知，目標選擇決策僅與當前階段狀態有關，在當前狀態被觀察後，進攻方選擇打擊目標;

(3) 打擊每個目標具有一定成功機率，消耗一定資源，每個階段打擊多個目標，使得目標體系狀態在下一階段發生機率遷移。

2． 2 目標選擇決策模型

在符合以上假設時，打擊過程中目標體系狀態的變化可認為是一個離散時間隨機過程，其變化過程的狀態轉移機率由打擊目標行動所控制，因此目標選擇決策成為一個離散時間馬爾科夫決策過程，其最優決策就是每階段要選擇打擊哪些目標，使目標體系失效的機率最大化。本文使用 DTMDP 模型描述打擊目標體系的目標選擇決策過程，即以下多元組:S是有限狀態集，S = { ( t，R，G) } ，t 指當前第t階段，R = ( R1 ，…，Rk ，…，RK ) 描述資源的狀態向量，Rk 為第 k 類資源數量，G = ( g1T ，…，gTI ，g1N ，…，gNJ ，GS ) ，表示體系的狀態向量。S0 是初始狀態。ST 是終止狀態集，對應於資源、時間消耗完畢，或目標體系失效的狀態，在此狀態下打擊過程結束。A是所有行動組成的有限集，A( s) 是在狀態 s下可採取的行動集，a A( s) 包含多個目標單元打擊任務 { Taski } ( 1 ≤i ≤I) ，Taski 成功機率為Pi ，即 Pi ( GTi = 1 | Taski ) = Pi 。若 Rk ( s，Taski ) 表示Taski 在狀態 s 下消耗第 k 種資源的數量，Lk 表示第 k 種資源在每階段的最大允許使用數量，是在可用行動 a 下狀態轉移 s→s'的機率函式，表示在打擊行動 a 下，狀態在下一階段變化的可能性。

2．3 模型複雜度分析

打擊目標體系過程中的目標選擇模型和以往基於MDP 的目標選擇或軍事計畫模型存在著以下區別:

(1)問題假設不同。以往模型中假設目標間無關聯，而本模型假設目標間相互影響;

(2)終止狀態不同。以往模型是以最大化毀傷目標為期望值，而本模型是以達成目標體系失效為目的;

(3)狀態空間不同。以往模型的狀態空間是所有目標的狀態，而本模型的狀態空間包含了目標單元、系統能力、體系能力三類要素狀態，使得狀態空間複雜度增加;

(4)時間尺度不同。以行動階段而非具體時間來描述打擊目標體系過程，並假設行動能夠在單階段內完成，簡化了行動空間描述;

(5)狀態遷移函式不同。以往模型只需計算各目標的狀態遷移，而本模型中的狀態遷移還需考慮不同層次間要素的狀態影響關係。

3求解算法

3． 1 求解框架

本問題狀態空間巨大，並且只關注求解從目標體系初始狀態到達終止狀態的行動策略，而 MDP 值疊代或策略疊代方法需對全狀態空間進行遍歷，因此求解效率較低，這就需要使用啟發式搜尋算法來求解。RTDP ( Real Time Dynamic Programming) [18] 的改進算法 LRTDP ( LabeledRTDP) 方法要比其他如 LAO* 等求解 MDP 的啟發式搜尋算法要更有效率因此本文使用LRTDP 方法求解該模型。

RTDP 是基於試驗( trials-based) 的方法，每次試驗從初始狀態開始，基於當前狀態值的啟發式，根據貪婪策略選擇行動，然後根據行動的機率結果隨機創建後續狀態，直至到達目的狀態，然後進行反向值疊代。

3． 2 啟發式

設計了基於行動成功機率、行動執行時間和資源邊界的啟發式提供對 V0 ( S) 的最佳估計值，使得對所有狀態 s，V0 ( S) V( S) ，以促進LRTDP 中算法的收斂，但由於打擊目標體系過程中的目標選擇模型和傳統規劃模型在狀態空間、遷移函式上的區別，該啟發式不能直接套用於前者。針對打擊目標體系過程特點，分別設計新的啟發式來計算從目標體系當前狀態 S 到達目標體系失效狀態的最小失敗機率 minV( S，fail) 和最小資源消耗需求 minV ( S，resource) ，並進行加權組合，以得到對 V0 ( S) 的最佳估計值。啟發式考慮了時間代價不同，由於打擊目標的時間消耗為單個階段，從當前狀態到達目標體系失效狀態的最小時間消耗需求 minV( S，time) 總是為單個階段，因此在新啟發式中沒有考慮時間代價。

( 1) 到達目標體系能力失效狀態的最小失敗機率為判斷從當前狀態到達體系失效狀態的最小失敗機率，先求得最大成功機率，即從當前狀態下預期能採取的所有打擊目標行動能夠達成的體系失效機率。當目標體系與或樹中非葉子節點 g 具有子節點集 SG = { sgk } ( 1 ≤k ≤K) ( K 為子節點數量)時，其中 Prok 表示使得第 k 個子節點失效的最大成功機率，sgk 描述第 k 個子節點是否失效，失效時取 1，正常時取 0。其基本過程為:

1) 與或樹自根節點向下遍歷各節點;

2) 取得各節點的狀態，當節點狀態為失效，則該節點的毀傷機率為 1，當節點狀態為正常，取得其所有子節點的失效機率值，根據子節點間的與或關係計算使該節點失效的機率值;

3) 直至遍歷至葉節點，獲得對應打擊目標行動的成功機率( 即節點失效機率值) ，然後遞歸計算使根節點失效的成功機率值。用1 減去使根節點失效的最大成功機率值即得到使目標體系失效的最小失敗機率。

(2) 到達目標體系失效狀態的最小消耗為求解到達目標體系失效狀態的最小消耗資源，我們假設從當前狀態開始，所採取的每次打擊行動都能成功摧毀目標。根據與或樹的結構層次計算能夠導致目標體系失效所需的行動集的最小消耗資源。當目標體系與或樹中非葉子節點 g 具有子節點集 SG = { sgk } ( 1 ≤k ≤K) ( K 為子節點數量)時，當 SG 為與關係時，使 g 失效的最小資源消耗Res 為:當 SG 為或關係時:Res = min( { ( 1 － sgk ) ·Resk } ) ，1≤k≤K ( 14) 其中 Resk 表示使得第 k 個子節點失效的最小資源消耗，sgi 描述第 k 個子節點是否失效，失效時取 1，正常時取 0。其基本過程為:

1) 與或樹自根節點向下遍歷各節點;

2) 當節點狀態為失效，則該節點資源消耗為0，當節點狀態為正常，則取得其所有子節點消耗資源值，根據子節點間與或關係綜合得到該節點資源消耗值;

3) 直至遍歷到葉節點，獲得對應打擊目標行動的消耗資源，然後遞歸計算使根節點( 體系能力) 失效的資源消耗值。

比賽中決策策略選擇

概述

多智慧型體系統(Multi-Agent Systems, MAS)的研究是當前人工智慧領域的一個熱點問題和重要的發展方向。足球機器人比賽已經成了MAS 研究的一個標準平台。機器人足球發展的宏偉目標就是要實現自學習、自適應以及具有很強魯棒性的實時多智慧型機器人系統, 力爭經過大約50年左右的發展,使機器人足球隊能夠打敗當時人類的世界冠軍足球隊。以Mirosot 系列機器人系統為例,給出了一種分層遞階控制設計, 並針對在視覺子系統不採集對方球員信息的情況下, 提出了實力對比函式的概念, 通過這個函式實時的根據場上的情況判斷雙方球隊的形式變化情況, 以提高決策子系統的智慧型性。

1決策系統的設計

1.1決策系統的分析

足球機器人的決策子系統扮演著教練員和運動員的職責。在真實的綠茵場上, 作為教練員要根據球場上的實際情況來部署球員, 同時也根據不同的對手, 選擇不同的隊形。足球機器人賽場上,決策者也應該根據不同的球隊採取不同的策略,對於錯綜複雜的球場形勢, 運用靈活的策略。一個好的決策系統不可能一勞永逸地一次性開發完成,是一個不斷完善的過程,因此,構建一個可持續開發、合理的決策框架就顯得尤為重要。分層遞進控制方式對決策思路進行邏輯上的分層。一般來說,決策思路是先確定機器人之間的協作關係,然後根據配合的要求確定每個機器人的運動方式。分層的具體方式可以有一定的不同。

比賽時,視覺子系統每 40ms 左右將球場上各機器人的位姿和球的信息傳入計算機 ,決策子系統根據傳入的視覺信息分析球場上的情況 , 做出相應的決策,轉化為每個機器人的左右輪速, 通過通信子系統傳送給每個機器人。當決策子系統收到視覺輸入信息後, 對其進行預處理, 根據球和本方機器人的位置對場上攻防形勢進行分析, 並將所作的決策分解為各個任務———這是決策的第一層。根據分解完的任務從隊形庫中為本方機器人確定一個隊形———這是決策的第二層。根據隊形所需的角色以及我方機器人的位置 , 將每個角色分配給具體的機器人———這是決策的第三層。之後將左右輪速傳送給對應的每個機器人。

1 .2 決策系統的設計

決策系統的設計過程是一個由基層到高層逐步構造的過程, 就是如何來實現決策系統分析結果。基於上述足球機器人決策分析過程, 採用如下的足球機器人決策系統設計。

在比賽過程中 , 我們所要求小車的基本運動就是跑位、轉向, 繼而在此基礎上, 讓小車按照決策者的意圖來完成一些複雜動作, 最後實現決策者的整個策略思想。本設計採用面向對象的程式設計把整個決策系統劃分 3 個類, 他們由基層到高層(即由頂到底)分別為:基本動作類、技術動作類、決策類, 他們是從頂到底依次繼承, 高層可以繼承基層, 但基層不能繼承高層, 高層類中方法的實現需要基層類中方法的支持, 基本動作函式類的方法完成如原地轉動、轉到定角、轉到定點、到定點、到達定點有一定的速度函式等等, 其屬性是可調參數的結構體 ;技術動作函式類中封裝一些比較高級的動作, 如完成射門、防守、邊界處理等功能;組合動作函式類是更高層次的類, 其方法用來完成多車協作動作, 如點球大戰、爭球等動作 ; 決策類是整個決策系統的最高層, 是整個決策的核心部分 ,就是用這些底層類來實現決策者的意圖,如信息預處理、態勢分析、角色分配、動作實現等。由上設計實現過程,可以看出,我們可以根據決策者不同的需求,逐步完善這些底層函式類,各個函式類的補充只是改動本身,並不影響其他類,從而提高了整個決策系統的可維護性和可擴充性,為決策者提供了一個施展各種策略思想的平台。

2決策策略的動態選擇算法

實力對比函式的提出

由於決策系統所能得到的信息僅是由視覺系統傳遞來的球的位置以及本方球員的位置和方向信息,因此如何判斷對方球隊的情況則變成了是一個不容易解決的問題。如果不對對方球隊情況進行判斷, 無論場上形式如何變化我方總是採用一成不變的策略則會降低整個球隊的智慧型性, 本系統通過實力對比函式來判斷場上情況的變化 , 並根據不同的情況做出不同的策略選擇, 從而提高了系統的智慧型性。

3實驗結果

在MiroSot 足球機器人系統中對本文提出的決策策略動態選擇算法進行了驗證, 其中 Team1 在進行決策策略選擇的時候採用傳統的決策策略選擇方法。Team2 ,Team3 ,Team4 也採用傳統的決策策略選擇方法, 並且 3 支球隊的實力一個比一個強(通過實驗得出球隊的強弱)。比賽結果如下表1 所示:

表1 比賽結果(選用本文算法之前)

球隊		比賽結果
	比分	控球時間之比	球在對方半場時間之比
	比分	控球時間之比	球在對方半場時間之比	Team1 vs Team2	3 :0	3:1	3:1
Team1 vs Team3	2 :1	3:1	2:1
Team1 vs Team4	0 :2	1:2	1:2

在選用的決策策略動態選擇算法之後 ,Team1 分別對 Team2 ,Team3 ,Team4 的比賽結果如表 2 所示:

表2	比賽結果(選用本文算法之後)
球隊		比賽結果
球隊	比分	控球時間之比	球在對方半場時間之比
Team1 vs Team2	6 :0	4:1	4:1
Team1 vs Team3	4 :1	4:1	2:1
Team1 vs Team4	1 :1	1:1	1:1

從實驗的比賽結果可以看出, 在採用了決策策略動態選擇算法之後同樣一支球隊在和比它實力弱球隊的比賽時會加強進攻從而可以大比分的戰勝對手, 在和它實力相當的球隊比賽時會適當的分配進攻和防守的比重 ,從而有機會戰勝對手 , 在和比自己實力強的球隊比賽時會加強防守在不輸球的情況下適時進攻。而實現的, 先進技術手段的引入可能而且應該給企業帶來效率和效益。信息化是企業發展的必然,是重大的機遇和挑戰 ,我們要抓住信息化帶來的機遇 ,在“ 信息化帶動工業化” 的國家戰略指導下,加強對國民經濟與社會信息化的組織領導 ,加快制定並實施國家信息化的總體規劃, 推動經濟與社會各個領域信息化的進程。通過信息化不斷提高企業核心競爭力, 強化綜合國力的微觀基礎 , 這正是我國加入世貿組織、應對經濟全球化挑戰的關鍵所在。

囚徒困境下的決策策略選擇

概述

美國決策研究專家黑斯蒂(Hastie，R)認為判斷與決策是人類根據自己的願望和信念選擇行動的過程。決策(decision making)從狹義上說是一個動態過程，是個體運用感知覺、記憶、思維等認知能力，對情境做出選擇，確定策略的過程。廣義的決策則包含判斷與決策兩個部分。博弈論中“囚徒困境”下的決策就是一個很有代表性的例子.

囚徒困境簡介及其傳統策略

囚徒困境也稱社會兩難情境，是博弈論中的經典案例，指兩個嫌疑犯被警察抓到，但警方沒有掌握確切的證據，警察就分別找他們談話：“如果你們都不認罪的話，我們將讓你們都入獄一年；如果一個認罪，另一個不認罪的話，那么我們將判不認罪的那個十年的徒刑，認罪的將無罪釋放；如果兩人都認罪的話，我們將基於你們的誠實把每個人的徒刑降為五年，請你們各自權衡。”在這種情形下，兩個疑犯都將面臨著一個具有決定意義的兩難選擇。

亞當·斯密(Adam Smith)曾提出了理性經濟人的假設，一是經濟人是自私自利的；二是經濟人的行為是理性的，即他們根據處境來判斷自身的利益，追求個人利益儘可能最大化。在一個標準的囚徒困境中，可以用下面這個矩陣來表示：

		罪犯B
		認罪	不認罪
罪犯A	認罪	(5、5)	(0、10)
	不認罪	(10、0)	(1、1)

兩個囚犯面臨同樣的選擇——無論同夥選擇什麼，他們最好都選擇認罪。因為，如果同夥不認罪，那么他們就無罪釋放，否則，他們起碼會被判十年徒刑。在一般情況下，假定每個囚徒都是理性的，他們的選擇通常會出現以下兩種可能情形：以A 為例，第一種可能是：B 認罪，這時如果A 也認罪，那么他們都要入獄5 年；如果A 不認罪，則A 將被判十年，B 無罪釋放，兩相比較下，對於A 來說，認罪顯然是最優策略。第二種是：B 不認罪，這時如果A 認罪，那么B 將被判十年，A 將無罪釋放，如果A 也不認罪，那么他們都將被判一年，這種情形下，A 的最優策略也是認罪。由此可見，對雙方而言，每一個囚犯從個人利益出發，不考慮他人，他們都將選擇認罪。但如果雙方都不認罪，那么等待他們的將是一年的牢獄之苦。也就是說，對個人最有利的認罪策略，卻不是集體(A 和B)的最佳策略。

囚徒困境中彰顯的人性特點和理性信任觀

囚徒困境中個人的理性選擇卻是集體的非理性選擇，從人性的角度來看，就會發現其中包含著人性惡的傾向。如果A 是善的，那么會出現兩種情況，第一種情況是A 堅持不認罪也不供出B，B 同樣也是堅持不認罪也不供出A；第二種情況是，A 堅持不認罪，B 認罪。

如果A 是惡的，那么也會出現兩種情況，第一種情況是A 認罪也供出B，而B 不認罪.第二種情況是A 認罪也供出B，B 也認罪且也供出A 。

從善的角度考慮問題，可能得到最好的(1 年)和最糟的(10 年)的處罰結果；從惡的角度考慮，可能得到最好的(0 年)和最糟的(5年)的處罰結果。A、B 雙方都從自己的利益考慮，選擇惡的可能性會更大些。由此從囚徒困境中看到了人性惡的傾向。

在很多情況下，人面對的是一種集體條件下的困境，即博弈的雙方可能是兩大集團或更多的人，相同的博弈者可能會不斷地重複面對相似的困境，“有條件的合作策略”將可能是理性經濟人的最優策略。

重複為博弈產生了新的動力結構。通過重複，博弈者就可能按對手以往的選擇而決定當前的選擇。例如，存在一種所謂的“一觸即發”策略，即“只要你背叛，我隨後將永遠背叛”，當雙方保持背叛的狀態時，就失去了雙方獲益的機會。而如果雙方合作，其前提是雙方的相互信任，就可能爭取到雙方獲益的機會。還存在另一種所謂的“一報還一報”的策略，以合作開始，然後模仿對方上一步選擇的策略。該策略以信任開始，決不首先背叛。時間嵌入性理論表明，今天的行為(合作或背叛)，將影響再次相遇時所做的選擇。信任是使關係更持久、更穩固的最優選擇。

現實生活中的“囚徒困境”及其應對策略

囚徒困境在現實社會中廣泛存在，而且情形要複雜的多。如汽車尾氣與空氣品質的問題。要保持空氣清潔，汽車主人就要對車安裝防污染的過濾裝置，需要自己負擔費用。而理性個體既想享受清潔的空氣，又不願為此付出代價。還有民眾生育觀的多子多福與人口膨脹的問題，上車不排隊擁擠的問題等等。

要想克服重複條件下的囚徒困境，就要從集體成員的主觀條件入手，使成員在新的基礎上做出最優決策，打破原有的納什均衡，建立新的有價值的納什均衡(納什均衡是經濟學家Nash 提出的，若有N 個人參加博弈，那么在給定他人戰略的情況下，在每一個參與人選擇的最優戰略所形成的戰略組合中，沒有任何一個參與人有積極性選擇其他戰略，也沒有任何人有積極性打破這種均衡)。為此可以採取以下措施：

1、利用強化的作用.制定規則或提供獎懲措施，通過正強化的作用，引導決策者改變自己原有的決策偏好，向著有利於集體利益的方向發展，做出對集體而言的最優策略。

2、創造良好的文化氛圍.囚徒困境說到底其實也是一種道德困境，要解決這種道德困境，就要從根本入手，創造良好的文化氛圍，逐步改變全體的道德觀、價值觀、主觀偏好。深刻認識囚徒困境的弊端，充分利用強化手段，在良好的社會文化氛圍中創造人人都能從全局的利益出發，團結合作，使全社會建立起一種新的有利於全體成員的有價值的納什均衡。

決策策略選擇