擴展隨機最優控制:簡介,最優控制,簡介,數學角度,隨機控制理論,最優控制理論,研究

擴展隨機最優控制（extended stochastic optimal control）是指求解有賴於動態規劃的使控制系統的性能指標實現最最佳化的基本條件和綜合控制方法。

對一個受控的動力學系統或運動過程，從一類允許的控制方案中找出一個最優的控制方案，使系統的運動在由某個初始狀態轉移到指定的目標狀態的同時，其性能指標值為最優。這類問題廣泛存在於技術領域或社會問題中。

基本介紹

中文名：擴展隨機最優控制
外文名：extended stochastic optimal control
涉及學科：信息科學
有賴於：動態規劃
目的：使控制系統的性能指標實現最最佳化
套用：自動化

簡介,最優控制,簡介,數學角度,隨機控制理論,最優控制理論,研究內容,隨機最優控制,分析,重要性質,主要方法,古典變分法,極大值原理,動態規劃,最佳化技術,求解方法,最新進展,線上最佳化方法,智慧型最佳化方法,

簡介

裂紋擴展隨機模型中接近實際而又使預測結果偏於保守的是裂紋擴展隨機變數模型[5]，因此在考慮多裂紋擴展的隨機性時仍可以用隨機變數模型來描述每條裂紋的擴展規律.雖然理論上控制各條裂紋擴展的隨機變數不會是相互獨立的，但多裂紋擴展相互干擾的主要因素是應力強度因子的影響，同時也為了數學處理的方便，在工程討論中不妨假設控制各條裂紋擴展的隨機變數是相互獨立的。

基於以上思想可以做出如下基本假設：

每條裂紋擴展可以採用隨機變數模型描述；
多裂紋之間的相互干擾是由於裂紋擴展過程中載荷重新分配導致裂紋尖端應力強度因子變化引起的，而控制各條裂紋擴展的隨機變數之間是相互獨立的。

最優控制

簡介

使控制系統的性能指標實現最最佳化的基本條件和綜合方法，可概括為：對一個受控的動力學系統或運動過程，從一類允許的控制方案中找出一個最優的控制方案，使系統的運動在由某個初始狀態轉移到指定的目標狀態的同時，其性能指標值為最優。這類問題廣泛存在於技術領域或社會問題中。

例如，確定一個最優控制方式使空間飛行器由一個軌道轉換到另一軌道過程中燃料消耗最少。最優控制理論是50年代中期在空間技術的推動下開始形成和發展起來的。美國學者R.貝爾曼1957年提出的動態規劃和前蘇聯學者L.S.龐特里亞金1958年提出的極大值原理，兩者的創立僅相差一年左右。對最優控制理論的形成和發展起了重要的作用。線性系統在二次型性能指標下的最優控制問題則是R.E.卡爾曼在60年代初提出和解決的。

數學角度

從數學上看，確定最優控制問題可以表述為：在運動方程和允許控制範圍的約束下，對以控制函式和運動狀態為變數的性能指標函式（稱為泛函）求取極值（極大值或極小值）。解決最優控制問題的主要方法有古典變分法（對泛函求極值的一種數學方法）、極大值原理和動態規劃。最優控制已被套用於綜合和設計最速控制系統、最省燃料控制系統、最小能耗控制系統、線性調節器等。

研究最優控制問題有力的數學工具是變分理論，而經典變分理論只能夠解決控制無約束的問題，但是工程實踐中的問題大多是控制有約束的問題，因此出現了現代變分理論。

隨機控制理論

隨機控制理論的一個主要組成部分是隨機最優控制，這類隨機控制問題的求解有賴於動態規劃的概念和方法。

隨機控制理論的目標是解決隨機控制系統的分析和綜合問題。維納濾波理論和卡爾曼-布希濾波理論是隨機控制理論的基礎。卡爾曼濾波是一種高效率的遞歸濾波器(自回歸濾波器), 它能夠從一系列的不完全及包含噪聲的測量中，估計動態系統的狀態。

控制理論中把隨機過程理論與最優控制理論結合起來研究隨機系統的分支。隨機系統指含有內部隨機參數、外部隨機干擾和觀測噪聲等隨機變數的系統。隨機變數不能用已知的時間函式描述，而只能了解它的某些統計特性。自動控制系統分為確定性系統和不確定性系統兩類，前者可以通過觀測來確定系統的狀態，後者則不能。

隨機系統是不確定性系統的一種，其不確定性是由隨機性引起的。嚴格地說，任何實際的系統都含有隨機因素，但在很多情況下可以忽略這些因素。當這些因素不能忽略時，按確定性控制理論設計的控制系統的行為就會偏離預定的設計要求，而產生隨機偏差量。

飛機或飛彈在飛行中遇到的陣風，在空間環境中衛星姿態和軌道測量系統中的測量噪聲，各種電子裝置中的噪聲，生產過程中的種種隨機波動等，都是隨機干擾和隨機變數的典型例子。隨機控制系統的套用很廣，涉及航天、航空、航海、軍事上的火力控制系統，工業過程控制，經濟模型的控制，乃至生物醫學等。

隨機控制理論研究的課題包括隨機系統的結構特性和運動特性（如動態特性、能控性、能觀測性、穩定性）的分析，隨機系統狀態的估計，以及隨機控制系統的綜合（即根據期望性能指標設計控制器）。隨機系統中含有隨機變數，所以在研究中需要使用隨機過程的基本概念和機率統計方法。嚴格實現隨機最優控制是很困難的。

對於線性二次型高斯（LQG）隨機過程控制問題，包括它的特例最小方差控制問題，可以套用分離原理把隨機最優控制問題分解成狀態估計問題和確定性最優控制問題，最終能得到全局最優的結果。但對於一般的隨機控制問題套用分離原理只能得到次優的結果。

最優控制理論

最優控制理論（optimal control theory），是現代控制理論的一個主要分支，著重於研究使控制系統的性能指標實現最最佳化的基本條件和綜合方法。最優控制理論是研究和解決從一切可能的控制方案中尋找最優解的一門學科。它是現代控制理論的重要組成部分。

這方面的開創性工作主要是由貝爾曼（R.E.Bellman）提出的動態規劃和龐特里亞金等人提出的最大值原理。這方面的先期工作應該追溯到維納（N.Wiener）等人奠基的控制論（Cybernetics）。1948年維納發表了題為《控制論—關於動物和機器中控制與通訊的科學》的論文，第一次科學的提出了信息、反饋和控制的概念，為最優控制理論的誕生和發展奠定了基礎。

研究內容

最優控制理論所研究的問題可以概括為：對一個受控的動力學系統或運動過程，從一類允許的控制方案中找出一個最優的控制方案，使系統的運動在由某個初始狀態轉移到指定的目標狀態的同時，其性能指標值為最優。這類問題廣泛存在於技術領域或社會問題中。

例如，確定一個最優控制方式使空間飛行器由一個軌道轉換到另一軌道過程中燃料消耗最少，選擇一個溫度的調節規律和相應的原料配比使化工反應過程的產量最多，制定一項最合理的人口政策使人口發展過程中老化指數、撫養指數和勞動力指數等為最優等，都是一些典型的最優控制問題。最優控制理論是50年代中期在空間技術的推動下開始形成和發展起來的。蘇聯學者Л.С.龐特里亞金1958年提出的極大值原理和美國學者R.貝爾曼1956年提出的動態規劃，對最優控制理論的形成和發展起了重要的作用。線性系統在二次型性能指標下的最優控制問題則是R.E.卡爾曼在60年代初提出和解決的。

隨機最優控制

分析

使隨機控制系統的某個性能指標泛函取極小值的控制稱為隨機最優控制。由於存在隨機因素，這種性能指標泛函需要表示為統計平均（求數學期望）的形式。

使性能指標J為極小的最優控制常可取為開環和反饋控制兩種形式。如果控制過程中決定u(t）所依據的只是設計時過程特性和隨機變數的信息，沒有進一步的測量和更新，這種控制策略就稱為是開環的。若在決定t時刻的控制作用u(t）時可以直接利用τ時刻的實時測量值y（τ），則稱控制u(t）具有反饋形式，其中要求τ≤t，這是因果性或物理可實現性所要求的。

按照利用實時信息的充分程度，又可把反饋形式的控制策略分為兩種情形。當只利用這些信息來控制狀態變數，而沒有通過實時觀測來估計和改進各隨機變數的統計特性並修改控制策略時，這種策略稱為是被動反饋式（簡稱反饋式）的。若控制策略兼有上述“控制”和“估計”兩種功能並具有自行修正的能力，則稱為閉環策略（或主動反饋策略）。這種“反饋”和“閉環”的差別是不確定性控制問題所特有的。

A.A.費爾德包姆最先指出閉環隨機最優控制策略的這種雙重功能，並稱之為二重最優控制。閉環（或二重）最優策略可達到在已有信息條件下的最好品質或全局最優解。同時它還具有不斷按照實時測量改進對不確定性的認識並修正策略的功能，也稱為隨機自適應最優控制。閉環最優控制的求解很困難，通常只能根據最優解的定性性質來構造次優解。只對某些特殊問題才可能給出定量解法。

重要性質

隨機最優控制有兩個重要的性質。由於存在不確定性，控制作用常寧可取得弱一些，保守一些。這稱為謹慎控制。另一方面為更好和更快地進行估計，必須不斷激發系統中各種運動模式，為此需要加入一些試探作用。試探作用的大小，則根據增加的誤差、直接費用和所帶來的好處等因素加以折衷權衡進行選擇。謹慎和試探已成為設計隨機控制策略的兩個重要原則。

主要方法

為了解決最優控制問題，必須建立描述受控運動過程的運動方程，給出控制變數的允許取值範圍，指定運動過程的初始狀態和目標狀態，並且規定一個評價運動過程品質優劣的性能指標。通常，性能指標的好壞取決於所選擇的控制函式和相應的運動狀態。系統的運動狀態受到運動方程的約束，而控制函式只能在允許的範圍內選取。因此，從數學上看，確定最優控制問題可以表述為：在運動方程和允許控制範圍的約束下，對以控制函式和運動狀態為變數的性能指標函式（稱為泛函）求取極值（極大值或極小值）。解決最優控制問題的主要方法有古典變分法、極大值原理和動態規劃。

古典變分法

研究對泛函求極值的一種數學方法。古典變分法只能用在控制變數的取值範圍不受限制的情況。在許多實際控制問題中，控制函式的取值常常受到封閉性的邊界限制，如方向舵只能在兩個極限值範圍內轉動，電動機的力矩只能在正負的最大值範圍內產生等。因此，古典變分法對於解決許多重要的實際最優控制問題，是無能為力的。

極大值原理

極大值原理，是分析力學中哈密頓方法的推廣。極大值原理的突出優點是可用於控制變數受限制的情況，能給出問題中最優控制所必須滿足的條件。

動態規劃

動態規劃是數學規劃的一種，同樣可用於控制變數受限制的情況，是一種很適合於在計算機上進行計算的比較有效的方法。

最優控制理論已被套用於最省燃料控制系統、最小能耗控制系統、線性調節器等。

最佳化技術

最優控制的實現離不開最最佳化技術，最最佳化技術是研究和解決最最佳化問題的一門學科，它研究和解決如何從一切可能的方案中尋找最優的方案。也就是說，最最佳化技術是研究和解決如何將最最佳化問題表示為數學模型以及如何根據數學模型儘快求出其最優解這兩大問題。一般而言，用最最佳化方法解決實際工程問題可分為三步進行：

①根據所提出的最最佳化問題，建立最最佳化問題的數學模型，確定變數，列出約束條件和目標函式；

②對所建立的數學模型進行具體分析和研究，選擇合適的最最佳化方法；

③根據最最佳化方法的算法列出程式框圖和編寫程式，用計算機求出最優解，並對算法的收斂性、通用性、簡便性、計算效率及誤差等作出評價。

求解方法

所謂最最佳化問題，就是尋找一個最優控制方案或最優控制規律，使系統能最優地達到預期的目標。在最最佳化問題的數學模型建立後，主要問題是如何通過不同的求解方法解決尋優問題。一般而言，最最佳化方式有離線靜態最佳化方式和線上動態最佳化方式，而最最佳化問題的求解方法大致可分為四類：

1.解析法

對於目標函式及約束條件具有簡單而明確的數學表達式的最最佳化問題，通常可採用解析法來解決。其求解方法是先按照函式極值的必要條件，用數學分析方法求出其解析解，然後按照充分條件或問題的實際物理意義間接地確定最優解。

這種方法適用於性能指標及約束有明顯解析表達式的情況。其一般步是先用求導方法或變分法求出最優控制的必要條件，得到一組方程或不等式，然後求解這組方程或不等式，得到最優控制的解析解即為所求的最優控制。解析法大致可分為兩大類。第一類，無約束時，採用微分法或變分法。第二類，有約束時，採用極大值原理或動態規劃。

（1）變分法：當控制向量不受約束時，引入哈密頓函式，套用變分法可以導出最優控制的必要條件，即正則方程、控制方程、邊界條件、橫截條件。

（2）極大值原理：在用變分法求解最優控制問題時，是假定控制向量u(O)不受任何限制，即容許控制集合可以看成是整個P維控制空間開集，控制變分u是任意的，同時還要求哈密頓出數H對u連續可微，但在實際工程上，控制變數往往受到一定的限制，這時可以用極大值原理來求解最優控制問題，這種方法其實是由變分法引申而來的，但由於它能套用於控制變數u(t)受邊界限制的情況，並且不要求哈密頓出數H對u連續可微，因此獲得了廣泛的套用。

（3）動態規劃：極大值原理一樣，是處理控制向量限制在一定閉集內的最優控制問題的有效數學方法，它把複雜的最優控制間題變為多級決策過程的遞推函式關係，其基礎和核心時最優性原理即在一個多級決策問題中無論初始狀態和初始決策如何，當把其中的任何一級和狀態再作為初始級和初始狀態時，如下的決定對與這一級開始往後的多級決策過程的一部分必定仍然是一個最優決策。因此，利用這一最優性原理必然可把一個多級決策問題化為最優的單級決策問題並且本級決策與本級以前的任何決策無關，只與本級的初始位置和初始決策有關。對於連續系統用動態規劃法求最優控制問題時，可以先把連續系統離散化，用有限差分方程近似代替連續方程，然後用離散動態規劃法求解。

2.數值解法（直接法）

對於目標函式較為複雜或無明確的數學表達式或無法用解析法求解的最最佳化問題，通常可採用直接法來解決。直接法的基本思想，就是用直接搜尋方法經過一系列的疊代以產生點的序列，使之逐步接近到最優點。直接法常常是根據經驗或實驗而得到的。[1]

性能指標比較複雜或不能用變數顯函式表示時，可以採用直接搜尋法，經過若干次疊代搜尋到最優點，數值計算法可以分為兩大類：

（1）區間消去法，又稱為一維搜尋法，適用於求解單變數極值問題。主要有黃金分割法、多項式插值法等。

（2）爬山法，又稱多維搜尋法，適用於求解多變數極值問題。主要有坐標輪轉法、步長加速法等。

3.解析與數值相結合的尋優方法（梯度型法）

是一種解析與數值計算相結合的方法。主要包括兩大類：一種是無約束梯度法，如陡降法、擬牛頓法等。第二類是有約束梯度法，如可行方向法、梯度投影法。

4.網路最最佳化方法

這種方法以網路圖作為數學模型，用圖論方法進行搜尋的尋優方法。

最新進展

線上最佳化方法

基於對象數學模型的離線最佳化方法是一種理想化方法。這是因為儘管工業過程（對象）被設計得按一定的正常工況連續運行，但是環境的變動、觸媒和設備的老化以及原料成分的變動等因素形成了對工業過程的擾動，因此原來設計的工況條件就不是最優的。

解決此類問題的常見方法。

(1)局部參數最最佳化和整體最最佳化設計方法

局部參數最最佳化方法的基本思想是：按照參考模型和被控過程輸出之差來調整控制器可調參數，使輸出誤差平方的積分達到最小。這樣可使被控過程和參考模型儘快地精確一致。

此外，靜態最優與動態最優相結合，可變局部最優為整體最優。整體最優由總體目標函式體現。整體最優由兩部分組成：一種是靜態最優（或離線最優），它的目標函式在一段時間或一定範圍內是不變的；另一種是動態最優（或線上最優），它是指整個工業過程的最最佳化。工業過程是一個動態過程，要讓一個系統始終處於最最佳化狀態，必須隨時排除各種干擾，協調好各局部最佳化參數或各現場控制器，從而達到整個系統最優。

(2)預測控制中的滾動最佳化算法

預測控制，又稱基於模型的控制（Model-based Control），是70年代後期興起的一種新型最佳化控制算法。但它與通常的離散最優控制算法不同，不是採用一個不變的全局最佳化目標，而是採用滾動式的有限時域最佳化策略。這意味著最佳化過程不是一次離線進行，而是反覆線上進行的。這種有限化目標的局部性使其在理想情況下只能得到全局的次優解，但其滾動實施，卻能顧及由於模型失配、時變、干擾等引起的不確定性，及時進行彌補，始終把新的最佳化建立在實際的基礎之上，使控制保持實際上的最優。這種啟發式的滾動最佳化策略，兼顧了對未來充分長時間內的理想最佳化和實際存在的不確定性的影響。在複雜的工業環境中，這比建立在理想條件下的最優控制更加實際有效。

預測控制的最佳化模式具有鮮明的特點：它的離散形式的有限最佳化目標及滾動推進的實施過程，使得在控制的全過程中實現動態最佳化，而在控制的每一步實現靜態參數最佳化。用這種思路，可以處理更複雜的情況，例如有約束、多目標、非線性乃至非參數等。吸取規劃中的分層思想，還可把目標按其重要性及類型分層，實施不同層次的最佳化。顯然，可把大系統控制中分層決策的思想和人工智慧型方法引入預測控制，形成多層智慧型預測控制的模式。這種多層智慧型預測控制方法的，將克服單一模型的預測控制算法的不足，是當前研究的重要方向之一。

(3)穩態遞階控制

對複雜的大工業過程（對象）的控制常採用集散控制模式。這時計算機線上穩態最佳化常採用遞階控制結構。這種結構既有控制層又有最佳化層，而最佳化層是一個兩級結構，由局部決策單元級和協調器組成。其最佳化進程是：各決策單元並行回響子過程最佳化，由上一級決策單元（協調器）協調各最佳化進程，各決策單元和協調器通過相互疊代找到最優解。這裡必須提到波蘭學者Findeisen等所作出的重要貢獻。

由於工業過程較精確的數學模型不易求得，而且工業過程（對象）往往呈非線性及慢時變性，因此波蘭學者Findesien提出：最佳化算法中採用模型求得的解是開環最佳化解。在大工業過程線上穩態控制的設計階段，開環解可以用來決定最優工作點。但在實際使用上，這個解未必能使工業過程處於最優工況，相反還會違反約束。他們提出的全新思想是：從實際過程提取關聯變數的穩態信息，並反饋至上一層協調器（全局反饋）或局部決策單元（局部反饋），並用它修正基於模型求出的的最優解，使之接近真實最優解。

(4)系統最佳化和參數估計的集成研究方法

穩態遞階控制的難點是，實際過程的輸入輸出特性是未知的。波蘭學者提出的反饋校正機制，得到的只能是一個次優解。但其主要缺點在於一般很難準確估計次優解偏離最優解的程度，而且次優解的次優程度往往依賴於初始點的選取。一個自然的想法是將最佳化和參數估計分開處理並交替進行，直到疊代收斂到一個解。這樣計算機的線上最佳化控制就包括兩部分任務：在粗模型（粗模型通常是能夠得到的）基礎上的最佳化和設定點下的修正模型。這種方法稱為系統最佳化和參數估計的集成研究方法。 (Integrated System Optimizationand Parameter Estimation)

智慧型最佳化方法

對於越來越多的複雜控制對象，一方面，人們所要求的控制性能不再單純的局限於一兩個指標；另一方面，上述各種最佳化方法，都是基於最佳化問題具有精確的數學模型基礎之上的。但是許多實際工程問題是很難或不可能得到其精確的數學模型的。這就限制了上述經典最佳化方法的實際套用。隨著模糊理論、神經網路等智慧型技術和計算機技術的發展。

智慧型式的最佳化方法得到了重視和發展。

(1)神經網路最佳化方法

人工神經網路的研究起源於1943年和Mc Culloch和Pitts的工作。在最佳化方面，1982年Hopfield首先引入Lyapuov能量函式用於判斷網路的穩定性，提出了Hopfield單層離散模型；Hopfield和Tank又發展了Hopfield單層連續模型。1986年，Hopfield和Tank將電子電路與Hopfield模型直接對應，實現了硬體模擬；Kennedy和Chua基於非線性電路理論提出了模擬電路模型，並使用系統微分方程的Lyapuov函式研究了電子電路的穩定性。這些工作都有力地促進了對神經網路最佳化方法的研究。

根據神經網路理論，神經網路能量函式的極小點對應於系統的穩定平衡點，這樣能量函式極小點的求解就轉換為求解系統的穩定平衡點。隨著時間的演化，網路的運動軌道在空間中總是朝著能量函式減小的方向運動，最終到達系統的平衡點——即能量函式的極小點。因此如果把神經網路動力系統的穩定吸引子考慮為適當的能量函式（或增廣能量函式）的極小點，最佳化計算就從一初始點隨著系統流到達某一極小點。如果將全局最佳化的概念用於控制系統，則控制系統的目標函式最終將達到希望的最小點。這就是神經最佳化計算的基本原理。

與一般的數學規劃一樣，神經網路方法也存在著重分析次數較多的弱點，如何與結構的近似重分析等結構最佳化技術結合，減少疊代次數是今後進一步研究的方向之一。

由於Hopfield模型能同時適用於離散問題和連續問題，因此可望有效地解決控制工程中普遍存在的混合離散變數非線性最佳化問題。

(2)遺傳算法

遺傳算法和遺傳規劃是一種新興的搜尋尋優技術。它仿效生物的進化和遺傳，根據“優勝劣汰”原則，使所要求解決的問題從初始解逐步地逼近最優解。在許多情況下，遺傳算法明顯優於傳統的最佳化方法。該算法允許所求解的問題是非線性的和不連續的，並能從整個可行解空間尋找全局最優解和次優解，避免只得到局部最優解。這樣可以為我們提供更多有用的參考信息，以便更好地進行系統控制。同時其搜尋最優解的過程是有指導性的，避免了一般最佳化算法的維數災難問題。遺傳算法的這些優點隨著計算機技術的發展，在控制領域中將發揮越來越大的作用。

研究表明，遺傳算法是一種具有很大潛力的結構最佳化方法。它用於解決非線性結構最佳化、動力結構最佳化、形狀最佳化、拓撲最佳化等複雜最佳化問題，具有較大的優勢。

(3)模糊最佳化方法

最最佳化問題一直是模糊理論套用最為廣泛的領域之一。

自從Bellman和Zadeh在 70年代初期對這一研究作出開創性工作以來，其主要研究集中在一般意義下的理論研究、模糊線性規劃、多目標模糊規劃、以及模糊規劃理論在隨機規劃及許多實際問題中的套用。主要的研究方法是利用模糊集的a截集或確定模糊集的隸屬函式將模糊規劃問題轉化為經典的規劃問題來解決。

模糊最佳化方法與普通最佳化方法的要求相同，仍然是尋求一個控制方案（即一組設計變數），滿足給定的約束條件，並使目標函式為最優值，區別僅在於其中包含有模糊因素。普通最佳化可以歸結為求解一個普通數學規劃問題，模糊規劃則可歸結為求解一個模糊數學規劃(fuzzymathematicalprogramming)問題。包含控制變數、目標函式和約束條件，但其中控制變數、目標函式和約束條件可能都是模糊的，也可能某一方面是模糊的而其它方面是清晰的。例如模糊約束的最佳化設計問題中模糊因素是包含在約束條件（如幾何約束、性能約束和人文約束等）中的。求解模糊數學規劃問題的基本思想是把模糊最佳化轉化為非模糊最佳化即普通最佳化問題。方法可分為兩類：一類是給出模糊解（fuzzysolution）；另一類是給出一個特定的清晰解（crispsolution）。必須指出，上述解法都是對於模糊線性規劃（fuzzylinearprogramming）提出的。然而大多數實際工程問題是由非線形模糊規劃（fuzzynonlinearprogramming）加以描述的。於是有人提出了水平截集法、限界搜尋法和最大水平法等，並取得了一些可喜的成果。

在控制領域中，模糊控制與自學習算法、模糊控制與遺傳算法相融合，通過改進學習算法、遺傳算法，按給定最佳化性能指標，對被控對象進行逐步尋優學習，從而能夠有效地確定模糊控制器的結構和參數。

擴展隨機最優控制