被動強化學習

背景

傳統的機器學習系統是一個模型逐漸最佳化的學習系統，學習的終極目標是收斂到一個最優解，期待是確定的數學模型。傳統的ML系統方法期待模型直接學習到模式的空間結構，並得到空間結構的等價模型映射，相對於任意模型，學習到的模型是e精度最優的，即是e精度最接近的，這就意味著最大的準確率和最大的泛化性能。

跨越到連線主義的範疇，強化學習是一個反饋式學習系統，其期待是一個不斷根據反饋進行最佳化的模型，並非一次成型。

專家系統由專家構建明確的推理規則和知識節點，模型約束為邏輯約束；監督學習構建明確的函式模型和模型參數，模型約束為拓撲約束；非監督學習形式與監督學習不同而結果相同。強化學習系統附加了一個強化規則/函式，用於實時更新模型。

專家系統、機器學習系統可以構建一個反饋系統的外圍，構建一個強化學習系統，以應對互動和反饋、以及時序輸入和線上模型更新。

直接效用估計

由widrow和hoff在1950s末末期在自適應控制理論裡面提出的直接效用估計。思想為：認為一個狀態的效用是從該狀態開始往後的期望總回報，二每次實驗對於每個被訪問狀態提供了該值的一個樣本。

直接效用估計使RL成為監督學習的一個實例，其中每一個學習都以狀態為輸入，以觀察得到的未來回報為輸出。此時，RL已經被簡化為標準歸納學習問題。

後記：作為作準歸納學習的直接效用估計，是穩定的且收斂的。

時序差分學習

時序差分學習TD.（Timporal-difference）：求解內在的MDP並不是讓Berman方程來承擔學習問題的唯一方法。另外一種方法是：使用觀察到的轉移來調整觀察到的狀態的效用，使得它滿足約束方程。

ADP方法和TD方法實際上是緊密相關的。二者都試圖對效用估計進行局部調整，以使每一狀態都與其後繼狀態相“一致”。一個差異在於 TD調整一個狀態使其與所有已觀察的後繼狀態相一致，而ADP則調整該狀態使其與所有可能出現的後繼狀態相一致，根據機率進行加權演化出的近似ADP算法可以提高几個數量級的運算速度。

被動強化學習

基本介紹

背景

直接效用估計

時序差分學習

相關詞條

熱門詞條