多智慧型體機器學習：強化學習方法

內容簡介

本書主要介紹了多智慧型體機器人強化學習的相關內容。全書共6章，首先介紹了幾種常用的監督式學習方法，在此基礎上，介紹了單智慧型體強化學習中的學習結構、值函式、馬爾科夫決策過程、策略疊代、時間差分學習、Q學習和資格跡等概念和方法。然後，介紹了雙人矩陣博弈問題、多人隨機博弈學習問題，並通過3種博弈遊戲詳細介紹了納什均衡、學習算法、學習自動機、滯後錨算法等內容，並提出LR-I滯後錨算法和指數移動平均Q學習算法等，並進行了分析比較。接下來，介紹了模糊系統和模糊學習，並通過仿真示例詳細分析算法。後，介紹了群智慧型學習進化以及性格特徵概念和套用。全書內容豐富，重點突出。

作者簡介

連曉峰現為中國電子學會高級會員，系統仿真學會會員，北京高新技術企業認定委員會專家庫專家整阿夜，《機器人技術與套用》雜誌社理事，國家工信部工業和信息化科技人才專家庫專家。

圖書目錄

譯者序

原書前言

第1章監督式學習概述

1 1 LS算法

1 2 RLS算法

1 3 LMS算法

1 4隨籃催棄剃櫻轎詢機逼近法

參考文獻

第2章單智慧型體強化學習

2 1簡介

2 2 n臂賭博機問題

2 3學習結構

2 4值函式

2 5最優值函式

2 5.1格線示例

2 6 MDP

2 7學習值函式

2 8策略疊代

2 9 時間差分學習

2 10狀態一行為函式的時間員鍵重差分學習

2 11 Q學習

2 12資格跡

參考文獻

第3章雙人矩陣博弈學習

3 1矩陣博弈

3 2雙人矩陣博弈中的納什均衡

3 3雙人零和矩陣博弈中的線性規劃

3 4學習算法

3 5梯度達協滲上升算法

3 6 WoLF - IGA算法

3 7 PHC算法

3 8 WoLF - PHC算法

3 9矩陣博弈中的分散式學習

3 10學習自動機

3 11線性回報一無為算法

3 12線性回報一懲罰算法

3 13滯後錨算法

3 14 LR．滯後錨算法

3 14.1仿真

參考文獻

第4章多人隨機博弈學習

4 1簡介

4 2多人隨機博弈

4 3極大極小Q學習算法

4 3.1 2 x2格線博弈

4 4納什Q學習算法

4 4.1學習過程

4 5單純形算法

4 6 Lemke - Howson算法

4 7納什Q學習算檔鴉法實現

4 8朋友或敵人Q學習算法

4 9無限梯度上升算法

4 10 PHC算法

4 11 WoLF - PHC算法

4 12 格線世界中的疆土防禦問題

4 12.1仿真和結果

4 13 LR．滯後錨算法在隨機博弈中的擴展

4 14 EMA Q學習算法

4 15 EMA Q學習與其他方法的仿真與結果比較

4 15.1矩陣博弈

4 15 2隨機博弈

參考文獻

第5章微分博弈

5 1簡介

5 2模糊系統簡述

5 2.1模糊集和模糊規則

5 2 2模糊推理機

5 2 3模糊化與去模糊化

5 2 4模糊系統及其示例

5 3模糊Q學習

5 4 FACL

5 5瘋狂司機微分博弈

5 6模糊控制器結構

5.7 Q(A)學習模糊推理系統

5 8瘋狂司機博弈的仿真結果

5 9雙車追捕者一逃跑者博弈中的學習算法

5 10雙車博弈仿真

5 11 疆土防禦微分博弈

5 12疆土防禦微分設歡白榜博弈中的形成回報

5 13仿真結果

5 13.1 -個防禦者對一個人侵者

5 13 2兩個防禦者對一個人侵者

參考文獻

第6章群智慧型與性格特徵的進化

6 1簡介

6 2群智慧型的進化

6 3環境表征

6 4群機器人的性格特徵

6 5性格特徵的進化

6 6仿真結構框架

6 7零和博弈示例

6 7.1收斂性

6 7 2仿真結果

6 8後續仿真實現

6 9機器人走出房間

6 10機器人跟蹤目標

6 11小結

參考文獻

多智慧型體機器學習：強化學習方法

基本介紹

內容簡介

作者簡介

圖書目錄

熱門詞條