增強學習與近似動態規劃

內容簡介

主要內容包括：求解Markov鏈學習預測問題的時域差值學習算法和理論，求解連續空間Markov決策問題的梯度增強學習算法以及進化一梯度混合增強學習算法，基於核的近似動態規划算法，增強學習在移動機器人導航與控制中的套用等。《增強學習與近似動態規劃》是作者在多個國家自然科學基金項目資助下取得的研究成果的總結，意在推動增強學習與近似動態規劃理論與套用的發展，對於智慧型科學的前沿研究和智慧型學習系統的套用具有重要的科學意義。

《增強學習與近似動態規劃》可作為高等院校與科研院所中從事人工智慧與智慧型信息處理、機器人與智慧型控制、智慧型決策支持系統等專業領域的研究和教學用書，也可作為自動化、計算機與管理學領域其他相關專業師生及科研人員的參考書。

圖書目錄

《智慧型科學技術著作叢書》序

前言

第1章緒論

1.1 引言

1.2 增強學習與近似動態規劃的研究概況

1.2.1 增強學習研究的相關學科背景

1.2.2 增強學習算法的研究進展

1.2.3 增強學習的泛化方法與近似動態規劃

1.2.4 增強學習相關理論研究與多Agent增強學習

1.2.5 增強學習套用的研究進展

1.3 移動機器人導航控制方法的研究現狀和發展趨勢

1.3.1 移動機器人體系結構的研究進展

1.3.2 移動機器人反應式導航方法的研究概況

1.3.3 移動機器人路徑跟蹤控制的研究概況

1.4 全書的組織結構

參考文獻

第2章線性時域差值學習理論與算法

2.1 Markov鏈與多步學習預測問題

2.1.1 Markov鏈的基礎理論

2.1.2 基於Markov鏈的多步學習預測問題

2.2 TD(λ)學習算法

2.2.1 表格型TD(λ)學習算法

2.2.2 基於值函式逼近的TD(λ)學習算法

2.3 多步遞推最小二乘TD學習算法及其收斂性理論

2.3.1 多步遞推最小二乘TD(RLS-TD(λ)學習算法

2.3.2 RLS-TD(λ)學習算法的一致收斂性分析

2.4 多步學習預測的仿真研究

2.4.1 HlopWorld問題學習預測仿真

2.4.2 連續狀態隨機行走問題的學習預測仿真

2.5 小結

參考文獻

第3章基於核的時域差值學習算法

3.1 核方法與基於核的學習機器

3.1.1 核函式的概念與性質

3.1.2 再生核Hilbert空間與核函式方法

3.2 核最小二乘時域差值學習算法

3.2.1 線性TD(λ)學習算法

3.2.2 KLS-TD(λ)學習算法

增強學習與近似動態規劃

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條