資料內(nèi)容:
一、強化學(xué)習(xí)基礎(chǔ)面
1.1 介紹一下強化學(xué)習(xí)?
強化學(xué)習(xí)(Reinforcement Learning)是一種時序決策學(xué)習(xí)框架,通過智能體和環(huán)境交互
1.2 介紹一下強化學(xué)習(xí) 的 狀態(tài)(States) 和 觀測(Observations)?
• 狀態(tài)(States):對于世界狀態(tài)的完整描述
• 觀測(Observations):對于一個狀態(tài)的部分描述,可能會缺失一些信息。當(dāng)O=S時,稱O為完美信息/fully
observed;O<S時,稱O為非完美信息/partially observed。
1.3 強化學(xué)習(xí) 有哪些 動作空間(Action Spaces),他們之間的區(qū)別是什么?
• 離散動作空間:當(dāng)智能體只能采取有限的動作,如下棋/文本生成
• 連續(xù)動作空間:當(dāng)智能體的動作是實數(shù)向量,如機械臂轉(zhuǎn)動角度
其區(qū)別會影響policy網(wǎng)絡(luò)的實現(xiàn)方式。
1.4 強化學(xué)習(xí) 有哪些 Policy策略?
• 確定性策略Deterministic Policy: at = u(st),連續(xù)動作空間
• 隨機性策略Stochastic Policy: at ~ π(·|st) ,離散動作空間