Python知識分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
強化學(xué)習(xí)在自然語言處理下的應(yīng)用篇 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-04-22 09:59:06
(侵權(quán)舉報)
(假如點擊沒反應(yīng),多刷新兩次就OK!)

強化學(xué)習(xí)在自然語言處理下的應(yīng)用篇 PDF 下載 圖1

 

 

資料內(nèi)容:

 

一、強化學(xué)習(xí)基礎(chǔ)面
1.1 介紹一下強化學(xué)習(xí)?
強化學(xué)習(xí)(Reinforcement Learning)是一種時序決策學(xué)習(xí)框架,通過智能體和環(huán)境交互
 
1.2 介紹一下強化學(xué)習(xí) 的 狀態(tài)(States) 和 觀測(Observations)?
狀態(tài)(States):對于世界狀態(tài)的完整描述
觀測(Observations):對于一個狀態(tài)的部分描述,可能會缺失一些信息。當(dāng)O=S時,稱O為完美信息/fully
observed;O<S時,稱O為非完美信息/partially observed
 
1.3 強化學(xué)習(xí) 有哪些 動作空間(Action Spaces),他們之間的區(qū)別是什么?
離散動作空間:當(dāng)智能體只能采取有限的動作,如下棋/文本生成
連續(xù)動作空間:當(dāng)智能體的動作是實數(shù)向量,如機械臂轉(zhuǎn)動角度
其區(qū)別會影響policy網(wǎng)絡(luò)的實現(xiàn)方式。
 
1.4 強化學(xué)習(xí) 有哪些 Policy策略?
確定性策略Deterministic Policy at = u(st),連續(xù)動作空間
隨機性策略Stochastic Policy at ~ π(·|st) ,離散動作空間