資料內(nèi)容:
(一)Q - learning 核心原理
Q - learning 是一種基于值函數(shù)的強(qiáng)化學(xué)習(xí)算法 ,在強(qiáng)化學(xué)習(xí)領(lǐng)域占據(jù)著舉足輕重的地位,是理解和
掌握其他復(fù)雜強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)。它的核心是學(xué)習(xí)一個(gè)動(dòng)作價(jià)值函數(shù) Q (s, a),這個(gè)函數(shù)表示在狀態(tài)
s 下采取動(dòng)作 a 后,智能體所能獲得的期望累積獎(jiǎng)勵(lì)。Q 值代表了在給定狀態(tài)下采取該動(dòng)作的長(zhǎng)期價(jià)值
,智能體的目標(biāo)就是通過(guò)不斷學(xué)習(xí),找到每個(gè)狀態(tài)下 Q 值最大的動(dòng)作,從而形成最優(yōu)策略。
Q - learning 的更新過(guò)程基于貝爾曼方程(Bellman Equation),其更新公式如下:
Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s',a') - Q(s,a)]
在這個(gè)公式中:
? \alpha 是學(xué)習(xí)率(Learning Rate),取值范圍通常在 0 到 1 之間 ,它控制著每次更新 Q 值時(shí)學(xué)習(xí)的
步長(zhǎng)。如果 \alpha 取值較大,智能體更傾向于學(xué)習(xí)新的經(jīng)驗(yàn),對(duì)新信息的反應(yīng)迅速,但可能會(huì)導(dǎo)致學(xué)
習(xí)過(guò)程不穩(wěn)定,容易受到噪聲的影響;若 \alpha 取值較小,Q 值的更新較為緩慢和穩(wěn)定,不過(guò)學(xué)習(xí)速
度會(huì)變慢,可能需要更多的訓(xùn)練次數(shù)才能收斂 。例如,在一個(gè)簡(jiǎn)單的迷宮探索任務(wù)中,當(dāng) \alpha = 0.
9 時(shí),智能體在遇到新的路徑時(shí),會(huì)迅速調(diào)整 Q 值,快速嘗試新的路線;而當(dāng) \alpha = 0.1 時(shí),智能體
對(duì)新路徑的學(xué)習(xí)較為謹(jǐn)慎,更依賴之前積累的經(jīng)驗(yàn)。
? \gamma 為折扣因子(Discount Factor),同樣取值于 0 到 1 之間,它用于衡量未來(lái)獎(jiǎng)勵(lì)的當(dāng)前價(jià)值
,反映了智能體對(duì)未來(lái)獎(jiǎng)勵(lì)的重視程度。當(dāng) \gamma 越接近 1 ,表示智能體更看重未來(lái)的獎(jiǎng)勵(lì),會(huì)著
眼于長(zhǎng)期利益,追求長(zhǎng)遠(yuǎn)的最優(yōu)策略;當(dāng) \gamma 越接近 0 ,智能體則更關(guān)注眼前的即時(shí)獎(jiǎng)勵(lì),更注
重短期的收益。比如在投資決策場(chǎng)景中,若 \gamma = 0.95 ,投資者會(huì)更考慮未來(lái)資產(chǎn)的增值潛力;
若 \gamma = 0.1 ,投資者可能更關(guān)注當(dāng)下的即時(shí)回報(bào)。
? r 表示即時(shí)獎(jiǎng)勵(lì)(Immediate Reward),是智能體在執(zhí)行動(dòng)作 a 后從環(huán)境中獲得的直接反饋,這個(gè)獎(jiǎng)
勵(lì)信號(hào)直接反映了當(dāng)前動(dòng)作的好壞程度。例如在游戲中,成功消滅敵人獲得的積分、完成任務(wù)獲得的
道具等都是即時(shí)獎(jiǎng)勵(lì)。
? s' 代表下一個(gè)狀態(tài)(Next State),即智能體執(zhí)行動(dòng)作 a 后,環(huán)境轉(zhuǎn)移到的新?tīng)顟B(tài)。
? \max_{a'} Q(s',a') 表示在新?tīng)顟B(tài) s' 下,所有可能動(dòng)作中 Q 值的最大值,它代表了智能體在下一狀態(tài)下
預(yù)計(jì)能獲得的最大未來(lái)回報(bào),體現(xiàn)了智能體對(duì)未來(lái)最優(yōu)決策的預(yù)期。