Python知識(shí)分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
深度學(xué)習(xí)面試題-圖像算法 DOC 下載
匿名網(wǎng)友發(fā)布于:2025-05-18 11:17:48
(侵權(quán)舉報(bào))
(假如點(diǎn)擊沒反應(yīng),多刷新兩次就OK!)

深度學(xué)習(xí)面試題-圖像算法 DOC 下載  圖1

 

 

資料內(nèi)容:

 

 

1.2為什么ReLU常用于神經(jīng)網(wǎng)絡(luò)的激活函數(shù)?

1.前向傳播反向傳播過程中,ReLU相比于Sigmoid等激活函數(shù)計(jì)算量小;

2.避免梯度消失問題。對(duì)于深層網(wǎng)絡(luò),Sigmoid函數(shù)反向傳播時(shí),很容易就會(huì)出現(xiàn)梯度消失問題(在Sigmoid接近飽和區(qū)時(shí),變換太緩慢,導(dǎo)數(shù)趨于0,這種情況會(huì)造成信息丟失),從而無法完成深層網(wǎng)絡(luò)的訓(xùn)練。

3.可以緩解過擬合問題的發(fā)生。Relu會(huì)使一部分神經(jīng)元的輸出為0,這樣就造成了網(wǎng)絡(luò)的稀疏性,并且減少了參數(shù)的相互依存關(guān)系,緩解了過擬合問題的發(fā)生。

4.相比Sigmoid型函數(shù),ReLU函數(shù)有助于隨機(jī)梯度下降方法收斂。

為什么需要激活功能?

激活函數(shù)是用來加入非線性因素的,因?yàn)榫€性模型的表達(dá)能力不夠。

1.3 梯度消失和梯度爆炸的解決方案?梯度爆炸引發(fā)的問題?

梯度消失:靠近輸出層的hidden layer 梯度大,參數(shù)更新快,所以很快就會(huì)收斂;

而靠近輸入層的hidden layer 梯度小,參數(shù)更新慢,幾乎就和初始狀態(tài)一樣,隨機(jī)分布。 

另一種解釋:當(dāng)反向傳播進(jìn)行很多層的時(shí)候,由于每一層都對(duì)前一層梯度乘以了一個(gè)小數(shù),因此越往前傳遞,梯度就會(huì)越小,訓(xùn)練越慢。

梯度爆炸:前面layer的梯度通過訓(xùn)練變大,而后面layer的梯度指數(shù)級(jí)增大

深度多層感知機(jī)(MLP)網(wǎng)絡(luò)中,梯度爆炸會(huì)引起網(wǎng)絡(luò)不穩(wěn)定,最好的結(jié)果是無法從訓(xùn)練數(shù)據(jù)中學(xué)習(xí),而最壞的結(jié)果是出現(xiàn)無法再更新的 NaN 權(quán)重值。

RNN中,梯度爆炸會(huì)導(dǎo)致網(wǎng)絡(luò)不穩(wěn)定,無法利用訓(xùn)練數(shù)據(jù)學(xué)習(xí),最好的結(jié)果是網(wǎng)絡(luò)無法學(xué)習(xí)長(zhǎng)的輸入序列數(shù)據(jù)