左上角:階躍函數(shù) 。右上角: Sigmoid 激活函數(shù) 。左中:雙曲正切 。中右: ReLU 激活(深度神經(jīng)網(wǎng)絡(luò)最常用的激活函數(shù)) 。左下: Leaky ReLU,允許負(fù)數(shù)的 ReLU 變體 。右下: ELU,ReLU 的另一種變體,其性能通常優(yōu)于 Leaky ReLU 。
然而,雖然直觀且易于使用,但階梯函數(shù)不可微,這可能會導(dǎo)致在應(yīng)用梯度下降和訓(xùn)練我們的網(wǎng)絡(luò)時出現(xiàn)問題 。
相反,神經(jīng)網(wǎng)絡(luò)更常見的激活函數(shù)是 sigmoid 函數(shù)它遵循以下等式:
sigmoid 函數(shù)是比簡單階躍函數(shù)更好的學(xué)習(xí)選擇,因為它:
處處連續(xù)且可微 。圍繞y軸對稱 。漸近地接近其飽和值 。這里的主要優(yōu)點是 sigmoid 函數(shù)的平滑性使得設(shè)計學(xué)習(xí)算法變得更加容易 。但是,sigmoid函數(shù)有兩個大問題:
sigmoid 的輸出不是以零為中心的 。飽和神經(jīng)元基本上會殺死梯度,因為梯度的增量非常小 。直到 1990 年代后期,雙曲正切或tanh(具有類似 sigmoid 的形狀)也被大量用作激活函數(shù):tanh的方程如下:
f ( z ) = tanh ( z ) = ( e z -e -z ) / ( e z + e -z )
所述的tanh函數(shù)零為中心,但是,當(dāng)神經(jīng)元變得飽和梯度仍然殺死 。
我們現(xiàn)在知道激活函數(shù)有比 sigmoid 和tanh函數(shù)更好的選擇 。
f ( x ) = max (0 , x )
ReLU 也被稱為“斜坡函數(shù)”,因為它們在繪制時的外觀 。注意函數(shù)對于負(fù)輸入是如何為零的,但對于正值則線性增加 。ReLU 函數(shù)是不可飽和的,并且在計算上也非常高效 。
根據(jù)經(jīng)驗,在RELU激活功能趨于超越sigmoid 和tanh在幾乎所有的應(yīng)用功能 。ReLU 激活函數(shù)比之前的激活函數(shù)家族具有更強(qiáng)的生物動機(jī),包括更完整的數(shù)學(xué)理由 。
截至 2015 年,ReLU 是深度學(xué)習(xí)中最流行的激活函數(shù) 。然而,當(dāng)我們的值為零時會出現(xiàn)一個問題——不能采用梯度 。
ReLU 的一種變體,稱為Leaky ReLU允許在單元不活動時使用小的非零梯度:
我們可以看到該函數(shù)確實允許采用負(fù)值,這與將函數(shù)輸出為零的傳統(tǒng) ReLU 不同 。
Parametric ReLUs,或簡稱 PReLUs,建立在 Leaky ReLUs 的基礎(chǔ)上,允許參數(shù)α在一個激活的基礎(chǔ)上學(xué)習(xí),這意味著網(wǎng)絡(luò)中的每個節(jié)點都可以學(xué)習(xí)與其他節(jié)點分開的不同“系數(shù)” 。
最后,我們還有(ELU)激勵函數(shù)。
α的值是常數(shù),并在網(wǎng)絡(luò)架構(gòu)實例化時設(shè)置——這與學(xué)習(xí)效率α 的PReLU 不同 。對于一個典型的值α是α = 1。ELU 通常比 ReLU 獲得更高的分類準(zhǔn)確率 。
具有 3 個輸入節(jié)點、具有 2 個節(jié)點的隱藏層、具有 3 個節(jié)點的第二個隱藏層以及具有 2 個節(jié)點的最終輸出層的前饋神經(jīng)網(wǎng)絡(luò)示例 。
使用哪個激活函數(shù)?
鑒于最近深度學(xué)習(xí)的普及,激活函數(shù)出現(xiàn)了相關(guān)的爆炸式增長 。由于激活函數(shù)的選擇數(shù)量眾多,現(xiàn)代(ReLU、Leaky ReLU、ELU 等)和“經(jīng)典”(step、sigmoid、tanh等),它可能看起來令人生畏,如何來選擇合適的激活函數(shù) 。
然而,在幾乎所有情況下,建議從 ReLU 開始以獲得基線準(zhǔn)確度 。從那里可以嘗試將標(biāo)準(zhǔn) ReLU 換成 Leaky ReLU 變體 。
前饋網(wǎng)絡(luò)架構(gòu)
雖然有許多神經(jīng)網(wǎng)絡(luò)的前饋架構(gòu),最常見的結(jié)構(gòu)是Feedforward網(wǎng)絡(luò)
在這種類型的架構(gòu)中,節(jié)點之間的連接只允許從第i層的節(jié)點到第i +1層的節(jié)點 。不允許向后或?qū)娱g接連接 。當(dāng)前饋網(wǎng)絡(luò)包括反饋連接(反饋到輸入的輸出連接)時,它們被稱為循環(huán)神經(jīng)網(wǎng)絡(luò) 。
我們專注于前饋神經(jīng)網(wǎng)絡(luò),因為它們是應(yīng)用于計算機(jī)視覺的現(xiàn)代深度學(xué)習(xí)的基石 。卷積神經(jīng)網(wǎng)絡(luò)只是前饋神經(jīng)網(wǎng)絡(luò)的一個特例 。
為了描述一個前饋網(wǎng)絡(luò),我們通常使用一個整數(shù)序列來快速簡潔地表示每一層的節(jié)點數(shù) 。例如,上圖中的網(wǎng)絡(luò)是一個3-2-3-2前饋網(wǎng)絡(luò):
以上關(guān)于本文的內(nèi)容,僅作參考!溫馨提示:如遇健康、疾病相關(guān)的問題,請您及時就醫(yī)或請專業(yè)人士給予相關(guān)指導(dǎo)!
「愛刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容,希望對您有所幫助:- 智能灶臺怎么選? 智能灶臺有哪些功能
- 3款手機(jī)配6000毫安大容量電池 大容量電池智能手機(jī)6000毫安
- 這款華為智能眼鏡有點與眾不同 華為智能眼鏡對比
- 全新華為智能眼鏡閃耀來襲 華為新款智能眼鏡
- 這3款智能手機(jī) 這三款手機(jī)
- 什么是手機(jī)刷新率? fps是什么
- 簡述vpn的工作原理 vpn原理是什么
- 簡述計算機(jī)系統(tǒng)的組成 計算機(jī)系統(tǒng)由什么組成
- 遼寧招生考試之窗:李彥宏百度智能汽車正在研發(fā)當(dāng)中,預(yù)計2023年和大家見面
- 70歲才學(xué)會使用智能手機(jī) 70歲老人用智能手機(jī)
