Activation Function

傳統(tǒng)激活函數(shù)(Sigmoid)

傳統(tǒng)激活函數(shù)Sigmoid:Sigmoid 是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中常用的一種激活函數(shù),尤其在早期的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中。

Sigmoid 函數(shù)的輸出始終在 0 和 1 之間,這使得它經(jīng)常被用于二分類問(wèn)題中,其中輸出可以解釋為屬于某一類的概率。

激活函數(shù)Tanh(Sigmoid雙曲線版本)Tanh函數(shù)是Sigmoid函數(shù)的雙曲版本,它將任何實(shí)數(shù)映射到-1到1之間。

Tanh函數(shù)是雙曲正切函數(shù),其輸出值在-1和1之間,常用于神經(jīng)網(wǎng)絡(luò)隱藏層,以提供比Sigmoid函數(shù)更廣的激活范圍。

主流激活函數(shù)(ReLU)

主流激活函數(shù)ReLU:ReLU(Rectified Linear Unit)是當(dāng)今深度學(xué)習(xí)領(lǐng)域中最主流的激活函數(shù)之一。

與傳統(tǒng)的Sigmoid和Tanh激活函數(shù)相比,ReLU函數(shù)在輸入為正數(shù)時(shí)導(dǎo)數(shù)為1,在輸入為負(fù)數(shù)時(shí)導(dǎo)數(shù)為0,這有效地避免了梯度消失問(wèn)題。由于ReLU函數(shù)的非線性特性和計(jì)算簡(jiǎn)單性,它可以幫助神經(jīng)網(wǎng)絡(luò)更快地收斂到最優(yōu)解。

激活函數(shù)Leaky ReLU(ReLU改進(jìn)版本)Leaky ReLU是一種改進(jìn)的ReLU激活函數(shù),旨在解決傳統(tǒng)ReLU在輸入小于等于0時(shí)導(dǎo)致的神經(jīng)元“死亡”問(wèn)題。它通過(guò)允許一個(gè)小的、固定的梯度通過(guò)負(fù)值區(qū)域來(lái)實(shí)現(xiàn)這一點(diǎn)。

注意:雖然上面的公式直接使用了0.01作為α的值,但在實(shí)際應(yīng)用中,α可以是一個(gè)在(0, 1)區(qū)間內(nèi)的任意小正數(shù),具體值需要根據(jù)任務(wù)和數(shù)據(jù)集進(jìn)行調(diào)整。

與ReLU相比,Leaky ReLU的主要優(yōu)勢(shì)在于它能夠解決神經(jīng)元“死亡”問(wèn)題。然而,在某些情況下,ReLU可能由于其簡(jiǎn)單的形式和計(jì)算效率而更受歡迎。因此,在選擇激活函數(shù)時(shí),需要根據(jù)具體任務(wù)和數(shù)據(jù)集的特點(diǎn)進(jìn)行權(quán)衡。

輸出層激活函數(shù)(Softmax)

多分類問(wèn)題激活函數(shù)SoftmaxSoftmax函數(shù)是一種用于多分類問(wèn)題的激活函數(shù),它將神經(jīng)網(wǎng)絡(luò)的輸出(logits-原始未經(jīng)處理的得分)轉(zhuǎn)換為一個(gè)概率分布。轉(zhuǎn)換后的每個(gè)值都在0和1之間,且所有值的總和為1,這使得Softmax函數(shù)非常適合用于表示各個(gè)類別的概率。

Softmax是一種歸一化函數(shù),它將一個(gè)數(shù)值向量轉(zhuǎn)換為概率分布向量,使得輸出值落在0到1之間,且所有輸出值的總和為1。

神經(jīng)網(wǎng)絡(luò)(Neural network)

神經(jīng)網(wǎng)絡(luò)是一種受人腦啟發(fā)的機(jī)器學(xué)習(xí)算法,它模仿大腦中神經(jīng)元相互發(fā)出信號(hào)的方式。它由互連的節(jié)點(diǎn)或“神經(jīng)元”組成,這些節(jié)點(diǎn)被組織成層。通過(guò)對(duì)輸入進(jìn)行加權(quán)、計(jì)算總和以及應(yīng)用非線性激活函數(shù),神經(jīng)網(wǎng)絡(luò)能夠?qū)?/strong>輸入數(shù)據(jù)轉(zhuǎn)換為不同的表示形式,直到產(chǎn)生輸出

Neural network

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)(Neural Network)是什么?神經(jīng)網(wǎng)絡(luò)是由大量的節(jié)點(diǎn)(“神經(jīng)元”)相互連接而成的網(wǎng)絡(luò)結(jié)構(gòu),這些節(jié)點(diǎn)在網(wǎng)絡(luò)中相互連接,可以處理復(fù)雜的數(shù)據(jù)輸入,執(zhí)行各種任務(wù),如分類、回歸、模式識(shí)別等。

神經(jīng)網(wǎng)絡(luò)的工作原理是什么?模擬人腦神經(jīng)系統(tǒng)的功能,通過(guò)多個(gè)節(jié)點(diǎn)(神經(jīng)元)的連接和計(jì)算,實(shí)現(xiàn)非線性模型的組合和輸出。每個(gè)節(jié)點(diǎn)接收來(lái)自前一層節(jié)點(diǎn)的輸入,進(jìn)行加權(quán)和,加上偏置,然后通過(guò)激活函數(shù)處理,輸出到下一層。

  1. 節(jié)點(diǎn)(神經(jīng)元):神經(jīng)網(wǎng)絡(luò)的基本單元,模擬生物神經(jīng)元的功能。
  2. 層次:包括輸入層、隱藏層和輸出層。輸入層負(fù)責(zé)接收輸入數(shù)據(jù),隱藏層位于輸入層和輸出層之間,進(jìn)行數(shù)據(jù)的加工和轉(zhuǎn)換,輸出層輸出最終的計(jì)算結(jié)果。
  3. 權(quán)重:連接不同神經(jīng)元的參數(shù),代表一個(gè)神經(jīng)元輸出對(duì)另一個(gè)神經(jīng)元輸出的影響力。在訓(xùn)練過(guò)程中,神經(jīng)網(wǎng)絡(luò)通過(guò)調(diào)整權(quán)重來(lái)學(xué)習(xí)數(shù)據(jù)中的模式。
  4. 偏置:加到加權(quán)和上的一個(gè)常數(shù),可以看作是每個(gè)神經(jīng)元的一個(gè)額外輸入。偏置允許神經(jīng)元即使在所有輸入都為零時(shí)也有非零的輸出。
  5. 激活函數(shù):決定神經(jīng)元是否應(yīng)該被激活(即輸出信號(hào))的函數(shù)。常見(jiàn)的激活函數(shù)包括Sigmoid、ReLU等。

從感知機(jī)到神經(jīng)網(wǎng)絡(luò):神經(jīng)網(wǎng)絡(luò)起源于20世紀(jì)40-50年代的MP模型和感知機(jī),歷經(jīng)兩次低谷與兩次興起

激活函數(shù)

激活函數(shù)(Activation Function)是什么?激活函數(shù)是神經(jīng)網(wǎng)絡(luò)中神經(jīng)元節(jié)點(diǎn)上的一種函數(shù),用于將神經(jīng)元的輸入映射到輸出。它決定了節(jié)點(diǎn)是否應(yīng)該被激活(即,是否讓信息通過(guò)該節(jié)點(diǎn)繼續(xù)在網(wǎng)絡(luò)中向后傳播)。

在神經(jīng)網(wǎng)絡(luò)中,輸入通過(guò)加權(quán)求和(權(quán)重(W)和偏置(b)),然后被一個(gè)函數(shù)作用,這個(gè)函數(shù)就是激活函數(shù)。

為什么神經(jīng)網(wǎng)絡(luò)需要激活函數(shù)神經(jīng)網(wǎng)絡(luò)中的線性組合(即加權(quán)和)本身只能表示線性關(guān)系。然而,現(xiàn)實(shí)世界中的大多數(shù)問(wèn)題都是非線性的。通過(guò)引入激活函數(shù),神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)并表示這些非線性關(guān)系,從而解決更復(fù)雜的問(wèn)題。

感知機(jī)(perceptron)

在機(jī)器學(xué)習(xí)中,感知機(jī)(perceptron)是最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型之一,只有輸入層和輸出層,是二分類的線性分類器。它可以解決與(AND)、或(OR)等簡(jiǎn)單的線性可分問(wèn)題,但無(wú)法解決復(fù)雜的異或(XOR)等非線性可分問(wèn)題。

perceptron

單層感知機(jī)

感知機(jī)(perceptron)是什么?感知機(jī)是由美國(guó)學(xué)者Frank Rosenblatt在1957年提出的,它是一種模擬人腦神經(jīng)元工作原理的模型。感知機(jī)接收多個(gè)輸入信號(hào),通過(guò)加權(quán)求和并加上偏置值,然后通過(guò)一個(gè)激活函數(shù)將結(jié)果轉(zhuǎn)化為輸出信號(hào)。

為什么要學(xué)習(xí)這么古老的算法?感知機(jī)是神經(jīng)網(wǎng)絡(luò)的起源算法,它的工作原理和概念構(gòu)成了深度學(xué)習(xí)算法的基礎(chǔ)。通過(guò)了解感知機(jī),可以掌握神經(jīng)網(wǎng)絡(luò)的基本組成單元、工作原理和訓(xùn)練方法,為后續(xù)學(xué)習(xí)更復(fù)雜的模型打下基礎(chǔ)。

感知機(jī)的工作原理是什么?單層感知機(jī)通過(guò)加權(quán)求和輸入信號(hào)并加上偏置值,然后經(jīng)過(guò)階躍激活函數(shù)處理,輸出二分類結(jié)果。

  1. 加權(quán)求和:輸入信號(hào)被送往輸出層時(shí),會(huì)被分別乘以各自的權(quán)重,然后求和。
  2. 偏置值:用于調(diào)整輸出層的激活閾值。
  3. 激活函數(shù):在單層感知機(jī)中,常用的激活函數(shù)是階躍函數(shù),它將大于某個(gè)閾值的結(jié)果輸出為1,小于閾值的結(jié)果輸出為0。

感知機(jī)的訓(xùn)練過(guò)程是什么?通過(guò)調(diào)整權(quán)重和偏置值,感知機(jī)可以在有限的迭代次數(shù)中收斂到一個(gè)能夠?qū)⒂?xùn)練數(shù)據(jù)集正確分類的分離超平面

多層感知機(jī)

多層感知機(jī)(Multilayer Perceptron,簡(jiǎn)稱MLP)是什么?多層感知機(jī)由多個(gè)神經(jīng)元層組成,每個(gè)神經(jīng)元層與前一層全連接。其基本結(jié)構(gòu)包括輸入層、輸出層和至少一層或多層的隱藏層。

  1. 輸入層:接收輸入特征,是數(shù)據(jù)的入口。
  2. 隱藏層:位于輸入層和輸出層之間,用于提取特征和進(jìn)行非線性變換。隱藏層增加了網(wǎng)絡(luò)的容量,使其能夠?qū)W習(xí)并表示更復(fù)雜的函數(shù)。
  3. 輸出層:給出最終的預(yù)測(cè)結(jié)果。

多層感知機(jī)的工作原理是什么?多層感知機(jī)通過(guò)前向傳播產(chǎn)生預(yù)測(cè)結(jié)果,計(jì)算損失函數(shù)評(píng)估性能,利用反向傳播算法傳播梯度,并使用優(yōu)化算法更新權(quán)重和偏置以最小化損失。

  1. 前向傳播:輸入數(shù)據(jù)通過(guò)輸入層進(jìn)入網(wǎng)絡(luò),經(jīng)過(guò)隱藏層的非線性變換,最終到達(dá)輸出層并產(chǎn)生預(yù)測(cè)結(jié)果。
  2. 損失函數(shù)計(jì)算:根據(jù)預(yù)測(cè)結(jié)果和真實(shí)標(biāo)簽計(jì)算損失函數(shù),用于評(píng)估模型的性能。
  3. 反向傳播:通過(guò)反向傳播算法,將損失函數(shù)的梯度從輸出層傳播到輸入層,以更新神經(jīng)元之間的權(quán)重和偏置。
  4. 參數(shù)更新:使用優(yōu)化算法(如梯度下降)更新權(quán)重和偏置,以最小化損失函數(shù)。

單層感知機(jī) vs 多層感知機(jī):單層感知機(jī)僅包含輸入和輸出層,主要用于線性可分問(wèn)題的分類,而多層感知機(jī)則增加了隱藏層和非線性激活函數(shù),能夠處理復(fù)雜的非線性問(wèn)題

文章轉(zhuǎn)自微信公眾號(hào)@架構(gòu)師帶你玩轉(zhuǎn)AI

#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)