梯度下降

一、梯度下降的本質(zhì)

機(jī)器學(xué)習(xí)“三板斧”:選擇模型家族,定義損失函數(shù)量化預(yù)測(cè)誤差,通過優(yōu)化算法找到最小化損失的最優(yōu)模型參數(shù)。

機(jī)器學(xué)習(xí) vs?人類學(xué)習(xí)

梯度下降的本質(zhì):用于求解機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中的最優(yōu)化問題。

梯度下降的基本思想是從一個(gè)初始點(diǎn)出發(fā),沿著損失函數(shù)的負(fù)梯度方向不斷更新參數(shù),直到達(dá)到一個(gè)局部最小值或者全局最小值。

梯度下降的基本思想

梯度下降的關(guān)鍵步驟

二、梯度下降的原理

在梯度下降中,利用方向?qū)?shù)的最小值(即梯度的反方向)來更新參數(shù),從而逼近函數(shù)的最小值。

方向?qū)?shù):在梯度下降算法中,方向?qū)?shù)用于確定函數(shù)值下降的最快方向。

方向?qū)?shù)

梯度(Gradient):在梯度下降算法中,梯度提供了函數(shù)下降的方向和速度信息。

梯度

三、梯度下降的算法

批量梯度下降(BGD)在每次迭代中,批量梯度下降使用整個(gè)數(shù)據(jù)集來計(jì)算損失函數(shù)的梯度,并根據(jù)這個(gè)梯度來更新模型的所有參數(shù)。

批量梯度下降(BGD)

隨機(jī)梯度下降(SGD)與批量梯度下降不同,隨機(jī)梯度下降在每次迭代中僅隨機(jī)選擇一個(gè)樣本來計(jì)算損失函數(shù)的梯度,并根據(jù)這個(gè)梯度來更新模型的一個(gè)或多個(gè)參數(shù)。

隨機(jī)梯度下降(SGD)

優(yōu)點(diǎn):

  1. 計(jì)算效率高:由于每次迭代只處理一個(gè)樣本,隨機(jī)梯度下降的計(jì)算效率通常比批量梯度下降高得多,特別是在處理大規(guī)模數(shù)據(jù)集時(shí)。
  2. 內(nèi)存消耗小:隨機(jī)梯度下降只需要加載一個(gè)樣本到內(nèi)存中,因此對(duì)于內(nèi)存的需求相對(duì)較低。
  3. 有助于跳出局部最小值:由于每次更新都是基于單個(gè)樣本的梯度,隨機(jī)梯度下降在優(yōu)化過程中具有更大的隨機(jī)性,這有助于模型跳出局部最小值,找到更好的全局最小值。

缺點(diǎn):

  1. 收斂過程不穩(wěn)定:由于每次更新都是基于單個(gè)樣本的梯度,隨機(jī)梯度下降的收斂過程通常比批量梯度下降更不穩(wěn)定,可能會(huì)產(chǎn)生較大的波動(dòng)。
  2. 難以達(dá)到全局最優(yōu):在某些情況下,隨機(jī)梯度下降可能會(huì)陷入局部最小值,而無法達(dá)到全局最優(yōu)解。
  3. 需要額外的技巧:為了提高隨機(jī)梯度下降的性能和穩(wěn)定性,通常需要采用一些額外的技巧,如逐漸減小學(xué)習(xí)率(學(xué)習(xí)率衰減)、使用動(dòng)量等。

本文章轉(zhuǎn)載微信公眾號(hào)@架構(gòu)師帶你玩轉(zhuǎn)AI

上一篇:

神經(jīng)網(wǎng)絡(luò)算法 - 一文搞懂Loss Function(損失函數(shù))

下一篇:

人工智能數(shù)學(xué)基礎(chǔ) - 貝葉斯統(tǒng)計(jì)(Bayesian Statistics)
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)