GPT 和 Llama 等大型語(yǔ)言模型都是使用下一個(gè)標(biāo)記預(yù)測(cè)損失進(jìn)行訓(xùn)練的。這些模型通過(guò)執(zhí)行下一個(gè)標(biāo)記預(yù)測(cè)任務(wù)來(lái)學(xué)習(xí)大型文本語(yǔ)料庫(kù) x1,… xT。正式來(lái)說(shuō),學(xué)習(xí)目標(biāo)是最小化交叉熵?fù)p失:

其中 Pθ 是我們正在訓(xùn)練的大型語(yǔ)言模型,為了最大化 xt+1 作為下一個(gè)未來(lái)標(biāo)記的概率,給定過(guò)去標(biāo)記的歷史 xt:1 = xt, …, x1。

多標(biāo)記預(yù)測(cè)

通過(guò)多標(biāo)記預(yù)測(cè)實(shí)現(xiàn)更好更快的大型語(yǔ)言模型 — 2024這篇論文通過(guò)實(shí)現(xiàn)多標(biāo)記預(yù)測(cè)任務(wù)概括了上述內(nèi)容,其中在訓(xùn)練語(yǔ)料庫(kù)的每個(gè)位置,指示模型使用獨(dú)立的輸出頭并行預(yù)測(cè) n 個(gè)未來(lái)標(biāo)記。這轉(zhuǎn)化為交叉熵?fù)p失:

本文做了幾個(gè)實(shí)驗(yàn)來(lái)找到最佳的n(需要預(yù)測(cè)多少個(gè)未來(lái) token),同時(shí)驗(yàn)證了在訓(xùn)練生成或推理任務(wù)的語(yǔ)言模型時(shí),多 token 預(yù)測(cè)可以提高下一個(gè) token 預(yù)測(cè)的性能(準(zhǔn)確性)。

本文還證明了多標(biāo)記預(yù)測(cè)會(huì)導(dǎo)致模型能力和泛化行為發(fā)生質(zhì)的變化。其背后的原因可能是因?yàn)槎鄻?biāo)記預(yù)測(cè)減輕了訓(xùn)練時(shí)間教師強(qiáng)制和推理時(shí)間自回歸生成之間的分布差異。

DeepSeek 中的多標(biāo)記預(yù)測(cè)

DeepSeek V3 采用了上述論文中提到的多 Token 預(yù)測(cè)的主要思想,但有所改變,即按順序預(yù)測(cè)更多 Token,并在每個(gè)預(yù)測(cè)深度保留完整的因果鏈。

DeepSeek 中的多標(biāo)記預(yù)測(cè)變體

DeepSeek 中的多 token 預(yù)測(cè)采用鏈?zhǔn)浇Y(jié)構(gòu),而非原論文中的并行結(jié)構(gòu)。輸入 token [t1,t2,t3,t4] 經(jīng)過(guò)主模型的 transformer 塊,然后經(jīng)過(guò)主模型的輸出頭,生成下一個(gè)預(yù)測(cè) token t5。同時(shí),輸入 token [t1,t2,t3,t4](主模型 transformer 塊的輸出)的表示將傳遞到 MTP 模塊,并與新輸入 token 的 embedding[t2,t3,t4, t5(新預(yù)測(cè))] 相結(jié)合,幫助生成額外的 token t6……在 DeepSeek-V3 中,模型預(yù)測(cè)接下來(lái)的2 個(gè)token。

在本次DeepSeek-V3 技術(shù)報(bào)告中,作者證明了多令牌預(yù)測(cè)在大多數(shù)情況下可以提高性能。

總結(jié)

多標(biāo)記預(yù)測(cè)是否對(duì)所有情況都有改善?通過(guò)多標(biāo)記預(yù)測(cè)實(shí)現(xiàn)更好、更快的大型語(yǔ)言模型 — 2024本文表明,多標(biāo)記預(yù)測(cè)可能會(huì)為多項(xiàng)選擇和基于可能性的基準(zhǔn)引入回歸。使用 MTP 的 DeepSeek 中的 MMLU(大規(guī)模多任務(wù)語(yǔ)言理解)回歸(67.5 -> 66.6)符合這一結(jié)論。

上一篇:

DeepSeek 技術(shù)分析 — (2)多頭潛在注意力

下一篇:

DeepSeek 技術(shù)分析 — (4)DualPipe
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門(mén)場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)