GPT 和 Llama 等大型語(yǔ)言模型都是使用下一個(gè)標(biāo)記預(yù)測(cè)損失進(jìn)行訓(xùn)練的。這些模型通過(guò)執(zhí)行下一個(gè)標(biāo)記預(yù)測(cè)任務(wù)來(lái)學(xué)習(xí)大型文本語(yǔ)料庫(kù) x1，… xT。正式來(lái)說(shuō)，學(xué)習(xí)目標(biāo)是最小化交叉熵?fù)p失：

其中 Pθ 是我們正在訓(xùn)練的大型語(yǔ)言模型，為了最大化 xt+1 作為下一個(gè)未來(lái)標(biāo)記的概率，給定過(guò)去標(biāo)記的歷史 xt:1 = xt, …, x1。

多標(biāo)記預(yù)測(cè)

通過(guò)多標(biāo)記預(yù)測(cè)實(shí)現(xiàn)更好更快的大型語(yǔ)言模型 — 2024這篇論文通過(guò)實(shí)現(xiàn)多標(biāo)記預(yù)測(cè)任務(wù)概括了上述內(nèi)容，其中在訓(xùn)練語(yǔ)料庫(kù)的每個(gè)位置，指示模型使用獨(dú)立的輸出頭并行預(yù)測(cè) n 個(gè)未來(lái)標(biāo)記。這轉(zhuǎn)化為交叉熵?fù)p失：

本文做了幾個(gè)實(shí)驗(yàn)來(lái)找到最佳的n（需要預(yù)測(cè)多少個(gè)未來(lái) token），同時(shí)驗(yàn)證了在訓(xùn)練生成或推理任務(wù)的語(yǔ)言模型時(shí)，多 token 預(yù)測(cè)可以提高下一個(gè) token 預(yù)測(cè)的性能（準(zhǔn)確性）。

本文還證明了多標(biāo)記預(yù)測(cè)會(huì)導(dǎo)致模型能力和泛化行為發(fā)生質(zhì)的變化。其背后的原因可能是因?yàn)槎鄻?biāo)記預(yù)測(cè)減輕了訓(xùn)練時(shí)間教師強(qiáng)制和推理時(shí)間自回歸生成之間的分布差異。

DeepSeek 中的多標(biāo)記預(yù)測(cè)

DeepSeek V3 采用了上述論文中提到的多 Token 預(yù)測(cè)的主要思想，但有所改變，即按順序預(yù)測(cè)更多 Token，并在每個(gè)預(yù)測(cè)深度保留完整的因果鏈。

DeepSeek 中的多標(biāo)記預(yù)測(cè)變體

DeepSeek 中的多 token 預(yù)測(cè)采用鏈?zhǔn)浇Y(jié)構(gòu)，而非原論文中的并行結(jié)構(gòu)。輸入 token [t1,t2,t3,t4] 經(jīng)過(guò)主模型的 transformer 塊，然后經(jīng)過(guò)主模型的輸出頭，生成下一個(gè)預(yù)測(cè) token t5。同時(shí)，輸入 token [t1,t2,t3,t4]（主模型 transformer 塊的輸出）的表示將傳遞到 MTP 模塊，并與新輸入 token 的 embedding[t2,t3,t4, t5（新預(yù)測(cè)）] 相結(jié)合，幫助生成額外的 token t6……在 DeepSeek-V3 中，模型預(yù)測(cè)接下來(lái)的2 個(gè)token。

在本次DeepSeek-V3 技術(shù)報(bào)告中，作者證明了多令牌預(yù)測(cè)在大多數(shù)情況下可以提高性能。

總結(jié)

多標(biāo)記預(yù)測(cè)是否對(duì)所有情況都有改善？通過(guò)多標(biāo)記預(yù)測(cè)實(shí)現(xiàn)更好、更快的大型語(yǔ)言模型 — 2024本文表明，多標(biāo)記預(yù)測(cè)可能會(huì)為多項(xiàng)選擇和基于可能性的基準(zhǔn)引入回歸。使用 MTP 的 DeepSeek 中的 MMLU（大規(guī)模多任務(wù)語(yǔ)言理解）回歸（67.5 -> 66.6）符合這一結(jié)論。