国产一区二区三区四区小蝌蚪,久久精品国产亚洲a不卡,国产小视频在线免费观看

Fine-tuning

方式一：Prompt-tuning

什么是Prompt-tuning？

Prompt-tuning通過(guò)修改輸入文本的提示（Prompt）來(lái)引導(dǎo)模型生成符合特定任務(wù)或情境的輸出，而無(wú)需對(duì)模型的全量參數(shù)進(jìn)行微調(diào)。

這種方法利用了預(yù)訓(xùn)練語(yǔ)言模型（PLM）在零樣本或少樣本學(xué)習(xí)中的強(qiáng)大能力，通過(guò)修改輸入提示來(lái)激活模型內(nèi)部的相關(guān)知識(shí)和能力。

Prompt-tuning

Prompt-tuning核心原理：PLM（預(yù)訓(xùn)練模型）不變，W（模型的權(quán)重）不變，X（模型輸入）改變。

Prompt-tuning

Prompt-tuning如何進(jìn)行Prompt-tuning？小模型適配下游任務(wù)設(shè)計(jì)任務(wù)相關(guān)提示模板，并微調(diào)提示嵌入以引導(dǎo)預(yù)訓(xùn)練模型適應(yīng)特定任務(wù)。僅需微調(diào)少量提示嵌入（Prompt Embeddings），而非整個(gè)模型參數(shù)。

Prompt-tuning

設(shè)計(jì)提示模板：
- 模板中應(yīng)包含任務(wù)描述、輸入文本占位符、輸出格式要求等元素。
準(zhǔn)備數(shù)據(jù)集：
- 數(shù)據(jù)集應(yīng)包括輸入文本、真實(shí)標(biāo)簽（對(duì)于監(jiān)督學(xué)習(xí)任務(wù)）或預(yù)期輸出格式（對(duì)于生成任務(wù)）。
微調(diào)提示嵌入：
- 在預(yù)訓(xùn)練模型的輸入層添加提示嵌入層，使用數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練，特別是微調(diào)提示嵌入。

Prompt-tuning

方式二：Prefix-tuning

什么是Prefix-tuning？

Prefix-tuning是Prompt-tuning的一種變體，它通過(guò)在輸入文本前添加一段可學(xué)習(xí)的“前綴”來(lái)指導(dǎo)模型完成任務(wù)。

這個(gè)前綴與輸入序列一起作為注意力機(jī)制的輸入，從而影響模型對(duì)輸入序列的理解和表示。由于前綴是可學(xué)習(xí)的，它可以在微調(diào)過(guò)程中根據(jù)特定任務(wù)進(jìn)行調(diào)整，使得模型能夠更好地適應(yīng)新的領(lǐng)域或任務(wù)。

Prefix-tuning

Prefix-tuning核心原理：PLM（預(yù)訓(xùn)練模型）不變，W（模型的權(quán)重）不變，X（模型輸入）不變，增加W’（前綴嵌入的權(quán)重）。

Prefix-tuning

如何進(jìn)行Prefix-tuning？

在 Transformer 中適配下游任務(wù)

在Transformer模型的輸入層或各層輸入前添加可學(xué)習(xí)的前綴嵌入，并通過(guò)訓(xùn)練這些前綴嵌入來(lái)優(yōu)化模型在特定任務(wù)上的表現(xiàn)。

初始化前綴嵌入
- 在Transformer模型的輸入層之前，初始化一個(gè)固定長(zhǎng)度的前綴嵌入矩陣。
將前綴嵌入與輸入序列拼接
- 將初始化好的前綴嵌入與原始輸入序列的詞嵌入進(jìn)行拼接，形成新的輸入表示。這個(gè)新的輸入表示將作為Transformer模型各層的輸入。
訓(xùn)練模型
- 在訓(xùn)練過(guò)程中，模型會(huì)根據(jù)輸入序列（包括前綴嵌入）和標(biāo)簽數(shù)據(jù)進(jìn)行學(xué)習(xí)。通過(guò)反向傳播算法，模型會(huì)更新前綴嵌入的參數(shù)。

Prefix-tuning

方式三：LoRA

什么是LoRA？

LoRA（Low-Rank Adaptation）通過(guò)分解預(yù)訓(xùn)練模型中的部分權(quán)重矩陣為低秩矩陣，并僅微調(diào)這些低秩矩陣的少量參數(shù)來(lái)適應(yīng)新任務(wù)。

對(duì)于預(yù)訓(xùn)練權(quán)重矩陣W0∈Rd×d??0∈????×??，LoRa限制了其更新方式，即將全參微調(diào)的增量參數(shù)矩陣ΔWΔ??表示為兩個(gè)參數(shù)量更小的矩陣A、B，即ΔW = AB。

其中，B∈Rd×r??∈????×??和A∈Rr×d??∈????×??為L(zhǎng)oRA低秩適應(yīng)的權(quán)重矩陣，秩r??遠(yuǎn)小于d??。

LoRA

核心原理：W（模型的權(quán)重）不變，X（模型輸入）不變，分解ΔW（分解為兩個(gè)低秩矩陣A、B）。

LoRA

LoRA如何進(jìn)行LoRA微調(diào)？

在凍結(jié)預(yù)訓(xùn)練模型權(quán)重的基礎(chǔ)上，通過(guò)優(yōu)化算法訓(xùn)練低秩矩陣A和B以近似增量參數(shù)，最小化下游任務(wù)損失，從而實(shí)現(xiàn)高效的模型微調(diào)。

設(shè)置LoRA模塊
- 在預(yù)訓(xùn)練模型的基礎(chǔ)上，添加LoRA模塊。LoRA模塊通常包含兩個(gè)參數(shù)量較少的矩陣A和B，它們的乘積用于近似全參數(shù)微調(diào)中的增量參數(shù)。
- 初始化矩陣A和B，通常使用高斯函數(shù)進(jìn)行初始化，以確保訓(xùn)練開(kāi)始時(shí)LoRA的旁路（即BA）為0，從而與全參數(shù)微調(diào)有相同的起始點(diǎn)。
訓(xùn)練LoRA模塊
- 在訓(xùn)練過(guò)程中，凍結(jié)預(yù)訓(xùn)練模型的權(quán)重，僅訓(xùn)練LoRA模塊中的矩陣A和B。
- 通過(guò)優(yōu)化算法（如Adam）更新矩陣A和B的參數(shù)，以最小化下游任務(wù)的損失函數(shù)。

LoRA

LoRALLaMA-Factory通過(guò)集成LoRA微調(diào)方法，為大型語(yǔ)言模型提供高效、低成本的微調(diào)方案，支持多模型、多算法和實(shí)時(shí)監(jiān)控，僅訓(xùn)練低秩矩陣實(shí)現(xiàn)快速適應(yīng)新任務(wù)。

LLaMA-FactoryLoRA參數(shù)主要包括秩（lora_rank，影響性能和訓(xùn)練時(shí)間）、縮放系數(shù)（lora_alpha，確保訓(xùn)練穩(wěn)定）和Dropout系數(shù)（lora_dropout，防止過(guò)擬合），它們共同影響模型微調(diào)的效果和效率。

LLaMA-Factory

1. 秩（Rank）

參數(shù)名稱：lora_rank
描述：秩是LoRA中最重要的參數(shù)之一，它決定了低秩矩陣的維度。
常用值：對(duì)于小型數(shù)據(jù)集或簡(jiǎn)單任務(wù)，秩可以設(shè)置為1或2；對(duì)于更復(fù)雜的任務(wù)，秩可能需要設(shè)置為4、8或更高。

2. 縮放系數(shù)（Alpha）