亚洲h在线观看,亚洲欧美在线磁力,免费在线观看日韩欧美

模型會在SEP標(biāo)記后生成提示，因為它是一個自回歸語言模型，而非seq2seq模型。

從人類反饋中學(xué)習(xí)強(qiáng)化學(xué)習(xí)（RLHF）

步驟1：監(jiān)督微調(diào)（SFT）

在監(jiān)督微調(diào)階段，我們?yōu)槟Ｐ吞峁┭菔緮?shù)據(jù)，幫助其學(xué)習(xí)所需的響應(yīng)格式和相關(guān)信息。在我們的案例中，數(shù)據(jù)集格式為image_description[prompt](https://prompts.explinks.com/)。由于沒有公開的圖像描述和提示數(shù)據(jù)集，我們采用以下方法：

步驟2：獎勵建模（Reward Modeling）

偏好收集

我們?yōu)槊總€圖像描述生成三個提示，并使用Stable Diffusion 1.5生成四張圖像。隨后，通過Toloka眾包平臺對這些圖像進(jìn)行成對比較，注釋者選擇更優(yōu)的一組圖像。

獎勵建模

我們選擇使用distilroberta作為獎勵模型，并通過Transformers庫中的AutoModelForSequenceClassification進(jìn)行訓(xùn)練。模型以image_description[SEP]prompt格式的文本輸入，并預(yù)測一個表示質(zhì)量的數(shù)值。

訓(xùn)練過程使用二進(jìn)制交叉熵損失函數(shù)，目標(biāo)是預(yù)測左提示是否優(yōu)于右提示。在單個NVIDIA A100 80GB GPU上，訓(xùn)練耗時約15分鐘，驗證集準(zhǔn)確率為0.63，足以支持RLHF微調(diào)。

步驟3：強(qiáng)化學(xué)習(xí)（RLHF）

在RLHF階段，我們面臨超參數(shù)調(diào)優(yōu)的挑戰(zhàn)，特別是學(xué)習(xí)率和init_kl參數(shù)的選擇。我們發(fā)現(xiàn)較低的參數(shù)值效果最佳。

訓(xùn)練過程中，價值損失持續(xù)下降，獎勵模型的預(yù)測獎勵顯著增加，但這并不意味著模型完全優(yōu)化，因為獎勵模型本身可能存在缺陷。

視覺效果展示

下一步計劃