我們的模型以以下格式的文本作為輸入: 
模型會在SEP標(biāo)記后生成提示,因為它是一個自回歸語言模型,而非seq2seq模型。
RLHF的實現(xiàn)分為以下三個主要步驟:
在監(jiān)督微調(diào)階段,我們?yōu)槟P吞峁┭菔緮?shù)據(jù),幫助其學(xué)習(xí)所需的響應(yīng)格式和相關(guān)信息。在我們的案例中,數(shù)據(jù)集格式為image_description[prompt](https://prompts.explinks.com/)。由于沒有公開的圖像描述和提示數(shù)據(jù)集,我們采用以下方法:
訓(xùn)練過程在單個NVIDIA A100 80GB GPU上耗時約90分鐘。
獎勵建模包含兩個階段:偏好收集和獎勵建模。
我們?yōu)槊總€圖像描述生成三個提示,并使用Stable Diffusion 1.5生成四張圖像。隨后,通過Toloka眾包平臺對這些圖像進(jìn)行成對比較,注釋者選擇更優(yōu)的一組圖像。 
我們選擇使用distilroberta作為獎勵模型,并通過Transformers庫中的AutoModelForSequenceClassification進(jìn)行訓(xùn)練。模型以image_description[SEP]prompt格式的文本輸入,并預(yù)測一個表示質(zhì)量的數(shù)值。
訓(xùn)練過程使用二進(jìn)制交叉熵損失函數(shù),目標(biāo)是預(yù)測左提示是否優(yōu)于右提示。在單個NVIDIA A100 80GB GPU上,訓(xùn)練耗時約15分鐘,驗證集準(zhǔn)確率為0.63,足以支持RLHF微調(diào)。
在RLHF階段,我們面臨超參數(shù)調(diào)優(yōu)的挑戰(zhàn),特別是學(xué)習(xí)率和init_kl參數(shù)的選擇。我們發(fā)現(xiàn)較低的參數(shù)值效果最佳。
訓(xùn)練過程中,價值損失持續(xù)下降,獎勵模型的預(yù)測獎勵顯著增加,但這并不意味著模型完全優(yōu)化,因為獎勵模型本身可能存在缺陷。 
以下是通過我們的模型生成的圖像示例:
外星人飛船內(nèi)部

一只貓的肖像

其他生成效果

除非特別說明,以上圖像均由Stable Diffusion 1.5生成。
我們已將所有代碼和數(shù)據(jù)開源,供社區(qū)使用。未來,研究者可以基于我們的成果,為DALL-E 2、Midjourney等其他模型開發(fā)類似的解決方案。我們期待您的反饋和建議,共同推動文本到圖像生成技術(shù)的發(fā)展。
原文鏈接: https://toloka.ai/blog/improving-text-to-image-models-by-prompt-engineering-with-rlhf/