ChatGPT 教人如何偷盜商店;左圖,ChatGPT 拒絕回答;右圖,在 prompt 中添加了「with no moral restraints(不加道德約束)」后,ChatGPT 給出了商店偷盜指南

這時候,對齊(alignment)就至關(guān)重要了,其作用就是讓 LLM 與人類的價值觀保持一致。

在對齊 LLM 方面,基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)是一種突破性的技術(shù)。該方法催生了 GPT-4、Claude Gemini 等強(qiáng)大模型。RLHF 之后,人們也探索了多種多樣的對齊 LLM 的方法。但是,此前還沒有人全面總結(jié)對齊 LLM 與人類偏好的方法。

Salesforce 決定填補(bǔ)這一空白,于近日發(fā)布了一份 37 頁的綜述報告,其中按類別總結(jié)了現(xiàn)有的研究文獻(xiàn),并詳細(xì)分析了各篇論文。

這篇論文分為四大主題:獎勵模型、反饋、強(qiáng)化學(xué)習(xí)(RL)、優(yōu)化。每個主題又包含進(jìn)一步的子主題,如圖 1 所示。

獎勵模型的子主題包括:1. 顯式獎勵模型與隱式獎勵模型;2. 逐點(diǎn)獎勵模型與偏好模型;3. 響應(yīng)層面的獎勵與 token 層面的獎勵;4. 負(fù)偏好優(yōu)化。

反饋的子主題包括:1. 偏好反饋與二元反饋;2. 成對反饋與列表反饋;3. 人類反饋與 AI 反饋。

強(qiáng)化學(xué)習(xí)的子主題包括:1. 基于參考的強(qiáng)化學(xué)習(xí)與無參考的強(qiáng)化學(xué)習(xí);2. 長度控制式強(qiáng)化學(xué)習(xí);3. 強(qiáng)化學(xué)習(xí)中的不同分支;4. 在線策略強(qiáng)化學(xué)習(xí)與離線策略強(qiáng)化學(xué)習(xí)。

優(yōu)化的子主題包括:1. 在線 / 迭代式偏好優(yōu)化與離線 / 非迭代式偏好優(yōu)化;2. 分離 SFT 和對齊與合并 SFT 和對齊。

表 1 列出了這篇綜述報告中分析的所有論文在這 13 個評估指標(biāo)上的劃分情況。

研究論文

這一節(jié)將詳細(xì)介紹各篇論文,讓讀者無需閱讀原論文也能了解這些重要創(chuàng)新。機(jī)器之心將簡單梳理各個研究方向并列出代表性論文。

1. RLHF/PPO

LLM 的預(yù)訓(xùn)練要用到大量來自不同來源的語料庫,而這本身就無法確保這些數(shù)據(jù)集的質(zhì)量。此外,LLM 的主要目標(biāo)是預(yù)測下一個 token,這個目標(biāo)與「有用且安全地遵從用戶指令」的目標(biāo)并不一致。因此,LLM 可能會輸出不真實(shí)、有害或?qū)τ脩魺o用的內(nèi)容。本質(zhì)上講,這些模型并未與用戶意圖對齊。RLHF/PPO 的主要目標(biāo)是在各種任務(wù)上對齊語言模型與用戶意圖,其做法是使用人類反饋來微調(diào)模型。有關(guān)這個主題的研究有很多。

InstructGPT

InstructGPT 來自 OpenAI,這是訓(xùn)練 ChatGPT 和 GPT-4 等模型的基礎(chǔ),參閱《GPT-4 技術(shù)報告》。

通過納入人類偏好,評估 LLM 生成的響應(yīng)的難題得到了解決。BLEU、ROUGE 和 BERTScore 等用于評估 LLM 的傳統(tǒng)評估指標(biāo)無法保證與人類偏好的一致性。為了解決這個問題,研究者直接將人類偏好整合進(jìn)了 LLM 以增強(qiáng)其性能。這個過程通常涉及兩個主要步驟:獎勵模型學(xué)習(xí)和強(qiáng)化學(xué)習(xí)策略訓(xùn)練。

在獎勵模型學(xué)習(xí)階段,會使用 prompt 和配對的響應(yīng)訓(xùn)練一個顯式的逐點(diǎn)獎勵函數(shù)。

之后,開始強(qiáng)化學(xué)習(xí)策略訓(xùn)練階段;在這個階段,LLM 和預(yù)訓(xùn)練獎勵模型分別作為一個強(qiáng)化學(xué)習(xí)框架中的智能體和環(huán)境。

為了訓(xùn)練 InstructGPT,要用到三個數(shù)據(jù)集:1.SFT 數(shù)據(jù)集:包含用于訓(xùn)練 SFT 模型的標(biāo)注者演示。2.RM(獎勵模型)數(shù)據(jù)集:由人類標(biāo)注者對模型輸出的排名構(gòu)成,用于訓(xùn)練獎勵模型。3.PPO 數(shù)據(jù)集:由用作 RLHF 微調(diào)輸入的 prompt 構(gòu)成。

訓(xùn)練后的 InstructGPT 會在三個方面得到評估:有用性、可信度、有害性。

從結(jié)果上看,人類評估表明「相比于 175B 的 GPT-3,人們 更偏好 1.3B 參數(shù)版本的 InstructGPT 模型的輸出,盡管后者的參數(shù)量少 100 多倍。」值得注意的是,InstructGPT 在有用性和毒性任務(wù)上的表現(xiàn)均優(yōu)于 GPT-3,這于對齊而言至關(guān)重要。

Anthropic 的 RLHF

Anthropic 也研究過同一主題,論文為《Training a helpful and harmless assistant with reinforcement learning from human feedback》。

OpenAI 發(fā)現(xiàn) RLHF 有助于對齊,但也可能導(dǎo)致模型在某些 NLP 基準(zhǔn)上的性能下降,這個現(xiàn)象被稱為「對齊稅(alignment tax)」。其開發(fā)的 InstructGPT 模型有 1.3B 參數(shù)。相反,Anthropic 的研究者評估了大小在 13M 到 52B 之間的 7 種不同模型,這些模型的大小按 4 倍的幾何級數(shù)增長。

他們得出結(jié)論說,對較小的模型來說,對齊會產(chǎn)生「稅」,但對較大模型來說,對齊只有好處,尤其是參數(shù)量在 13B 到 52B 之間的模型。

考慮到對齊的這種優(yōu)勢,他們還實(shí)驗了用編程技術(shù)數(shù)據(jù)集來提升 LLM 的能力。OpenAI 的 RLHF 方法包含 PPO 和 PPO-ptx,其中 PPO-ptx 的設(shè)計目標(biāo)就是為了降低在 NLP 基準(zhǔn)上的對齊稅。而 Anthropic 的 RLHF 研究發(fā)現(xiàn),只要模型夠大,PPO 本身就能在 NLP 下游任務(wù)上帶來對齊的好處。他們還確定了強(qiáng)化學(xué)習(xí)策略訓(xùn)練中 KL 散度的最優(yōu)參數(shù)為 β = 0.001。

在線 / 迭代式 RLHF

傳統(tǒng)上,對齊 LLM 的 RLHF 技術(shù)都是離線方法。但這類方法有些缺點(diǎn),比如所得結(jié)果難以應(yīng)對分布外數(shù)據(jù)。

為此,需要對 LLM 進(jìn)行持續(xù)的微調(diào),進(jìn)行迭代式 / 在線學(xué)習(xí),即使用中間策略為 prompt 生成響應(yīng),再使用預(yù)言機(jī)(oracle)為這樣的成對數(shù)據(jù)給出偏好反饋,再將這些反饋饋送給策略。在實(shí)踐中,迭代式學(xué)習(xí)分為兩個部分:偏好預(yù)言機(jī)學(xué)習(xí)和迭代式策略優(yōu)化。參閱論文《RLHF workflow: From reward modeling to online RLHF》。

2. RLAIF

獲取人類偏好數(shù)據(jù)集的成本不低,因此基于人工智能反饋的強(qiáng)化學(xué)習(xí)(RLAIF)誕生了。此外,隨著 LLM 的能力不斷進(jìn)步,所能收集到的 AI 偏好數(shù)據(jù)集的質(zhì)量也不斷提高,由此可提升 LLM 的對齊效果。

Anthropic 的 RLAIF

Anthropic 基于 RLHF 的基礎(chǔ)研究工作,提出了一種名為 RLAIF 的全新方法。參閱論文《Constitutional ai: Harmlessness from ai feedback》。

該方法主要包含兩個階段:1. 通過 Critiques(批評)和 Revisions(修訂)進(jìn)行監(jiān)督學(xué)習(xí),這由一個章程引導(dǎo)。2. RLAIF。

谷歌的 RLAIF

基于 Anthropic 的 RLAIF 研究成果,谷歌一個研究團(tuán)隊認(rèn)為之前的研究無法直接比較人類反饋與 AI 反饋的效果,值得進(jìn)一步研究。在收集 AI 反饋的過程中,要創(chuàng)建一個結(jié)構(gòu)化的 prompt,其構(gòu)成包括:導(dǎo)言、少樣本示例(可選)、要標(biāo)注的樣本、結(jié)尾。

為了生成 AI 反饋,需要執(zhí)行一個兩步式評估:首先,使用指令中的 4 個組件加上 CoT,讓 LLM 生成響應(yīng)。在下一步中,這個 LLM 響應(yīng)再附帶上「preferred summary=」這樣的結(jié)尾被發(fā)送回 LLM,從而生成「summary 1=0.6, summary 2=0.4」這樣的偏好概率。為了減少位置偏差,需要交替放置這兩個響應(yīng)的序列,并計算其平均分?jǐn)?shù)。

RLAIF 過程采用了兩個策略:1.「蒸餾 RLAIF」,其遵循傳統(tǒng)的 RLHF 方法,即使用偏好訓(xùn)練一個獎勵模型,然后再將其用于訓(xùn)練 LLM 策略;2. 「直接 RLAIF」,其直接將 LLM 反饋用作 prompt 來輸出評估分?jǐn)?shù),再將該分?jǐn)?shù)用作強(qiáng)化學(xué)習(xí)策略訓(xùn)練的信號。

最后,其評估過程會使用三個關(guān)鍵指標(biāo):1.AI – 標(biāo)注者對齊度:AI 與人類標(biāo)注者的一致程度。2. 勝率:人類標(biāo)注者比較兩個候選項并選擇其中某一個的可能性。3. 無害率:人類評估者認(rèn)為無害的響應(yīng)的占比。

更多詳情請參閱論文《RLAIF: Scaling reinforcement learning from human feedback with AI feedback》。

直接人類偏好優(yōu)化

傳統(tǒng) RLHF 方法通常涉及到優(yōu)化源自人類偏好的獎勵函數(shù)。該方法雖有效,但也可能帶來一些難題,比如增大計算復(fù)雜度以及在估計和優(yōu)化獎勵時需要考慮偏置 – 方差權(quán)衡。參閱論文《High-dimensional continuous control using generalized advantage estimation》。

近期有研究探索了其它一些旨在根據(jù)人類偏好(無需依賴某個標(biāo)量的獎勵信號)來直接優(yōu)化 LLM 策略的方法。

這些方法的目標(biāo)是通過更直接地使用偏好數(shù)據(jù)來簡化對齊流程、降低計算開銷以及實(shí)現(xiàn)更穩(wěn)健的優(yōu)化。通過將該問題描述為一個偏好優(yōu)化問題,而不是獎勵估計和最大化問題,這些方法能提供一種將語言模型與人類判斷對齊的不同視角:

token 級 DPO

使用 DPO 時,獎勵會被一起分配給 prompt 和響應(yīng)。相反,使用 MDP 時,獎勵會被分配給各個動作。后續(xù)的兩篇論文在 token 層面闡述了 DPO 并將其應(yīng)用擴(kuò)展到了 token 級的分析。

迭代式 / 在線 DPO

使用 DPO 時,會使用所有可用的偏好數(shù)據(jù)集來對齊 LLM。為了持續(xù)提升 LLM,應(yīng)當(dāng)實(shí)現(xiàn)迭代式 / 在線 DPO。這就引出了一個有趣的問題:如何高效地收集新的偏好數(shù)據(jù)集。下面兩篇論文深入探討了這一主題。

二元反饋

事實(shí)證明,收集偏好反饋比收集二元反饋(比如點(diǎn)贊或點(diǎn)踩)的難度大,因此后者可促進(jìn)對齊過程的擴(kuò)展。KTO 和 DRO 這兩項研究關(guān)注的便是使用二元反饋來對齊 LLM

融合 SFT 和對齊

之前的研究主要還是按順序執(zhí)行 SFT 和對齊,但事實(shí)證明這種方法很費(fèi)力,并會導(dǎo)致災(zāi)難性遺忘。后續(xù)的研究有兩個方向:一是將這兩個過程整合成單一步驟;二是并行地微調(diào)兩個模型,最終再進(jìn)行融合。

長度控制式 DPO 和無參考 DPO

之前有研究表明,LLM 的輸出往往過于冗長。為了解決這個問題,R-DPO 和 SimPO 的關(guān)注重心是在不影響生成性能的前提下實(shí)現(xiàn)對響應(yīng)長度的控制。

此外,DPO 必需參考策略來確保已對齊模型不會與參考模型有太大偏差。相較之下,SimPO 和 RLOO 提出了一些方法,可以在不影響 LLM 效果的情況下消除對參考模型的需求。

逐列表的偏好優(yōu)化

之前在 PPO 和 DPO 方面的研究關(guān)注的是成對偏好,而 RLHF 方面的研究則是收集逐列表的偏好來加速數(shù)據(jù)收集過程,之后再將它們轉(zhuǎn)換成成對偏好。盡管如此,為了提升 LLM 的性能,直接使用逐列表的數(shù)據(jù)集來執(zhí)行偏好優(yōu)化是可行的。以下三篇論文專門討論了這種方法。

負(fù)偏好優(yōu)化

這些研究有一個共同前提:當(dāng)前這一代 LLM 已經(jīng)在翻譯和總結(jié)等任務(wù)上超越了人類性能。因此,可以將 LLM 的輸出視為期望響應(yīng),而無需依靠將人類標(biāo)注的數(shù)據(jù)視為偏好響應(yīng);這樣做是有好處的。反過來,不期望得到的響應(yīng)依然也可被用于對齊 LLM,這個過程就是所謂的負(fù)偏好優(yōu)化(NPO)。

納什學(xué)習(xí)

之前的研究通常是使用逐點(diǎn)獎勵和 BT 模型來得到成對偏好。但是,這種方法比不上直接成對偏好建模并且無法解決成對偏好中的不一致問題。為了克服這些局限,一些研究提出了納什學(xué)習(xí)方法。

不同方法的比較

一些研究則是為了比較這些不同方法。這類研究可以闡釋每種方法各自的優(yōu)缺點(diǎn)。

論文《Insights into alignment: Evaluating dpo and its variants across multiple tasks》在推理、數(shù)學(xué)問題求解、可信度、問答和多任務(wù)理解等多種任務(wù)上全面評估了隱式獎勵模型,即無強(qiáng)化學(xué)習(xí)算法,包括 DPO、KTO、IPO 和 CPO。這些評估涉及三個不同場景:1) 微調(diào)監(jiān)督式微調(diào)(SFT)模型、2) 微調(diào)預(yù)訓(xùn)練模型、3) 微調(diào)指令模型。

該研究發(fā)現(xiàn),在大多數(shù)基準(zhǔn)上,KTO 比其它對齊方法更優(yōu)。此外,研究表明,對齊并不會顯著提升模型的推理和問答性能,但確實(shí)能大幅提升模型的數(shù)學(xué)問題求解能力。該研究還注意到了數(shù)據(jù)量的重要性,對齊方法在較小的數(shù)據(jù)子集上的性能最佳。此外,研究發(fā)現(xiàn) KTO 和 CPO 能有效繞過 SFT 階段,在不影響性能的前提下直接進(jìn)入對齊階段。相比之下,當(dāng)繞過 SFT 階段,直接進(jìn)入對齊階段時,DPO 和 IPO 會表現(xiàn)出明顯的性能下降。

論文《Is DPO superior to PPO for LLM alignment? A comprehensive study》表明,DPO 可能存在固有局限,可能會產(chǎn)生有偏差的解答,并可能由于分布變化而導(dǎo)致性能下降,

他們發(fā)現(xiàn),DPO 訓(xùn)練出的策略傾向于未曾見過的響應(yīng),尤其是分布外的樣本。而迭代式 / 在線 DPO 則能緩解這個問題,其做法是廣泛探索響應(yīng)空間并不斷更新參考模型。相較之下,RLHF/PPO 則是通過優(yōu)勢歸一化、大批量大小以及對參考模型使用指數(shù)移動平均來解決這些挑戰(zhàn)。最終,這些發(fā)現(xiàn)表明 PPO 優(yōu)于迭代式 / 在線 DPO,而這又進(jìn)一步優(yōu)于標(biāo)準(zhǔn) DPO。

未來方向

通過分析過往論文,該團(tuán)隊確定了一些有待進(jìn)一步探索的研究問題。

用于對齊評估的一般任務(wù)

不同論文使用了不同的任務(wù)來評估這些方法的性能。但是,GSM8K 等一些任務(wù)更關(guān)注推理,可能并不適合用于評估對齊性能。相反,TruthfulQA 等任務(wù)或那些關(guān)注毒性的任務(wù)應(yīng)當(dāng)優(yōu)先考慮,以評估已微調(diào) LLM 的毒性。應(yīng)當(dāng)想辦法將這些任務(wù)組合起來,創(chuàng)建一個用于評估對齊的統(tǒng)一排行榜。

將隱式獎勵模型、逐列表偏好和納什學(xué)習(xí)用于更大規(guī)模的語言模型

目前,使用隱式獎勵模型的最大模型的參數(shù)量也不過 70B。如果能將這些方法擴(kuò)展用于更大的模型,比如 GPT-4 和 Claude-3 大小的模型,那應(yīng)該能幫助我們更好地理解它們與 RLHF/PPO 的相對效果。

類似地,逐列表偏好模型也值得進(jìn)一步研究。使用 RLHF 時,要使用逐列表偏好收集偏好數(shù)據(jù)集,之后再將其轉(zhuǎn)換成多對成對偏好數(shù)據(jù)。大規(guī)模應(yīng)用逐列表偏好模型的潛在問題依然有待解決。

最后,納什學(xué)習(xí)可以解決人類標(biāo)注者之間的不一致問題。如果能將納什學(xué)習(xí)模型集成到更大規(guī)模的 LLM 中,就可以證明其捕獲人性復(fù)雜性的能力。

有關(guān)二元反饋的實(shí)驗

KTO 和 DRO 都采用了「點(diǎn)贊」和「點(diǎn)踩」這樣的二元反饋機(jī)制,而不是成對偏好。這些二元反饋來自偏好數(shù)據(jù)集,其中將期望響應(yīng)標(biāo)記成正例,將不期望響應(yīng)標(biāo)記成負(fù)例。我們還需要對現(xiàn)實(shí)的二元數(shù)據(jù)集進(jìn)行進(jìn)一步研究。此外,相比于偏好數(shù)據(jù),二元數(shù)據(jù)集更容易收集,因此有望使用更大規(guī)模的二元反饋數(shù)據(jù)集來進(jìn)行對齊。但是,二元反饋中的噪聲可能比偏好數(shù)據(jù)集中的噪聲更加明顯,因此如何有效濾除有噪聲數(shù)據(jù)也是一個非常有趣的研究方向。

實(shí)驗研究有用的 AI 反饋

目前的 AI 反饋主要包括 RLAIF 中的無害反饋和迭代式 DPO 中的反饋排名。但是,使用 RLAIF 時,有用反饋依然是由人類標(biāo)注者提供。這種方法是合理的,因為生成有用響應(yīng)的難度比識別有害反饋明顯大得多。一個有趣的未來研究方向是使用 LLM 來生成有用的反饋,由此讓 LLM 可以自我提升。

加速納什學(xué)習(xí)

納什學(xué)習(xí)方法可以有效建模成對偏好并解決人類標(biāo)注之間的不一致問題。但是,它必需多次迭代才能收斂到最優(yōu)策略。盡管其作者沒有明說對齊所需的時間,但可猜測其會比 DPO 等隱式獎勵模型慢得多。因此,提升納什學(xué)習(xí)過程的速度也是一個值得關(guān)注的研究方向。

迭代 / 在線學(xué)習(xí)的終止

在使用迭代 / 在線訓(xùn)練時,確定終止迭代的時間很關(guān)鍵。之前有研究發(fā)現(xiàn),迭代式學(xué)習(xí)有時會降低 LLM 在某些任務(wù)上的性能,這可能是過擬合的跡象。但是,目前還沒有研究者探索如何確定終止迭代的合理 epoch。

簡化 SFT + 對齊

當(dāng)前的方法通常是以一種連續(xù)方式實(shí)現(xiàn) SFT 和對齊。但是,這種方法往往會導(dǎo)致災(zāi)難性遺忘,并讓整個訓(xùn)練過程變得更加費(fèi)力。PAFT 方法減輕災(zāi)難性遺忘的方式是先分別微調(diào) SFT 和對齊然后再將它們?nèi)诤系揭黄穑@也會提升復(fù)雜性。相較之下,ORPO 技術(shù)是同時整合這兩個過程,但卻會導(dǎo)致性能下降。那么,該如何有效地將 SFT 和對齊組合起來實(shí)現(xiàn)高性能同時又維持高效率呢?這還是一個有待解決的挑戰(zhàn)。

文章轉(zhuǎn)自微信公眾號@數(shù)據(jù)STUDIO

上一篇:

LLM預(yù)訓(xùn)練從0到1

下一篇:

零基礎(chǔ)入門:Ollama調(diào)用快速上手指南
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實(shí)測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費(fèi)

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費(fèi)