国产va免费精品高清在线,久久九九久精品国产,久久精品国产74国产

論文題目：《Black-Box Prompt Optimization: Aligning Large Language Models without Model Training》

論文鏈接：https://arxiv.org/abs/2311.04155

github地址：https://github.com/thu-coai/BPO

BPO背景介紹

? ? ? ?最近，大型語言模型（LLM）在各種應用中都取得了顯著的成功，比如文本生成，文生圖大模型等。然而，這些模型往往與人類意圖不太一致，這就需要對其進行額外的處理，即對齊問題。為了使LLM更好地遵循用戶指令，現有的對齊方法（比如RLHF、RLAIF和DPO）主要側重于對LLM進行進一步的訓練，然而這些對齊方法有如下缺點：

效率：隨著LLM越來越大，訓練LLM變得更加昂貴和困難，尤其是當使用臭名昭著的不穩定RL算法時；
可訪問性：由于大多數性能最好的LLM，如GPT-4和Claude-2，都是封閉源的，只能通過API訪問，因此外部團隊想繼續訓練幾乎不可能；
可解釋性：使用現有方法時，人類偏好的建模和精確提升是無法解釋的；

? ? ? ?清華大學提出了一種黑盒提示優化（BPO）來執行對齊，其思想是優化用戶Prompt以適應LLM對輸入的理解，從而在不更新LLM參數的情況下更好地實現用戶的意圖理解。

? ? ? BPO可以應用在任何LLM模型上，經驗結果表明，使用BPO對齊的ChatGPT的勝率比原始版本提高了22%，GPT-4的勝率提高了10%。對于相同的LLM，BPO對齊的LLM性能優于PPO和DPO對齊，而且BPO技術可以與PPO或DPO進行組合使用，可能帶來額外的性能增益。

? ? ? 在 VicunaEval 上使用 GPT-4 進行自動評估，BPO 能夠大幅提升 ChatGPT、Claude 等模型的人類偏好，并助力 llama2-13b 模型大幅超過 llama2-70b 的版本，如下圖所示：

BPO方法原理? ? ? ?

BPO黑盒優化的目標是讓模型更好地理解和滿足人類的喜好，通過調整輸入內容，使模型生成的輸出更符合用戶的期望。這個過程可以分為三個主要步驟：

1、反饋數據收集：為了建模人類偏好，首先搜集了一系列帶有反饋信號的開源指令微調數據集，并對這些數據經過精心篩選和過濾；

2、構造提示優化對：使用這些反饋數據來引導大型模型識別用戶喜歡的回復和不喜歡的回復，基于這些特征，再利用模型優化原始的用戶輸入，以期得到更符合用戶喜好的模型輸出；

3、訓練提示優化器：經過上述兩個步驟，得到了大量優化前后的Prompt pair，利用這些Prompt pair訓練一個seq2seq模型（作者使用llama2-7b-chat作為bachbone模型），這樣后期就可以使用該seq2seq模型進行自動化優化用戶的Prompt了

BPO與其他對齊方法的對比

BPO實驗效果

BPO對齊技術對 GPT-3.5-turbo 有22%的提升，對 GPT-4 有 10% 的提升。

BPO 能夠助力 llama2-13b 大幅超過 llama2-70b 版本的模型效果，并讓 llama2-7b 版本的模型逼近比它大 10 倍的模型。

?在 vicuna-7b 和 vicuna-13b 上，使用 BPO 對齊的模型超過了常用的反饋學習方法—— PPO（Proximal Policy Optimization）和 DPO（Direct Preference Optimization）的效果，并且能夠和這些方法相結合進一步提升模型效果。