OpenAI o1的價值及意義

作者:zhilong · 2024-09-20 · 閱讀時間:9分鐘
GPT 4o本質上是要探索不同模態相互融合的 大一統 模型應該怎么做的問題,對于提升大模型的智力水平估計幫助不大;而o1本質上是在探索大模型在AGI路上能走多遠、天花板在哪里的問題,很明顯第二個問題更重要。

OpenAI o1是大模型的巨大進步

我覺得OpenAI o1是自 GPT 4 發布以來,基座大模型最大的進展,邏輯推理能力提升的效果和方法比我想的要好,GPT 4o和o1是發展大模型不同的方向,但是o1這個方向更根本,重要性也比GPT 4o這種方向要重要得多,原因下面會分析。

為什么說o1比4o方向重要?這是兩種不同的大模型發展思路,說實話在看到 GPT 4o 發布的時候我是有些失望的,我當時以為OpenAI會優先做o1這種方向,但是沒想到先出了GPT 4o。 GPT 4o本質上是要探索不同模態相互融合的 大一統 模型應該怎么做的問題,對于提升大模型的智力水平估計幫助不大;而o1本質上是在探索大模型在AGI路上能走多遠、天花板在哪里的問題,很明顯第二個問題更重要。

GPT 4o的問題在于本身大模型的智力水平還不夠高,所以做不了復雜任務,導致很多應用場景無法實用化,而指望靠圖片、視頻這類新模態數據大幅提升大模型智力水平是不太可能的,盡管確實能拓展更豐富的 多模態 應用場景,但這類數據彌補的更多是大模型對外在多模態世界的感知能力,而不是認知能力。提升大模型認知能力主要還要靠 LLM 文本模型,而提升 LLM模型 認知能力的核心又在復雜邏輯推理能力。LLM的邏輯推理能力越強,則能解鎖更多復雜應用,大模型應用的天花板就越高,所以不遺余力地提升大模型尤其是文本模型的邏輯能力應該是最重要的事情,沒有之一。

如果o1模型能力越做越強,則可以反哺GPT 4o這種多模態大一統模型,可以通過直接用o1基座模型替換GPT 4o的基座、或者利用o1模型生成邏輯推理方面的合成數據增強GPT 4o、再或者用o1蒸餾GPT 4o模型….. 等等,能玩的花樣應該有很多,都可以直接提升GPT 4o的復雜任務解決能力,從而解鎖更復雜的多模態應用場景。OpenAI未來計劃兩條線,一條是o1,一條是GPT 4o,它的內在邏輯大概應該是這樣的,就是說 通過o1增強最重要的基座模型邏輯推理能力,而再把這種能力遷移到GPT 4o這種多模態通用模型上

OpenAI o1的做法本質上是COT的自動化 。我們知道,通過COT把一個復雜問題拆解成若干簡單步驟,這有利于大模型解決復雜邏輯問題,但之前主要靠人工寫COT來達成。從用戶提出的問題形成樹的根結點出發,最終走到給出正確答案,可以想像成類似AlphaGo下棋,形成了巨大的由COT具體步驟構成的樹形搜索空間,這里COT的具體步驟的組合空間是巨大的,人寫的COT未必最優。如果我們有大量邏輯數據,是由<問題,明確的正確答案>構成,則通過類似AlphaGo的Monte Carlo Tree Search( MCTS )搜索+強化學習,確實是可以訓練大模型快速找到通向正確答案的COT路徑的。而問題越復雜,則這個樹的搜索空間越大,搜索復雜度越高,找到正確答案涉及到的COT步驟越多,則模型生成的COT就越復雜,體現在o1的速度越慢,生成的COT Token數越多。很明顯,問題越復雜,o1自己生成的隱藏的COT越長,大模型推理成本越高,但 效果最重要,成本其實不是問題,最近一年大模型推理成本降低速度奇快,這個總有辦法快速降下去

從上面o1的做法可以知道 Prompt工程 會逐漸消亡 。之前解決復雜問題,需要人寫非常復雜的Prompt,而o1本質上是COT等復雜Prompt的自動化,所以之后是不太需要用戶自己構造復雜Prompt的。本來讓用戶寫復雜Prompt就是不人性化的,所有復雜人工環節的自動化,這肯定是 大勢所趨 。

Agent屬于概念火但無法實用化的方向,主要原因就在于 基座模型 的復雜推理能力不夠強 。如果通過基座模型Plan把一個復雜任務分解為10個步驟,哪怕單個步驟的正確率高達95%,要想最后把任務做對,10個環節的準確率連乘下來,最終的正確率只有59%,慘不忍睹。那有了o1是不是這個方向就前途坦蕩?也是也不是,o1的Model Card專門測試了Agent任務,對于簡單和中等難度的Agent任務有明顯提升,但是復雜的、環節多的任務準確率還是不太高。就是說,不是說有了o1 Agent就現狀光明,但是很明顯o1這種通過Self Play增強邏輯推理能力的方向應該還有很大的發展潛力,從這個角度講說Agent未來前途光明問題應該不大。

OpenAI很多時候起到一個行業 指路明燈 的作用,往往是第一個證明某個方向是行得通的(比如ChatGPT、GPT 4、Sora、GPT 4o包括這次的o1),然后其他人開始瘋狂往這個方向卷,到后來甚至卷的速度太快把OpenAI都甩到后面吃尾氣。典型例子就是Sora,如果OpenAI不是出于阻擊競爭對手秀一下肌肉,大家都沒有意識到原來這個方向是可以走這么遠的,但當意識到這一點后,只要你專一地卷一個方向,方向明確且資源聚焦,是可能趕超OpenAI的,目前國內外各種視頻 生成模型 有些甚至可能已經比Sora好了,Sora至今仍然是期貨狀態,主要OpenAI想做的方向太多,資源分散導致分到具體一個方向的資源不夠用,所以越往后發展期貨狀態的方向越多,也讓人覺得盡顯疲態。

OpenAI o1等于給大家又指出了一個前景光明的方向,估計后面大家又開始都往這個方向卷。我覺得卷這個方向比去卷GPT 4o和視頻生成要好,雖然具體怎么做的都不知道,但是大方向清楚且效果基本得到證明,過半年肯定頭部幾家都能摸清具體技術追上來,希望能再次讓OpenAI吃尾氣。而且這個方向看上去資源耗費應該不會特別大,偏向算法和數據一些,數據量規模估計不會特別巨大,卷起來貌似成本低一些。這是個卷的好方向。

預訓練Scaling Law為何一定會變緩

粗分的話, 大語言模型 最基礎的能力有三種:語言理解和表達能力、世界知識存儲和查詢能力以及 邏輯推理能力 (包括數學、Coding、推理等理科能力,這里Coding有一定的特殊性,是語言能力和邏輯摻雜在一起的混合能力,Coding從語言角度可以看成一種受限的自然語言,但是混雜著復雜的內在邏輯問題。從語言角度看,Coding貌似是容易解決的,從邏輯角度看又相對難解決。總之,Coding目前看是除了語言理解外,大模型做得最好的方向)。

語言理解和表達是LLM最強的能力,初版ChatGPT就可以完全勝任各種純語言交流的任務,基本達到人類水準,目前即使是小模型,在這方面比大模型能力也不弱;世界知識能力雖說隨著模型規模越大效果越好,但 幻覺問題 目前無法根治,這是制約各種應用的硬傷之一;邏輯推理能力一直都是LLM的弱項,也是最難提升的方面,從GPT 4開始往后,如何有效并大幅提升LLM的邏輯推理能力是體現不同大模型差異和優勢的最核心問題。所以,大模型最重要的一個是世界知識方面如何有效消除幻覺,一個是如何大幅提升復雜邏輯推理能力。語言能力已不是問題。

從大模型的基礎能力,我們再說回已經被談濫了的大模型Scaling law。現在普遍認為通過增加數據和模型規模來提升大模型效果的Scaling law模式,其增長速度在放緩。其實我們對照下大模型的三個基礎能力的能力來源,基本就能看出來這是為啥(以下是我猜的,不保真):

本質上大模型的能力來源都來自訓練數據,包含能體現這方面能力的訓練數據越多,則這種能力越強。語言能力不用說了,任意一份預訓練數據,其中都包含相當比例的語言的詞法句法等成分,所以訓練數據中體現語言能力的數據是最多的,這也是為何大模型的語言能力最強的原因。

而數據中包含的世界知識含量,基本是和訓練數據量成正比的,明顯數據量越多,包含的世界知識越多,Scaling law是數據中包含的世界知識含量關系的一個體現,但是這里有個問題,大模型見過越多數據,則新數據里面包含的新知識比例越小,因為很多知識在之前的數據里都見過了,所以隨著數據規模增大,遇到的新知識比例就越低,在世界知識方面就體現出Scaling law的減緩現象。

而為啥邏輯推理能力最難提升?因為能體現這方面的自然數據(代碼、數學題、物理題、科學論文等)在訓練數據中比例太低,自然大模型就學不好,盡管通過不斷增加數據,能增加邏輯推理方面數據的絕對數量,但因為占比太少,這方面提升的效果和增加的總體數據規模就不成比例,效果也不會太明顯,就體現在邏輯推理能力Scaling law看上去的放緩。這是很自然的。 這也是為何現在為了提高模型邏輯能力,往往在預訓練階段和Post-training階段,大幅增加邏輯推理數據占比的原因,且是有成效的

o1的 RL 有 Scaling Law嗎?

所以目前大模型的核心能力提升,聚焦到不斷通過合成數據等方式構造更多比例的邏輯推理數據上來。但是大部分邏輯推理數據的形式是<問題,正確答案>,缺了中間的詳細推理步驟,而o1本質上是讓大模型學會自動尋找從問題到正確答案的中間步驟,以此來增強復雜問題的解決能力。

OpenAI o1提到了關于RL在訓練和推理時候的Scaling law,并指出這與預訓練時候的Scaling law具有不同特性。很明顯,如果o1走的是MCTS 搜索技術 路線,那么把COT拆分的越細(增加搜索樹的深度),或提出更多的可能選擇(節點的分支增多,就是說樹的寬度越寬),則搜索空間越大,找到好COT路徑可能性越大,效果越好,而訓練和推理的時候需要算力肯定越大。看上去有著效果隨著算力增長而增長的態勢,也就是所謂的RL的Scaling law。這其實是樹搜索本來應有之義,我倒覺得 把這個稱為RL的Scaling law有點名不副實

原文轉載自: https://zhuanlan.zhihu.com/p/720078255