
一文講透 AI Agent 與 AI Workflow 的區別和深度解析:從自動化到智能化的演進
數據采集過程是迭代式進行的,最后經過四次數據收集迭代,我們最終收集了35.5M個數學網頁,共計120B Tokens,具體流程如下:
為了驗證DeepSeekMath數據質量,我們采用相同的初始化模型和訓練設置,分別基于多個數據集訓練了150B Tokens,并對比最終模型效果。如下圖,跟開源主流的數學數據集對比,DeepSeekMath數據訓練的模型(紅線)在多個數學基準上效果明顯領先。在一個Epoch范圍內(例如對于Proof-Pile-2是50B Tokens),DeepSeekMath數據效果更好,證明其數據質量更高。
下表展示更多榜單/數據集結果。簡而言之,DeepSeekMath數據勝在:中英雙語、更大規模、更高質量。
為了對DeepSeekMath-Base 7B的數學能力進行了全面評估,我們采取了三類實驗:1)依靠CoT解決數學問題的能力;2)使用工具解決數學問題的能力;3)進行形式化定理證明的能力;4)更通用場景下的語言理解、推理和代碼能力。下表首先展示了模型依靠CoT解決數學問題的能力。DeepSeekMath-Base 7B在所有八個基準測試中領先于開源基礎模型(包括數學推理能力超強的Mistral 7B和最近發布的數學領域模型Llemma 34B)。值得注意的是,在競賽級別的MATH數據集上,DeepSeekMath-Base超過了現有開源基礎模型超過10%的絕對值,并且優于540B的閉源模型Minerva,但僅用了1/77的參數量。
其次來看下利用工具來解數學題的能力,即通過Prompt引導模型生成包含math和sympy等包的Python代碼來解題。下表可以看出,DeepSeekMath-Base 7B明顯超過CodeLlama 34B和Llemma 34B。
緊接著看下形式化定理證明能力,評估方式是將非形式化證明轉為形式化證明。我們在miniF2F上進行評估,這是一個用于奧林匹克級別的數學基準測試。結果如下表所示,DeepSeekMath-Base 7B在自動定理證明方面,同樣表現出強大的性能。
為了驗證在更廣泛場景下DeepSeekMath的能力,我們在大模型的語言理解、推理和代碼的公開榜單上測試了模型。結果如下表,DeepSeekMath-Base 7B相比初始化的Coder模型,在MMLU和BBH上表現更佳,也就是說數學預訓練有助于語言理解和推理能力的提升。
我們構建了一個中英數學SFT數據集,包括CoT、PoT和工具集成推理等三種格式,訓練樣本總數為776K。
我們采納了一種高效的強化學習算法,Group Relative Policy Optimization (GRPO)。與傳統的PPO算法相比,GRPO摒棄了對critic模型的依賴,轉而基于組內樣本得分計算baseline,顯著減少了PPO訓練所需要的計算資源?;贕RPO,我們探究了結果式監督、過程式監督以及迭代式強化學習的效果。模型效果下表評估的是模型未使用工具情況下,通過自身CoT解決數學題的能力。在MATH數學競賽數據集上,我們的模型DeepSeekMath-RL 7B超過了7B~70B所有開源模型,以及大多數閉源模型(例如Inflection-2和Gemini Pro)13%的絕對值,非常接近GPT-4和Gemini Ultra性能。
其中值得注意的是,DeepSeekMath-RL 7B所有評估指標上都超過了基準模型DeepSeekMath-Instruct 7B,展示了GRPO強化學習訓練的有效性。
代碼預訓練會提升模型數學能力嗎?我們探究了不同訓練方式對模型結果的影響,包括:1)General訓練400B Tokens -> Math訓練150B Tokens
2)Code訓練400B Tokens -> Math訓練150B Tokens
3)Math單階段訓練150B Tokens
4)Code和Math混合訓練400B+150B Tokens
結果如下表,可以發現:代碼訓練可以提升模型工具進行數學推理的能力(w/ Tool Use),無論是在兩階段訓練還是一階段訓練設置下。
驚喜的是,數學和代碼混合預訓練有助于數學推理(w/ Tool Use)和代碼生成能力(HumanEval)的協同提升。
更多分析實驗(例如:ArXiv論文對提高數學推理能力無效)見論文,閱讀原文即可獲取。
DeepSeek(深度求索),致力于探索AGI的本質,以開源匯聚更多的創造力和生產力。未來我們會持續發布更大規模、創新框架、以及復雜推理能力更好的模型!
點擊閱讀:深度求索開源國內首個MoE大模型,技術報告、模型權重同時發布
深度求索發布 67B 大模型,以「開源」加速 AGI 時代到來
可能是最強的開源代碼大模型!深度求索發布 DeepSeek Coder
原文轉載自:https://mp.weixin.qq.com/s/CPyKHnBNzJuCn-wZ1wpPoA