image

Highlights數據

image

image

數據迭代式數據采集

數據采集過程是迭代式進行的,最后經過四次數據收集迭代,我們最終收集了35.5M個數學網頁,共計120B Tokens,具體流程如下:

image

與開源數據對比

為了驗證DeepSeekMath數據質量,我們采用相同的初始化模型和訓練設置,分別基于多個數據集訓練了150B Tokens,并對比最終模型效果。如下圖,跟開源主流的數學數據集對比,DeepSeekMath數據訓練的模型(紅線)在多個數學基準上效果明顯領先。在一個Epoch范圍內(例如對于Proof-Pile-2是50B Tokens),DeepSeekMath數據效果更好,證明其數據質量更高。

image

下表展示更多榜單/數據集結果。簡而言之,DeepSeekMath數據勝在:中英雙語、更大規模、更高質量。

image

image

預訓練

預訓練實驗細節

image

預訓練模型效果

為了對DeepSeekMath-Base 7B的數學能力進行了全面評估,我們采取了三類實驗:1)依靠CoT解決數學問題的能力;2)使用工具解決數學問題的能力;3)進行形式化定理證明的能力;4)更通用場景下的語言理解、推理和代碼能力。下表首先展示了模型依靠CoT解決數學問題的能力。DeepSeekMath-Base 7B在所有八個基準測試中領先于開源基礎模型(包括數學推理能力超強的Mistral 7B和最近發布的數學領域模型Llemma 34B)。值得注意的是,在競賽級別的MATH數據集上,DeepSeekMath-Base超過了現有開源基礎模型超過10%的絕對值,并且優于540B的閉源模型Minerva,但僅用了1/77的參數量。

image

其次來看下利用工具來解數學題的能力,即通過Prompt引導模型生成包含math和sympy等包的Python代碼來解題。下表可以看出,DeepSeekMath-Base 7B明顯超過CodeLlama 34B和Llemma 34B。

image

緊接著看下形式化定理證明能力,評估方式是將非形式化證明轉為形式化證明。我們在miniF2F上進行評估,這是一個用于奧林匹克級別的數學基準測試。結果如下表所示,DeepSeekMath-Base 7B在自動定理證明方面,同樣表現出強大的性能。

image

為了驗證在更廣泛場景下DeepSeekMath的能力,我們在大模型的語言理解、推理和代碼的公開榜單上測試了模型。結果如下表,DeepSeekMath-Base 7B相比初始化的Coder模型,在MMLU和BBH上表現更佳,也就是說數學預訓練有助于語言理解和推理能力的提升。

image

image

對齊階段

SFT階段

我們構建了一個中英數學SFT數據集,包括CoT、PoT和工具集成推理等三種格式,訓練樣本總數為776K。

RL階段

我們采納了一種高效的強化學習算法,Group Relative Policy Optimization (GRPO)。與傳統的PPO算法相比,GRPO摒棄了對critic模型的依賴,轉而基于組內樣本得分計算baseline,顯著減少了PPO訓練所需要的計算資源?;贕RPO,我們探究了結果式監督、過程式監督以及迭代式強化學習的效果。模型效果下表評估的是模型未使用工具情況下,通過自身CoT解決數學題的能力。在MATH數學競賽數據集上,我們的模型DeepSeekMath-RL 7B超過了7B~70B所有開源模型,以及大多數閉源模型(例如Inflection-2和Gemini Pro)13%的絕對值,非常接近GPT-4和Gemini Ultra性能。

image

其中值得注意的是,DeepSeekMath-RL 7B所有評估指標上都超過了基準模型DeepSeekMath-Instruct 7B,展示了GRPO強化學習訓練的有效性。

image

分析

代碼預訓練會提升模型數學能力嗎?我們探究了不同訓練方式對模型結果的影響,包括:1)General訓練400B Tokens -> Math訓練150B Tokens
2)Code訓練400B Tokens -> Math訓練150B Tokens
3)Math單階段訓練150B Tokens
4)Code和Math混合訓練400B+150B Tokens
結果如下表,可以發現:代碼訓練可以提升模型工具進行數學推理的能力(w/ Tool Use),無論是在兩階段訓練還是一階段訓練設置下。

image

驚喜的是,數學和代碼混合預訓練有助于數學推理(w/ Tool Use)和代碼生成能力(HumanEval)的協同提升。

image

更多分析實驗(例如:ArXiv論文對提高數學推理能力無效)見論文,閱讀原文即可獲取。

image

關于DeepSeek

DeepSeek(深度求索),致力于探索AGI的本質,以開源匯聚更多的創造力和生產力。未來我們會持續發布更大規模、創新框架、以及復雜推理能力更好的模型!

image

點擊閱讀:深度求索開源國內首個MoE大模型,技術報告、模型權重同時發布
深度求索發布 67B 大模型,以「開源」加速 AGI 時代到來
可能是最強的開源代碼大模型!深度求索發布 DeepSeek Coder

image

image

image

原文轉載自:https://mp.weixin.qq.com/s/CPyKHnBNzJuCn-wZ1wpPoA

上一篇:

新型脈沖神經網絡+大模型研究進展!

下一篇:

使用Cursor 和 Devbox 一鍵搞定開發環境
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費