久久一区二区三区免费,国产精品成人一区二区,久久精品*5在热

Highlights數據

來自Common Crawl提取的120B高質量數學網頁數據，總數據量是開源數據集OpenWebMath的9倍
訓練：使用了代碼領域模型DeepSeek-Coder-v1.5初始化，可以獲得比從通用用模型初始化更好的數學能力
對齊：引入了PPO變體的強化學習算法GRPO，丟棄了Critic Model，顯著減少了訓練顯存并提升了對齊效果
實驗：在中英數學基準榜單上超過Mistral 7B、Llemma-34B，逼近GPT-4能力，跟Minerva 540B效果相當
分析：比如代碼訓練是否提升推理能力？我們認為它確實如此，至少對于數學推理是這樣
模型和論文均已開源: 論文地址：https://arxiv.org/abs/2402.03300 模型下載：https://huggingface.co/deepseek-ai GitHub主頁：https://github.com/deepseek-ai/DeepSeek-Math

數據迭代式數據采集

數據采集過程是迭代式進行的，最后經過四次數據收集迭代，我們最終收集了35.5M個數學網頁，共計120B Tokens，具體流程如下：

步驟 1：選擇一部分高質量的數學網頁，作為種子集合，用來訓練FastText打分模型。
步驟 2：利用訓練好的FastText模型，在包含400億網頁的Common Crawl中召回更多與數學相關的網頁。
步驟 3：在召回的數學網頁中，通過統計識別出與數學相關的域名（例如，mathoverflow.net）。
步驟 4: 對這些域名下的URL路徑進行人工標注，標記出與數學內容相關的路徑（例如，mathoverflow.net/questions）。
步驟 5: 將這些特定路徑下的網頁，如果它們未被前述步驟召回，則將它們作為正樣本加入到種子集合中，以供下一輪迭代使用。重復這一過程直到完成四輪迭代。
為了確保數據不被來自測試集的數據污染（例如GSM8K和MATH普遍存在于網頁中），我們沿用DeepSeek-Coder的n-gram過濾方法。

與開源數據對比

為了驗證DeepSeekMath數據質量，我們采用相同的初始化模型和訓練設置，分別基于多個數據集訓練了150B Tokens，并對比最終模型效果。如下圖，跟開源主流的數學數據集對比，DeepSeekMath數據訓練的模型（紅線）在多個數學基準上效果明顯領先。在一個Epoch范圍內（例如對于Proof-Pile-2是50B Tokens），DeepSeekMath數據效果更好，證明其數據質量更高。

下表展示更多榜單/數據集結果。簡而言之，DeepSeekMath數據勝在：中英雙語、更大規模、更高質量。

預訓練

預訓練實驗細節

初始化模型選取了深度求索開源的DeepSeek-Coder-Base-v1.5，繼續訓練了500B Tokens。
最大學習率為4.2e-4，Batch Size為10M。
數據分布如下圖：

預訓練模型效果

為了對DeepSeekMath-Base 7B的數學能力進行了全面評估，我們采取了三類實驗：1）依靠CoT解決數學問題的能力；2）使用工具解決數學問題的能力；3）進行形式化定理證明的能力；4）更通用場景下的語言理解、推理和代碼能力。下表首先展示了模型依靠CoT解決數學問題的能力。DeepSeekMath-Base 7B在所有八個基準測試中領先于開源基礎模型（包括數學推理能力超強的Mistral 7B和最近發布的數學領域模型Llemma 34B）。值得注意的是，在競賽級別的MATH數據集上，DeepSeekMath-Base超過了現有開源基礎模型超過10%的絕對值，并且優于540B的閉源模型Minerva，但僅用了1/77的參數量。

其次來看下利用工具來解數學題的能力，即通過Prompt引導模型生成包含math和sympy等包的Python代碼來解題。下表可以看出，DeepSeekMath-Base 7B明顯超過CodeLlama 34B和Llemma 34B。

緊接著看下形式化定理證明能力，評估方式是將非形式化證明轉為形式化證明。我們在miniF2F上進行評估，這是一個用于奧林匹克級別的數學基準測試。結果如下表所示，DeepSeekMath-Base 7B在自動定理證明方面，同樣表現出強大的性能。

為了驗證在更廣泛場景下DeepSeekMath的能力，我們在大模型的語言理解、推理和代碼的公開榜單上測試了模型。結果如下表，DeepSeekMath-Base 7B相比初始化的Coder模型，在MMLU和BBH上表現更佳，也就是說數學預訓練有助于語言理解和推理能力的提升。

對齊階段

SFT階段

我們構建了一個中英數學SFT數據集，包括CoT、PoT和工具集成推理等三種格式，訓練樣本總數為776K。

RL階段

我們采納了一種高效的強化學習算法，Group Relative Policy Optimization (GRPO)。與傳統的PPO算法相比，GRPO摒棄了對critic模型的依賴，轉而基于組內樣本得分計算baseline，顯著減少了PPO訓練所需要的計算資源。基于GRPO，我們探究了結果式監督、過程式監督以及迭代式強化學習的效果。模型效果下表評估的是模型未使用工具情況下，通過自身CoT解決數學題的能力。在MATH數學競賽數據集上，我們的模型DeepSeekMath-RL 7B超過了7B~70B所有開源模型，以及大多數閉源模型（例如Inflection-2和Gemini Pro）13%的絕對值，非常接近GPT-4和Gemini Ultra性能。

其中值得注意的是，DeepSeekMath-RL 7B所有評估指標上都超過了基準模型DeepSeekMath-Instruct 7B，展示了GRPO強化學習訓練的有效性。

分析

代碼預訓練會提升模型數學能力嗎？我們探究了不同訓練方式對模型結果的影響，包括：1）General訓練400B Tokens -> Math訓練150B Tokens
2）Code訓練400B Tokens -> Math訓練150B Tokens
3）Math單階段訓練150B Tokens
4）Code和Math混合訓練400B+150B Tokens
結果如下表，可以發現：代碼訓練可以提升模型工具進行數學推理的能力（w/ Tool Use），無論是在兩階段訓練還是一階段訓練設置下。