日韩精品欧美激情国产一区,天堂成人一区二区三区,国产亚洲精品九九久在线观看

export PATH=$CUDA_HOME/bin:$PATH
export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$LD_LIBRARY_PATH

新建 conda 運行環境
本實例中，使用基于Conda的運行環境來運行DS-Chat。下面的命令新建了名為Test01的運行環境，并在安裝完成后使用 activate 命令激活此運行環境。最后，將運行環境的路徑加入系統PATH和LD_LIBRARY_PATH中，從而可以優先使用此運行環境下安裝的工具和編譯器。

conda create -n Test01 python=3.10 anaconda

conda activate Test01



# 將conda環境加入PATH和LD_LIBRARY_PATH中，從而可以優先利用conda安裝的程序

export LD_LIBRARY_PATH=~/anaconda3/envs/Test01/lib/:$LD_LIBRARY_PATH

export PATH=~/anaconda3/envs/Test01/bin:$PATH

下載 DeepSpeedExamples 代碼
DS-Chat 工具的代碼位于 DeepSpeedExamples 倉庫中。要下載其代碼，請執行以下命令。如果尚未安裝 git 命令，需要先安裝 git。
下載完成后，切換到代碼的目錄下，使用pip命令安裝所需要的開發庫。

conda install git

git clone https://github.com/microsoft/DeepSpeedExamples.git

cd DeepSpeedExamples/applications/DeepSpeed-Chat/



# 安裝依賴

pip install -r requirements.txt

最近這個開發庫更新得非常頻繁，所以你下載的最新版本可能與我在視頻中介紹的內容不一致。以下是視頻中所使用的版本：
https://github.com/TechDIYLife/DeepSpeedExamples20230415.git

重新安裝 pytorch（GPU版）
在我的環境中，按照上述步驟完成安裝后，我得到的是 PyTorch 的 CPU 版本。然而，模型訓練需要使用 GPU 版本。為了安裝最新的 PyTorch 并指定 CUDA 版本為 11.7，可以執行以下命令：

conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia

常見問題：

Q/A 1. 第一步（Step1）編譯不通過，提示 GCC 和 G++ 版本問題：
如果你使用的是 CUDA 10.2（不推薦，因為 Step3 無法通過編譯），可以選擇將 GXX 的版本降到 8.5.0：
conda install -c conda-forge gxx==8.5.0
Q/A 2. 第三步（Step3）編譯不通過：
這很可能是因為你的 CUDA 版本較舊。建議升級 PyTorch 和 CUDA。在我的環境中，PyTorch 1.12.1 + CUDA 10.2 時編譯失敗，而 PyTorch 2.0 和 CUDA 11.7 版本編譯通過。
Q/A 3. 如何檢查PyTorch是GPU還是CPU版？
可以參考使用以下命令：

python

>>> import torch

>>> torch.cuda.is_available()

True

>>> torch.cuda.device_count()

1

>>> torch.cuda.current_device()

0

>>> torch.cuda.device(0)

<torch.cuda.device at 0x7efce0b03be0>

>>> torch.cuda.get_device_name(0)

'GeForce GTX 950M'

Q/A 4. Step1第一次運行時，出現GCC版本過低的問題
錯誤信息：
Your compiler (c++ 4.8.5) may be ABI-incompatible with PyTorch!
Please use a compiler that is ABI-compatible with GCC 5.0 and above.
See https://gcc.gnu.org/onlinedocs/libstdc++/manual/abi.html.
解決方法：
conda install -c conda-forge gxx==10.3.0 # 我安裝時，要求版本不能高于11
Q/A 5. RuntimeError: Ninja is required to load C++ extensions
解決方法，安裝ninja
安裝方法： pip install ninja #安裝快，推薦
也可以參考： conda install -c conda-forge ninja
分布式訓練時，需要確認是否真的將PATH，LD_LIBRARY_PATH，CUDA_HOME等環境便利傳遞到其他節點
如何還有問題，可以清除緩存后再試：刪除 ~/.cache/torch_extensions 目錄下的緩存文件
Q/A 5. 如何使用mpirun啟動程序
DeepSpeed支持多種的多節點的訓練啟動方式，可以參考安裝以下工具：
conda install -c conda-forge mpi4py
conda install -c conda-forge openmpi
conda install -c anaconda openmpi
conda install -c pkgs/main openmpi
安裝中的問題：solving environment 長時間不結束：
執行完以下操作后，安裝成功：

建議停止在運行的程序
清理緩存文件： conda clearn –all

參考網頁說明：https://www.deepspeed.ai/getting-started/

**Q/A 6. Conda安裝庫時出現inconsistent問題
conda update -n YOUR_ENV_NAME -c defaults anaconda –force
參考：https://github.com/conda/conda/issues/8490

3、ChatGPT模型訓練基本流程

ChatGPT 的訓練過程共分為四個步驟：

a) 訓練預訓練模型，如 GPT-3.5 或 GPT-4；
b) 監督微調（SFT：supervised finetuning）（對應 DS-Chat 中的 Step1）；
c) 獎勵模型微調（RM：Reward model finetuning）（對應 DS-Chat 中的 Step2）；
d) 基于人類反饋的強化學習（RLHF：Reinforcement learning with human feedback）（對應 DS-Chat 中的 Step3）。

其中，階段（a）的 GPT-3.5 或 GPT-4 預訓練部分是計算量最大的階段。這不僅需要大量的 GPU（幾十到數百個），而且訓練時間非常長（數月），因此通常只有大型企業才能進行訓練。在本實例中，我們使用了 Facebook 公開的 opt 系列預訓練模型，并主要針對 b、c、d 三個步驟進行訓練。這三個步驟分別對應案例中的 Step 1、2、3。

4、代碼與訓練過程介紹

DS-chat代碼位于 applications/DeepSpeed-Chat 目錄下，下面是主要程序的結構，詳細解釋請觀看視頻中的解說：

- train.py  # 入口程序

- training  # 訓練腳本

  - step1_supervised_finetuning   # 第一步訓練

    - evaluation_scripts      # 第一步訓練完成后評價用

    - training_scripts        # 模型訓練腳本

    - README.md               # 說明文檔

    - main.py                 # 主程序，訓練過程的實現細節

    - prompt_eval.py          # 評價主程序

  - step2_reward_model_finetuning # 第二步訓練

    - 省略

  - step3_rlhf_finetuning         # 第三步訓練

    - 省略

  - utils 模型訓練，評價的相關函數庫

- inference # 測試，評價代碼

模型訓練調用過程（以1.3b模型為例）

入口程序： train.py

主要參數
–step 1 2 3
–deployment-type single_gpu single_node multi_node 不同的type主要是參數的設置不同
–actor-model: “1.3b”, “6.7b”, “13b”, “66b” 預訓練模型，默認是1.3b的模型
–reward-model：使用的是 350m 的模型
其他參數，可以去參考train.py中的說明
配置腳本：training/step1_supervised_finetuning/training_scripts/single_node/run_1.3b.sh

train.py 程序會調用 run_1.3b.sh 來執行模型訓練
un_1.3b.sh 中可以設置參數，并調用對應的 main.py 來開始模型訓練
訓練程序：training/step1_supervised_finetuning/main.py
核心訓練腳本，主要功能如下：

數據，模型的下載
模型的訓練
評價與測試用程序：prompt_eval.py
用于測試訓練后的模型，并提供了微調前后的對比。

Facebook opt系列模型
本實例中使用的預訓練模型是 facebook opt系列模型，根據OPT論文介紹，OPT-175B模型與GPT-3有類似的性能。
OPT：Open Pre-trained Transformer Language Models
論文地址：https://arxiv.org/abs/2205.01068

模型在Huggingface上的地址：
https://huggingface.co/facebook/opt-125m
https://huggingface.co/facebook/opt-350m
https://huggingface.co/facebook/opt-1.3b
https://huggingface.co/facebook/opt-6.7b
https://huggingface.co/facebook/opt-13b
https://huggingface.co/facebook/opt-30b
https://huggingface.co/facebook/opt-66b

如果要使用最大的175B的模型，需要申請，獲得授權后才能使用。
申請地址：https://forms.gle/dag8g7nKiR4o4VZq5

5、實戰Step1：監督微調

任務說明： 使用標定的數據對預訓練模型進行微調。

啟動訓練：
通過執行下面的命令，就可以開啟模型的訓練。在執行以下命令以開始模型訓練之前，請確保設置了 CUDA 并激活了 conda 運行環境（請參考【2 開發環境安裝】）。

python3 train.py --step 1 --deployment-type single_gpu  #單GPU訓練

python3 train.py --step 1 --deployment-type single_node #多GPU訓練

python3 train.py --step 1 --deployment-type multi_node  #多Node訓練

在上述三種方式中，single_gpu 只適合訓練較小的模型，而 single_node 和 multi_node 更適合訓練較大的模型。第一次運行時，建議使用 single_gpu，因為在這種模式下，輸出的錯誤信息會更詳細。如果遇到 GPU 內存不足的問題，可以嘗試使用 single_node 和 multi_node 來訓練。如果問題仍然存在，需要手動調整 batch-size。

此步驟主要進行：

模型下載：代碼會自動的下載對應的模型，默認情況下模型被存放在

~/.cache/huggingface/hub/models--facebook--opt-1.3b

數據下載：此步訓練使用了以下數據

Dahoas/rm-static    # 對話（prompt，response，chosen，rejected） 

Dahoas/full-hh-rlhf # 對話（prompt，response，chosen，rejected）

Dahoas/synthetic-instruct-gptj-pairwise #對話（prompt，chosen，rejected）

yitingxie/rlhf-reward-datasets  # 對話（prompt，chosen，rejected）

openai/webgpt_comparisons       # 帶人工打分的數據，comparisons with human feedback，19,578 comparisons）

stanfordnlp/SHP                 # 18個領域的385k 人類標注數據

模型訓練：模型訓練完成之后會被存儲在 output/actor-models/1.3b 下面。你可以通過 training.log 文件來查看訓練的進度。

評價與測試：
打開文件 run_prompt.sh 添加 baseline 模型，和 finetune 后的模型：

export CUDA_VISIBLE_DEVICES=0

python prompt_eval.py \

    --model_name_or_path_baseline facebook/opt-1.3b \

    --model_name_or_path_finetune ../../output/actor-models/1.3b

評價程序會調用 prompt_eval.py 來分別輸出 baseline 和 finetune 后模型的結果。

要執行此代碼，需要切換到 step1_supervised_finetuning 目錄下。

cd training/step1_supervised_finetuning

bash evaluation_scripts/run_prompt.sh

常見問題：

Q/A 1. 訓練過程，無法找到GPU，或者GPU調用錯誤，可以嘗試使用如下設置：

export CUDA_VISIBLE_DEVICES=0,1 # 2塊GPU

export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 # 8塊GPU

Q/A 2. 訓練過程，出現端口被占用的問題
通過以下命令來設置 MASTER_ADDR 和 MASTER_PORT，尤其是使用多個node來訓練時，必需要設置 MASTER_ADDR。

export MASTER_ADDR=127.0.0.1 # 多node時，需要設置為主node的IP或者機器名

export MASTER_PORT=29701

以上設置，也可以在 run1.3b.sh 文件中進行設置，例如：

CUDA_VISIBLE_DEVICES=0,1 deepspeed --master_addr=127.0.0.1 --master_port=29701 main.py

Q/A 3. 評價過程，出現模型參數不匹配問題： model.decoder.embed_tokens.weight: found shape torch.Size([50272, 2048]) in the checkpoint and torch.Size([50265, 2048]) in the model …

原因是由于模型被finetune以后，Token對應的詞典數量發生了變化，導致輸入數據維度變化了（這應該是個bug，在輸入端應盡量保持與預訓練模型一致）。應對方法，打開文件 prompt_eval.py，增加新的 config 讀取腳本，并把來源模型從 baseline 模型中修改為finerune后的模型：

config = AutoConfig.from_pretrained(args.model_name_or_path_finetune) # 新增

    model_fintuned = get_model(config, args.model_name_or_path_finetune, tokenizer)

Q/A 4. 評價過程，出現 RuntimeError: CUDA out of memory
當對比較大的模型評價時，可能會碰到此問題。比如在32G GPU上使用13b的模型時，就曾出現此問題。
建議嘗試使用 chat.py 命令（需要移動到 DeepSpeed-Chat 目錄下），執行方式如下：

python chat.py --path output/actor-models/1.3b

6、實戰Step2：Reward模型微調

任務介紹： 在第三步（Step3）中，強化學習階段需要使用獎勵模型。獎勵模型會對模型生成的答案進行打分，Step3 的強化訓練會根據這些分數對模型進行優化，從而使最終模型生成更高分的答案。獎勵模型同樣基于預訓練模型進行訓練，在這里我們使用了 350M 的 opt 模型。

啟動訓練：
啟動訓練方法與前面類似：

python3 train.py --step 2 --deployment-type single_gpu  #單GPU訓練

python3 train.py --step 2 --deployment-type single_node #多GPU訓練

python3 train.py --step 2 --deployment-type multi_node  #多Node訓練

訓練數據：

單GPU訓練時只使用了 Dahoas/rm-static 數據
多GPU訓練使用了更多的數據：

Dahoas/rm-static

Dahoas/full-hh-rlhf

Dahoas/synthetic-instruct-gptj-pairwise

yitingxie/rlhf-reward-datasets

openai/webgpt_comparisons

stanfordnlp/SHP

評價與測試：

步驟如下：

打開文件 run_eval.sh 設置 --model_name_or_path 參數。
轉移到目錄 step2_reward_model_finetuning 下
執行：bash evaluation_scripts/run_eval.sh

常見錯誤：

Q/A 1. 與上面類似，通常會出現GPU內存不足錯誤
需要調整batch-size或者使用更多GPU訓練。比如：在 run_350m.sh 文件中添加參數 –per_device_train_batch_size 8 將默認batch size從16修改為8，如果問題依然存在，可以進一步調小。

7、實戰Step3：RLHF訓練

任務介紹：
RLHF 是基于人類反饋的強化學習的縮寫。根據官方介紹，此步訓練面臨兩個主要挑戰：

同時使用多個模型的內存消耗問題：此步訓練不僅使用被訓練的主模型，還使用獎勵模型進行評分，因此會占用更多的 GPU 內存。
如何有效地生成答案：在 RLHF 訓練過程中，需要生成多個備選答案。由于模型一次推理只能生成一個答案，因此需要進行多次模型推理，這種操作會大幅度增加訓練時間。

在此實例中，通過將 DeepSpeed 訓練和推理功能整合為一個統一的混合引擎（Hybrid Engine）來應對這些挑戰。更多詳細信息可以參考官方說明。

在此步驟首次運行時，會安裝并編譯新的工具（transformer_inference）。如果編輯過程出現問題，建議升級 PyTorch 和 CUDA 版本。在我的環境下，使用 PyTorch 2.0 和 CUDA 11.7 下可以成功編譯。

啟動訓練：

python3 train.py --step 3 --deployment-type single_gpu  #單GPU訓練

python3 train.py --step 3 --deployment-type single_node #多GPU訓練

python3 train.py --step 3 --deployment-type multi_node  #多Node訓練

此步訓練后的模型被存儲在 output/step3-models/1.3b/ 下。

常見問題：

Q/A 1. GPU內存不足時，在sh腳本中增加如下設置，調整batch size：

--per_device_train_batch_size 8　--per_device_mini_train_batch_size=8

8、評價與測試

使用 chat.py 命令（需要移動到 DeepSpeed-Chat 目錄下）進行評價與測試。執行方式如下：

python chat.py --path output/step3-models/1.3b/actor

上面的程序可以啟動13b的模型，但是66b的模型無法成功運行。

備注：
這套工具剛剛發布不久，最近作者和貢獻者們還在頻繁的更新中。
更多的信息，請關注其github倉庫中的動態。

參考文獻

文章轉載自： 專題：大模型訓練入門實戰

手把手教你使用盤古API

探索海洋數據的寶庫：Amentum海洋數據探測API的潛力

#你可能也喜歡這些API文章!

跟大牛學LLM訓練和使用技巧

DeepSpeed-Chat 模型與數據

安全好用的OpenApi

DeepSpeed-Chat 代碼分析

API接口重試的8種方法

如何使用 Natural Language API 進行實體和情感分析

Undetectable檢查AI API的使用指南

手把手教你使用盤古API

GLM-4 智能對話機器人本地部署指南

我們有何不同？

API服務商零注冊

多API并行試用

數據驅動選型，提升決策效率

查看全部API→

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道

一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道

一鍵對比試用API 限時免費

內容目錄

1、DeepSpeed-Chat是什么？
2、開發環境安裝
3、ChatGPT模型訓練基本流程
4、代碼與訓練過程介紹
5、實戰Step1：監督微調
6、實戰Step2：Reward模型微調
7、實戰Step3：RLHF訓練
8、評價與測試
參考文獻

返回頂部

3、ChatGPT模型訓練基本流程

4、代碼與訓練過程介紹

5、實戰Step1：監督微調

6、實戰Step2：Reward模型微調

7、實戰Step3：RLHF訓練

8、評價與測試

參考文獻

手把手教你使用盤古API

探索海洋數據的寶庫：Amentum海洋數據探測API的潛力

我們有何不同？

熱門場景實測，選對API

#AI文本生成大模型API

#AI深度推理大模型API