久久久久久电影,欧美日韩黄色影视,国产精品露脸av在线

--data_path Dahoas/rm-static \
--model_name_or_path bigscience/bloomz-560m \
--gradient_accumulation_steps 8 --lora_dim 128 --zero_stage $ZERO_STAGE \
--per_device_train_batch_size 8 --per_device_eval_batch_size 8 \
--deepspeed --output_dir $OUTPUT 2>&1 | tee $OUTPUT/training.log

注：以上設置顯存占用約30G，你可以調整 per_device_train_batch_size 和 per_device_eval_batch_size 來降低顯存的使用。

模型導入可以分為三個部分：

導入 tokenizer： AutoTokenizer.from_pretrained(…)
導入 model_config： AutoConfig.from_pretrained(…)
導入 model: AutoModelForCausalLM.from_pretrained(…)

詳細的實現細節，可以參考下面的代碼。

from utils.model.model_utils import create_hf_model

tokenizer = AutoTokenizer.from_pretrained(args.model_name_or_path,

                                          fast_tokenizer=True)

model = create_hf_model(AutoModelForCausalLM,

                        args.model_name_or_path,

                        tokenizer,

                        ds_config,

                        disable_dropout=args.disable_dropout)

create_hf_model函數的實現代碼如下：

def create_hf_model(model_class,

                    model_name_or_path,

                    tokenizer,

                    ds_config=None,

                    rlhf_training=False,

                    disable_dropout=False):

    model_config = AutoConfig.from_pretrained(model_name_or_path)

    if disable_dropout:

        model_config.dropout = 0.0

    # Note: dschf is defined in function scope to avoid global effects

    # https://huggingface.co/docs/transformers/main_classes/deepspeed#nontrainer-deepspeed-integration

    if ds_config is not None and ds_config["zero_optimization"]["stage"] == 3:

        dschf = HfDeepSpeedConfig(ds_config)

    else:

        dschf = None

    if rlhf_training:

        # the weight loading is handled by create critic model

        model = model_class.from_config(model_config)

    else:

        model = model_class.from_pretrained(

            model_name_or_path,

            from_tf=bool(".ckpt" in model_name_or_path),

            config=model_config)



    model.config.end_token_id = tokenizer.eos_token_id

    model.config.pad_token_id = model.config.eos_token_id

    model.resize_token_embeddings(int(8 *math.ceil(len(tokenizer) / 8.0)))  

    # make the vocab size multiple of 8



    return model

使用 BLOOMZ 系列模型時，不需要修改任何模型導入代碼。但在使用其他模型，例如 GLM 時，DS-Chat 無法直接導入模型，這時需要對上述代碼進行調整。

常見問題：

訓練過程中出現內存不足：
對策：調小 batch-size，可以添加參數 --per_device_train_batch_size 1 --per_device_eval_batch_size 1
另外也可以修改參數：--max_seq_len 255
從 Huggingface 下載的模型，本地存放位置：
默認位置在：~/.cache/huggingface/hub 目錄下
如何使用自己的模型
設置參數 model_name_or_path 為本地的路徑即可。
注意需要確認模型文件夾下是否有 tokenizer_config.json 和 tokenizer.json 兩個文件（DS-Chat 保存模型時，并不存儲此兩個文件）。

3、替換數據

針對大型模型的一個重要開發工作是使用特定任務的數據對模型進行進一步優化。通常情況下，使用相關任務的數據進行優化的模型會在目標任務上表現更好。在 DS-Chat 工具中使用自己的數據進行模型訓練可以分為以下三個步驟：

準備數據，并按照一定的格式整理數據，例如使用 JSON 格式。
修改 data_utils.py 和 raw_datasets.py 的代碼，以添加對新數據的支持。
在訓練 shell 腳本中設置使用新數據，并開始模型訓練。

3.1 如何準備數據

在準備數據之前，首先需要了解模型訓練時所需的數據格式。我們可以通過查看 raw_datasets.py 代碼來了解訓練時使用的數據格式。以下是代碼中實現的其中一種類型數據讀取的示例：

class HelloSimpleAIHC3ChineseDataset(PromptRawDataset):

    def get_prompt(self, sample):

        if sample['question'] is not None:

            return " Human: " + sample['question'] + " Assistant:"

        return None



    def get_chosen(self, sample):

        if sample['human_answers'][0] is not None:

            return " " + sample['human_answers'][0]

        return None



    def get_prompt_and_chosen(self, sample):

        if sample['question'] is not None and sample['human_answers'][

                0] is not None:

            return " Human: " + sample['question'] + " Assistant: " + sample[

                'human_answers'][0]

        return None



    def get_rejected(self, sample):

        ...

    def get_prompt_and_rejected(self, sample):

        ...

通過上面的代碼，我們可以看到，此數據中共有三種數據格式：prompt、answer、rejected，以及它們的組合：prompt+answer 和 prompt+rejected。因此，訓練數據最基本的內容是 prompt、answer 和 rejected。

然后，我們可以在 data_utils.py 文件中第 141 行的部分了解到：

在 Stage 1 階段調用了 get_prompt_and_chosen() 來讀取訓練數據。所以，如果要進行 Stage 1 的訓練，我們需要準備 prompt 和 answer 即可。
Stage 2 中調用了 get_prompt_and_chosen 和 get_prompt_and_rejected 讀取數據來訓練 reward 模型，也就是此部分需要 prompt、answer 和 rejected 數據。
Stage 3 中只調用了 get_prompt，因此只需要有 prompt 即可進行 Stage 3 的訓練。

LLMZoo模型中模型的訓練類似 Stage 1，所以，你需要準備的數據只需包含 prompt 和 answer 即可。

為了便于數據讀取，我對 phoenix-sft-data-v1 數據進行格式轉換，下面是其數據的 JSON 示例：

[

  {

    "id": "0",

    "type": "Instruction",

    "from_human": "假設你是一位Airbnb房主。... \n",

    "from_gpt": "很抱歉，作為AI語言模型，我無法檢查您的Airbnb列表。"

  },

  {

    "id": "1",

    "type": "Instruction",

    "from_human": "假設你是一位翻譯。... \n",

    "from_gpt": "\"Al dente\" means cooking the ..."

  }

]

其中，from_human 為 prompt，而 from_gpt 為 answer。接下來，如果你有自己的數據，就可以按照上述格式來準備數據了。

3.2 修改代碼讀取數據

接下來，我們將介紹如何修改代碼以讀取自定義數據。DS-Chat 中提供了多種格式的數據讀取方式，你可以選擇與自己數據格式相似的數據讀取類進行修改。或者直接選擇其中一個格式，并按照其格式準備數據，這樣可以減少代碼修改量。

代碼修改包括（修改過程請參考視頻）：

data_utils.py
新增內容：需要定義新數據類的對象及接口。
raw_datasets.py
新增內容：定義新的數據讀取類。load_dataset 的本地數據讀取方式：self.raw_datasets = load_dataset(path=”/home/data/”, data_files=”yourData.json”)。
run1.3b.sh
修改：設置使用自己的數據庫名稱。

模型訓練過程中，會通過數據庫名稱，在 data_utils.py 中調用數據的讀取類，來初始化數據讀取對象。然后在 raw_datasets.py 文件中，第一次調用 load_dataset 時，load_dataset 會將 JSON 文件轉換為 arrow 格式，并緩存到 cache_dir 目錄下。在下次再次讀取數據時，會直接讀取緩存的 arrow 文件。

注意事項：
如果是使用分布式訓練時，建議先使用單 GPU 進程對數據部分進行緩存處理，因為在分布式訓練時，多進程對數據進行緩存可能會出現錯誤，尤其是在數據量比較大的情況下。

另外要注意，DS-Chat 會對數據進行第二次的本機數據緩存處理，這可能會額外占用你的硬盤存儲空間。并且這種方法在數據量比較大時，也會導致內存消耗過大的問題。目前官方正在解決中，具體信息可以參考下面的鏈接。在學習階段，你可以使用少量樣本，或者使用多 GPU 訓練的方式來緩解此問題。
https://github.com/microsoft/DeepSpeedExamples/issues/450

數據調用流程
接下來，我給出了代碼修改的過程。在修改代碼時，你可以參考以下的調用過程進行修改。

- File: step1_supervised_finetuning/main.py： 

  - Line 224 （train_dataset, eval_dataset = create_prompt_dataset（） 

    - File: /training/utils/data/data_utils.py

      - Line 268: train_dataset, eval_dataset = create_dataset()

      - Line 212: raw_dataset = get_raw_dataset()

        - Line 20：def get_raw_dataset(): 

            return raw_datasets.Wangrui6ZhihuKOLDataset()

            - File: training/utils/data/raw_datasets.py

              - Line 307: class Wangrui6ZhihuKOLDataset(PromptRawDataset)



      - Line 220: train_dataset = create_dataset_split()

        - Line 141: if train_phase == 1:

            chosen_sentence = raw_dataset.get_prompt_and_chosen()

常見問題

Q/A 1：錯誤 Exception: Current loss scale already at minimum – cannot decrease scale anymore. Exiting run
問題描述：訓練過程中，可能會遇到上述錯誤。此問題通常是由于模型訓練不穩定造成的，建議將 batch size 調大以增加訓練的穩定性。調大 batch size 會增加顯存的使用，一個替代的做法是使用多 GPU，或者設置 gradient_accumulation_steps 以達到增加 batch size 的效果。
如果依然有問題，可以嘗試使用 float32（一般是針對 nan 的錯誤）。
Q/A 2：注意刪除臨時數據
DS-Chat 程序，默認會對數據進行多次緩存，其中包括：

Huggingface 對數據的緩存，例如 map 操作會自動緩存數據（程序修改可能會引起重新緩存，所以要注意刪除舊緩存文件）。
load_dataset 會自動將 json 數據緩存為 arrow 數據格式。
DS-Chat 會將數據緩存到本機：traindata-xxxx.pt evaldata-xxx.pt 文件在本機的 /tmp/data_files/ 目錄下，另外還包括一個數據 index 文件（*.npy）。

Q/A 3: 分布式訓練時，數據讀取錯誤
建議在單 GPU 上單獨執行一次數據 load_dataset 部分，對基本的數據處理進行緩存后，再啟動多節點的分布式訓練。
Q/A 4：數據量較大時，如何降低機器內存的使用
適當地對數據進行拆分處理（需要相應的代碼調整）。
可以采用動態調用的方式，官方正在解決中，你可以關注下面的鏈接以了解最新進度：https://github.com/microsoft/DeepSpeedExamples/issues/450
Q/A 5：本地數據修改后，重新訓練時，數據依舊是修改前的
這是因為DS-Chat對數據的緩存引起的，需要手動刪除本機上的緩存文件：
默認的緩存目錄：/tmp/data_files/，可以將此目錄刪除后重新開始訓練。

參考文獻

[1] https://github.com/microsoft/DeepSpeedExamples
[2] 模型 BLOOM：https://huggingface.co/bigscience/bloom-560m
[3] Huggingface 數據讀取方式：https://huggingface.co/docs/datasets/loading
[4] LLMZoo項目：https://github.com/FreedomIntelligence/LLMZoo

文章轉載自： DeepSpeed-Chat 模型與數據

最新文章

內容目錄

1、實驗設置：模型與數據
2、替換模型
3、替換數據
參考文獻

返回頂部

使用AI進行API設計

基于阿里QoderAPI實現實時崗位解讀文生圖信息圖生成

国内精品久久久久影院日本,日本中文字幕视频,99久久精品99999久久,又粗又大又黄又硬又爽毛片