第一章?煉丹爐排行榜:六把開源“神器”橫評

名稱 GitHub Star 一句話賣點 適合人群 缺點
ms-swift 3k 阿里系、支持通義千問,中文文檔完善 國內(nèi)開發(fā)者 社區(qū)規(guī)模較小
Firefly 4k 全流程腳本化,一鍵跑LoRA 大語言模型微調(diào)新手 新模型適配較慢
DeepSpeedExamples 9k 微軟官方,極致分布式 擁有 A100 集群的大團隊 配置復(fù)雜
unsloth 10k 訓(xùn)練速度×2,顯存減半 單卡玩家 僅支持 Llama2/3
LLaMA-Factory 23k 全家桶(SFT/RLHF/量化)+ WebUI 所有人 代碼量龐大
FastChat 26k 主打推理 & 在線標注,社區(qū)活躍 需要 RLHF 數(shù)據(jù)閉環(huán) 微調(diào)功能相對弱

選型建議

第二章?火候三味:全參數(shù) vs PEFT vs LoRA

  1. 全參數(shù)微調(diào)(Full Fine?Tuning)

  2. PEFT(Parameter?Efficient Fine?Tuning)

  3. LoRA?&?QLoRA

    任務(wù)復(fù)雜度 ↑
             │     全參數(shù)
             │  P?Tuning v2
             │      LoRA
             │     QLoRA
    └────────→ 資源預(yù)算

第三章?柴薪清單:GPU/顯存/費用速查

模型規(guī)模 全參數(shù) FP16 LoRA r=64 QLoRA 4?bit 推薦 GPU Spot 單價(北京)
7B 28?GB 12?GB 6?GB 1×A10G ¥1.8/小時
13B 52?GB 24?GB 12?GB 1×A100?40G ¥4.5/小時
30B 120?GB 48?GB 24?GB 2×A100?80G ¥9.0/小時
65B 260?GB 96?GB 48?GB 4×A100?80G ¥18/小時

省錢技巧

第四章?爐鼎實操:兩種主流路徑

路徑?A:SageMaker BYOC(Bring Your Own Container)

  1. 制作鏡像

    FROM 763104351884.dkr.ecr.cn-northwest-1.amazonaws.com.cn/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04
    RUN pip install llama-factory[metrics,bitsandbytes]
    COPY ./scripts /opt/ml/code
    ENV SAGEMAKER_PROGRAM train.py
  2. 上傳數(shù)據(jù)到 S3

    aws s3 cp dataset.jsonl s3://your-bucket/data/
  3. 啟動訓(xùn)練任務(wù)

    from sagemaker.pytorch import PyTorch
    estimator = PyTorch(
       entry_point='train.py',
       role=role,
       image_uri='…/llama-factory:latest',
       instance_type='ml.g5.12xlarge',
       use_spot_instances=True,
       checkpoint_s3_uri='s3://your-bucket/checkpoints/',
       hyperparameters={…}
    )
    estimator.fit({'train': 's3://your-bucket/data/'})

路徑?B:ModelHub 無代碼平臺

  1. CloudFormation 一鍵部署(5?min)
  2. 控制臺上傳數(shù)據(jù)集(拖拽 JSONL)
  3. 選模型 → LoRA → 調(diào)滑塊(epoch / lr / rank)
  4. 點擊「開始訓(xùn)練」,實時監(jiān)控 loss(W\&B 已集成)
  5. 訓(xùn)練完成后「部署 Endpoint」,獲得 RESTful?API

第五章?煉丹口訣:超參數(shù)調(diào)校心法

  1. 學(xué)習(xí)率?(lr)

  2. Epoch?& Early Stop

  3. Batch?Size?& 梯度累積

    per_device_train_batch_size=1
    gradient_accumulation_steps=32

    等同 global batch=32,但顯存僅算1條。

  4. Warmup?& Scheduler

第六章?火候監(jiān)控:指標儀表盤搭建

第七章?常見問題 & 靈丹妙方

癥狀 診斷 藥方
loss 不下降 lr 太小 / 數(shù)據(jù)臟 升 lr?10×,并清洗訓(xùn)練集
eval 高 train 低 過擬合 加 dropout、減 epoch、數(shù)據(jù)增強
顯存 OOM batch 太大 / 序列長 梯度累積 + FlashAttention2
中文亂碼 template 錯 確認 template=qwen 而非 llama

第八章?結(jié)丹 & 收丹

  1. 合并 LoRA

    python scripts/export_model.py \
     --model_name_or_path NousResearch/Llama-2-7b-hf \
     --adapter_name_or_path ./saves/llama2-7b-lora \
     --export_dir ./models/llama2-7b-chat
  2. 量化壓縮

  3. 評估

  4. 部署


大語言模型微調(diào)不是一錘子買賣,而是「數(shù)據(jù) → 訓(xùn)練 → 評估 → 數(shù)據(jù)」的螺旋上升。今天你或許只煉得“小還丹”,但只要持續(xù)迭代,終有一日定能煉成“九轉(zhuǎn)金丹”。

原文引自:https://aws.amazon.com/cn/blogs/china/practical-series-on-fine-tuning-large-language-models-part-two/

上一篇:

AI在大學(xué)生活中的5大應(yīng)用場景(2025年版)

下一篇:

GPT-4 股票預(yù)測實戰(zhàn)|Alpha Vantage API 微調(diào)大模型 Llama-3 量化交易教程
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費