模型使用的是Deepseek-R1-Distill-Qwen-32B-GGUF模型

輸出 Tokens大約是每秒36 tokens左如圖所示,(ChatGPT-3.5 每秒生成速度僅為40 個token)

image

然后使用LM Studio加載模型(下文有詳細的介紹為什么不使用ollama),開啟它的API調用,然后在同一個局域網下的MAC上使用最新版本的Cline來調用(之所以使用MAC是因為我本人不太會也不習慣使用Windows)實際的輸出速度效果可以在下面視頻視頻段落中查看, 如果你查看具體的配置要求,可以看一下這個顯卡和模型對照的天梯圖:KCORES 大語言模型推理專用顯存天梯如果你是筆記本用戶或者是使用AMD顯卡或者顯卡不太行的可以查看這里在本地進行體驗測試:怎么在家用筆記本上輕松部署和使用DeepSeek R1?視頻演示—為什么選擇本地部署DeepSeek R1?—這個問題也是一個讀者朋友在上一篇文章里面的留言留言,我直接把截圖發上來

image

這里再整理一下:

為什么是LM Studio不是ollama

LM Studio 是一款專門為本地運行大語言模型(LLM)設計的桌面軟件。它的最大特點是讓復雜的 LLM 部署變得簡單直觀。說再直白一點:它就是一個智能模型的"應用商店"加"播放器"的結合體。

image

打開軟件后就能看到一個整潔的界面,上面列出了許多熱門的開源模型供你選擇,比如 Llama 2、Vicuna、Mistral,DeepSeek等。選擇模型就像在應用商店下載應用一樣簡單,只需點擊幾下就能完成。軟件會自動判斷你的電腦配置,并推薦適合你硬件條件的模型版本。

image

更貼心的是,LM Studio 提供了圖形化的設置界面。你可以像調整音響設備一樣,輕松地調節模型運行時使用多少 GPU 或 CPU 資源。還可以設定模型的"性格"- 也就是系統提示(System Prompt),告訴它應該以什么樣的風格和專業知識來回答問題。

image

你還能直接通過圖形化界面創建 API調用配置API的調用和查看API的調用日志。

image

所以你如果是初次接觸本地模型,建議你直接使用這個圖形界面,會方便直觀很多,鏈接地址: https://lmstudio.ai相關問題—如何在配置Cline調用本地模型? 可以查看這里:再見Cursor! Cline+DeepSeek-V3 雙雄組合引爆AI編程| 最強配置方案+代碼實例

image

原文轉載自:https://mp.weixin.qq.com/s/DmbpOwAsQz4yax78P3mV1g

上一篇:

高顏值的 DeepSeek 開源客戶端Lobe Chat

下一篇:

用了3小時從0訓練小GPT!
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費