
使用Scala Play框架構建REST API
“開源圈終于迎來了自己的 GPT-4 時刻!”
但真正的興奮點并不只是“大”,而是“大得可落地、大得會動手、大得能裝下一整本《三體》外加 17 個工具”。今天,我們就把這臺“會思考又能動手”的超級大腦拆給你看。
一句話解釋:Kimi K2 就像一個擁有 384 位頂尖專科醫生的超級醫院,每次問診只喊來最相關的 8 位醫生 + 1 位全科醫生共同會診,既保證“大”又保證“快”。
傳統 AdamW 在千億級別就頻繁出現梯度爆炸,K2 團隊把 Muon 優化器改造成 MuonClip:
最終,在 15.5 T token 的預訓練中,最大梯度范數被壓在 1.5 以下,訓練 0 中斷。
為了保持 128K 的輸入窗口,團隊砍掉了冗余注意力頭(64 vs 128),同時把 MoBA(Mixture of Block Attention) 提前放進推理引擎:
把 128K 切成 256 個 512-token 塊,Router 只為每個 Query 挑 Top-4 塊做注意力,計算復雜度從 O(n2) 降到 O(n^1.5)。
說明:
實戰案例:
“幫我把《三體》英文版 EPUB 轉成中文有聲書,并把每章總結發到我的 Notion 數據庫。”
Kimi K2 自動編排:
EPUBParser → Translator → TTS → NotionAPI → 發送郵件確認,全流程 6 min 27 s。
開源倉庫:
量化方案:
一鍵啟動:
docker run --gpus all -p 8000:8000 \
-e MODEL_ID=moonshot-ai/Kimi-K2-Instruct-AWQ \
-e QUANT=awq \
moonshotai/kimi-k2-vllm:latest
Benchmark | GPT-4.1 | Claude-3.5 | Gemini-1.5 | Kimi-K2 | Winner |
---|---|---|---|---|---|
MMLU 5-shot | 88.7 | 87.3 | 89.1 | 88.4 | Gemini |
HumanEval | 87.6 | 84.1 | 85.5 | 90.2 | K2 |
GSM8K | 95.1 | 94.8 | 94.4 | 96.0 | K2 |
LongBench 128K | 65.3 | 62.4 | 68.9 | 71.2 | K2 |
ToolBench 17-in-1 | 72.8 | 74.1 | 75.0 | 78.6 | K2 |
數據來源:Moonshot AI 2025-07-30 Tech Report,除 LongBench 為內部評測。
開發者可提交自定義工具 JSON Schema,官方每周自動重訓并熱更新。
從 2022 年 GPT-3.5 的 175 B,到 2025 年 Kimi K2 的 1 T,人類只花了 3 年就把模型規模翻了 6 倍。
更瘋狂的是,K2 選擇開源 + 稀疏激活,把“萬億”這個遙不可及的數字變成了每個開發者都能 pip install moonshot
的日常工具。
下一次,當你用 2 塊錢調一次 1 T 模型,讓它幫你寫代碼、做總結、訂機票、發郵件,請記得——
這不僅是技術的勝利,更是開源精神的勝利。