本文深入探討了DeepSeek大模型的核心技術,從公司背景、模型能力、訓練與推理成本到核心技術細節進行了全面分析。DeepSeek由幻方量化于2023年7月在杭州成立,其推出的V3模型在性能上已與OpenAI的GPT-4o媲美,訓練成本不到600萬美元,API定價遠低于國內其他頭部廠商。DeepSeek-V3采用了自研的MLA(多頭潛在注意力)機制和無輔助損失的MoE(Mixture of Experts)架構,顯著減少了KV緩存和訓練成本。訓練框架HAI-LLM支持多種并行策略,優化了通信和計算效率。推理部署采用預填充和解碼分離策略,確保高吞吐量和低延遲。文章還指出,DeepSeek的成功在于其深厚的技術積累和對基礎研究的重視,其技術創新將推動AI行業的快速且低成本迭代。