DeepSeek R1 證明了開源模型可以媲美閉源模型的推理能力。於 2025 年 1 月以 MIT 授權發佈,它在 AIME 2024 上獲得 79.8% 的分數,在 MATH-500 上獲得 97.3%,使其與 OpenAI 的 o1 系列處於同一梯隊。
一年後,R1 仍然是市面上最具成本效益的推理模型之一。價格為每 1M tokens $0.55/$2.19,比同類閉源替代方案便宜 5-10 倍。以下是有效使用它所需要了解的資訊。
如果您正在將 R1 與更廣泛的程式碼編寫和旗艦模型進行比較,請在閱讀本頁的同時參考程式碼模型比較和價格比較。當您將 R1 置於混合模型堆疊中,而不是要求它處理所有事情時,它的表現最為出色。
架構:為什麼 671B 參數並不意味著 671B 的成本
DeepSeek R1 使用混合專家(MoE)架構:
- 總參數 6710 億 (671 billion)
- 每次 forward pass 激活 370 億 (37 billion)
- 基於 DeepSeek-V3-Base 基礎模型構建
- 128K token context window
MoE 設計意味著 R1 擁有 671B 模型的知識容量,但推理成本僅相當於約 37B 模型。每個輸入 token 僅激活「專家」網路的一個子集,從而使 compute 需求保持在可控範圍內。
作為比較:運行一個 dense 的 671B 模型需要約 1.3TB 的記憶體。R1 的 MoE 架構在 Q4 quantization 下將此需求降至約 336GB,使其能夠在高端消費級硬體(如配備 512GB 記憶體的 Mac Studio M3/M5 Ultra)上運行。
基準測試表現
數學
| 基準測試 | DeepSeek R1 | OpenAI o1 | Claude Opus 4.6 |
|---|---|---|---|
| AIME 2024 | 79.8% | 83.3% | ~65% |
| MATH-500 | 97.3% | 96.4% | ~90% |
| Codeforces Elo | 2,029 | 1,891 | ~1,600 |
R1 在大多數數學基準測試中與 o1 持平或超越。Codeforces 評分 2,029 分使其處於「Candidate Master」範圍,可與強大的人類程式設計師競爭。
程式碼編寫
R1 在演算法程式碼編寫(競賽程式設計、數學證明)方面表現強勁,但在軟體工程任務(多文件重構、API 設計)方面的優化較少。在 SWE-Bench Verified 上,Claude Sonnet 4.6 (72.7%) 的表現顯著優於 R1。
使用 R1 進行演算法實現和數學程式碼編寫。使用 Claude 或 GPT-5 進行一般的軟體工程。
推理
R1 的 chain-of-thought 推理是透明且可檢查的。與推理發生在隱藏「思考」階段的閉源模型不同,R1 的推理軌跡是輸出的一部分。這使其在以下方面具有價值:
- 調試推理錯誤(您可以看到模型在哪裡出錯)
- 教育應用(學生可以跟隨推理過程)
- 研究(分析 LLM 如何處理問題)
訓練創新:無人類標籤的純 RL
R1 的訓練方法是其對該領域最重要的貢獻。
傳統方法:收集人類標記的推理範例,然後 fine-tune 模型進行模仿。
DeepSeek 的方法:通過大規模 reinforcement learning (RL) 進行訓練,無需任何監督推理數據。模型(DeepSeek-R1-Zero)僅通過 RL 就發展出了自我驗證、反思和長 chain-of-thought 推理能力。
實際意義:R1 證明了推理能力可以從 RL 訓練中產生,而無需昂貴的人類標註。這為其他實驗室更有效地訓練推理模型打開了大門。
最終的 R1 模型使用兩階段 pipeline:
- RL 階段以發展推理模式
- SFT (supervised fine-tuning) 階段以優化輸出品質,並減少重複和語言混雜等問題
實際應用
何時使用 R1
- 數學證明和推導
- 競賽程式設計問題
- 演算法設計與優化
- 需要逐步推理的數據分析
- 推理透明度至關重要的研究任務
- 需要推理能力但預算有限的應用
何時不使用 R1
- 一般軟體工程(使用 Claude Sonnet 4.6)
- 創意寫作(使用 Claude 或 GPT-5)
- 不需要推理開銷的快速問答(使用 GPT-4.1-mini)
- UI/前端程式碼生成(R1 在這方面較弱)
- 需要最新資訊的任務(R1 的訓練數據有截止日期)
優化 R1 的使用
R1 的推理軌跡可能非常冗長。一個簡單的數學問題在給出最終答案之前可能會產生 500 多個 tokens 的 chain-of-thought。管理建議:
- 適當設置
max_tokens。對於相同的任務,R1 的輸出可能比非推理模型長 3-5 倍。 - 解析最終答案。R1 通常會在推理軌跡後以清晰的格式包裝其結論。
- 對於較簡單的任務,使用 distilled 版本。DeepSeek 提供 1.5B、7B、8B, 14B、32B 和 70B 參數的 R1 distilled 版本。32B 和 70B 版本以更低的成本保留了大部分推理能力。
價格比較
| 模型 | 輸入 / 1M | 輸出 / 1M | 推理能力 |
|---|---|---|---|
| DeepSeek R1 | $0.55 | $2.19 | 強 (79.8% AIME) |
| OpenAI o3 | $2.00 | $8.00 | 強 (~83% AIME) |
| Claude Opus 4.6 | $5.00 | $25.00 | 良好 (~65% AIME) |
| OpenAI o4-mini | $1.10 | $4.40 | 良好 (為速度優化) |
R1 的輸入成本比 o3 便宜 4 倍,輸出成本也便宜 4 倍。對於推理品質相當的工作負載(數學、演算法),R1 提供了顯著的成本節約。
開源生態系統
R1 採用 MIT 授權。您可以:
- 無限制地進行商業使用
- 在您自己的數據上進行 fine-tune
- 對其進行 distill 以訓練更小的模型
- 在本地運行(完整模型在 Q4 需要約 336GB RAM)
- 部署在您自己的基礎設施上
可用的 distilled 版本:
| 版本 | 參數 | 使用場景 |
|---|---|---|
| R1-Distill-Qwen-1.5B | 1.5B | 邊緣設備、行動端 |
| R1-Distill-Qwen-7B | 7B | 本地開發、測試 |
| R1-Distill-Llama-8B | 8B | 本地開發 |
| R1-Distill-Qwen-14B | 14B | 生產環境(輕度推理) |
| R1-Distill-Qwen-32B | 32B | 生產環境(強大推理) |
| R1-Distill-Llama-70B | 70B | 生產環境(接近完整能力) |
32B distilled 版本是大多數生產部署的最佳平衡點:以完整模型成本的一小部分提供強大的推理能力。
這也是大多數團隊應該首先評估的版本。直接轉向完整的 671B 故事會讓模型在實際操作中看起來比實際情況更昂貴。
對於許多團隊來說,distilled 路徑才是真正的產品決策。完整模型證明了可能性,而 distilled 系列決定了實用性。
這種區別很容易被忽視,且忽視它的代價很高。
R1 在 2026 年技術堆疊中的實際定位
團隊常犯的錯誤是將 R1 視為所有閉源模型的通用替代品。
R1 在以下情況最強:
- 工作內容涉及演算法、數學或重度 chain-of-thought
- 成本非常重要
- 您可以容忍較長的推理軌跡
- 您想要透明的推理,而不是隱藏的「思考」
R1 在以下情況較弱:
- 任務是高品質的前端生成
- 工作流程側重於審查而非推理
- 您需要最佳的多文件軟體工程表現
這就是為什麼許多團隊現在將 DeepSeek R1 作為更廣泛模型池中的推理專家,而不是堆疊中唯一的模型。
開始使用
通過 API
from openai import OpenAI
client = OpenAI(
api_key="sk-lemon-xxx",
base_url="https://api.tokenlab.sh/v1"
)
response = client.chat.completions.create(
model="deepseek-r1",
messages=[{
"role": "user",
"content": "Prove that the sum of the first n odd numbers equals n²."
}],
max_tokens=4096 # R1 reasoning traces can be long
)
print(response.choices[0].message.content)
在本地運行
# 通過 Ollama (完整模型需要約 336GB RAM)
ollama pull deepseek-r1:671b-q4
# 或使用 32B distilled 版本 (需要約 20GB RAM)
ollama pull deepseek-r1:32b
下一步:DeepSeek V3 及未來
DeepSeek V3(非推理繼任者)已經發佈,具有改進的通用能力。DeepSeek 團隊繼續推動開源模型所能達到的極限。
對於推理任務,R1 仍然是最佳的開源選擇。對於通用任務,DeepSeek V3 的價格為每 1M tokens $0.28/$0.42,是目前最具成本效益的模型之一。
兩者都可以通過 TokenLab 使用單一 API key 訪問。註冊即享 $1 免費額度。
如果您計劃在本地運行 R1,Mac Studio 本地 AI 指南是下一篇值得閱讀的文章。如果您計劃通過網關路由到它,統一 AI API 網關指南是更好的下一步。
基準測試數據截至 2026 年 2 月。DeepSeek R1 權重可在 huggingface.co/deepseek-ai 獲取。
