设置

语言

DeepSeek R1 指南:2026 年的架构、基准测试与实际应用

T
TokenLab
·2026年2月26日·1280 次浏览
DeepSeek R1 指南:2026 年的架构、基准测试与实际应用

DeepSeek R1 证明了开源模型可以匹配闭源模型的推理能力。它于 2025 年 1 月以 MIT 许可证发布,在 AIME 2024 上得分为 79.8%,在 MATH-500 上得分为 97.3%,使其与 OpenAI 的 o1 系列处于同一梯队。

一年后,R1 仍然是市面上最具性价比的推理模型之一。其价格为每 1M tokens $0.55/$2.19,比同类闭源替代方案便宜 5-10 倍。以下是有效使用它所需了解的信息。

如果您正在将 R1 与更广泛的代码和旗舰模型进行比较,请在阅读本页的同时参考代码模型对比价格对比。当您将 R1 置于混合模型栈中,而不是要求它完成所有工作时,它的表现最为出色。


架构:为什么 671B 参数并不意味着 671B 的成本

DeepSeek R1 采用混合专家(MoE)架构:

  • 总参数量 6710 亿 (671B)
  • 每次 forward pass 激活 370 亿 (37B) 参数
  • 基于 DeepSeek-V3-Base 基座构建
  • 128K token 上下文窗口

MoE 设计意味着 R1 拥有 671B 模型的知识容量,但推理成本仅相当于约 37B 的模型。每个输入 token 仅激活“专家”网络的一个子集,从而将 compute 需求保持在可控范围内。

作为对比:运行一个 dense 的 671B 模型需要约 1.3TB 的内存。R1 的 MoE 架构在 Q4 quantization 下将其降低至约 336GB,使其能够在高端消费级硬件(如配备 512GB 内存的 Mac Studio M3/M5 Ultra)上运行。


基准测试表现

数学

Benchmark DeepSeek R1 OpenAI o1 Claude Opus 4.6
AIME 2024 79.8% 83.3% ~65%
MATH-500 97.3% 96.4% ~90%
Codeforces Elo 2,029 1,891 ~1,600

R1 在大多数数学基准测试中达到或超过了 o1。2,029 的 Codeforces 评分使其处于“候选大师 (Candidate Master)”范围,可与人类优秀程序员竞争。

编程

R1 在算法编程(竞赛编程、数学证明)方面表现强劲,但在软件工程任务(多文件重构、API 设计)方面优化较少。在 SWE-Bench Verified 上,Claude Sonnet 4.6 (72.7%) 的表现明显优于 R1。

使用 R1 进行算法实现和数学代码编写。使用 Claude 或 GPT-5 处理通用的软件工程任务。

推理

R1 的 chain-of-thought 推理是透明且可检查的。与闭源模型在隐藏的“thinking”阶段进行推理不同,R1 的推理轨迹是输出的一部分。这使得它在以下方面非常有价值:

  • 调试推理错误(你可以看到模型在哪里出错了)
  • 教育应用(学生可以跟随推理过程)
  • 研究(分析 LLM 如何处理问题)

训练创新:无人类标签的纯 RL

R1 的训练方法是其对该领域最重要的贡献。

传统方法:收集人类标注的推理示例,然后 fine-tune 模型进行模仿。

DeepSeek 的方法:通过大规模强化学习(RL)进行训练,无需任何监督推理数据。模型(DeepSeek-R1-Zero)仅通过 RL 就发展出了自我验证、反思和长 chain-of-thought 推理能力。

实际意义:R1 证明了推理能力可以通过 RL 训练产生,而无需昂贵的人类标注。这为其他实验室更高效地训练推理模型打开了大门。

最终的 R1 模型采用两阶段流水线:

  1. RL 阶段以培养推理模式
  2. SFT (supervised fine-tuning) 阶段以优化输出质量并减少重复和语言混杂等问题

实践指南

何时使用 R1

  • 数学证明和推导
  • 竞赛编程问题
  • 算法设计与优化
  • 需要逐步推理的数据分析
  • 透明推理至关重要的研究任务
  • 需要推理能力且对预算敏感的应用

何时不使用 R1

  • 通用软件工程(使用 Claude Sonnet 4.6)
  • 创意写作(使用 Claude 或 GPT-5)
  • 不需要推理开销的快速问答(使用 GPT-4.1-mini)
  • UI/前端代码生成(R1 在这方面较弱)
  • 需要最新信息的任务(R1 的训练数据有截止日期)

优化 R1 的使用

R1 的推理轨迹可能非常冗长。一个简单的数学问题可能会在给出最终答案之前生成 500+ tokens 的 chain-of-thought。管理建议:

  1. 合理设置 max_tokens。对于同一任务,R1 的输出可能比非推理模型长 3-5 倍。
  2. 解析最终答案。R1 通常会在推理轨迹之后以清晰的格式包裹其结论。
  3. 对于较简单的任务,使用 distilled 版本。DeepSeek 提供 1.5B、7B、8B、14B、32B 和 70B 参数的 R1 distilled 版本。32B 和 70B 版本以更低的成本保留了大部分推理能力。

价格对比

Model Input / 1M Output / 1M 推理能力
DeepSeek R1 $0.55 $2.19 强 (79.8% AIME)
OpenAI o3 $2.00 $8.00 强 (~83% AIME)
Claude Opus 4.6 $5.00 $25.00 良好 (~65% AIME)
OpenAI o4-mini $1.10 $4.40 良好 (针对速度优化)

R1 的输入成本比 o3 便宜 4 倍,输出成本也便宜 4 倍。对于推理质量相当的工作负载(数学、算法),R1 提供了显著的成本节约。


开源生态系统

R1 采用 MIT 许可证。您可以:

  • 无限制地进行商业使用
  • 在您自己的数据上进行 fine-tune
  • 对其进行 distill 以训练更小的模型
  • 本地运行(全量模型在 Q4 下需要约 336GB RAM)
  • 部署在您自己的基础设施上

可用的 distilled 版本:

Version Parameters 使用场景
R1-Distill-Qwen-1.5B 1.5B 边缘设备、移动端
R1-Distill-Qwen-7B 7B 本地开发、测试
R1-Distill-Llama-8B 8B 本地开发
R1-Distill-Qwen-14B 14B 生产环境 (轻度推理)
R1-Distill-Qwen-32B 32B 生产环境 (强推理)
R1-Distill-Llama-70B 70B 生产环境 (接近全量能力)

32B distilled 版本是大多数生产部署的最佳平衡点:以全量模型一小部分的成本提供强大的推理能力。

这也是大多数团队应该首先评估的版本。直接关注全量 671B 模型会使该模型在实际操作中看起来比实际情况更昂贵。

对于许多团队来说,distilled 路径才是真正的产品决策。全量模型证明了可能性,而 distilled 系列决定了实用性。

这种区别很容易被忽视,且忽视它的代价很高。

R1 在 2026 年技术栈中的实际位置

团队常犯的错误是将 R1 视为所有闭源模型的通用替代品。

R1 在以下情况下最强:

  • 工作内容是算法、数学或重度 chain-of-thought
  • 成本非常重要
  • 您可以容忍较长的推理轨迹
  • 您想要透明的推理,而不是隐藏的“thinking”

R1 在以下情况下较弱:

  • 任务是高精度的前端生成
  • 工作流侧重于 review 而非推理
  • 您需要最佳的多文件软件工程表现

这就是为什么许多团队现在将 DeepSeek R1 作为更广泛模型池中的推理专家,而不是技术栈中唯一的模型。


开始使用

通过 API

from openai import OpenAI

client = OpenAI(
    api_key="sk-lemon-xxx",
    base_url="https://api.tokenlab.sh/v1"
)

response = client.chat.completions.create(
    model="deepseek-r1",
    messages=[{
        "role": "user",
        "content": "Prove that the sum of the first n odd numbers equals n²."
    }],
    max_tokens=4096  # R1 reasoning traces can be long
)

print(response.choices[0].message.content)

本地运行

# 通过 Ollama (全量模型需要 ~336GB RAM)
ollama pull deepseek-r1:671b-q4

# 或使用 32B distilled 版本 (需要 ~20GB RAM)
ollama pull deepseek-r1:32b

下一步:DeepSeek V3 及未来

DeepSeek V3(非推理继任者)已经发布,具有更强的通用能力。DeepSeek 团队继续挑战开源模型所能达到的极限。

对于推理任务,R1 仍然是最佳的开源选择。对于通用任务,DeepSeek V3 的价格为每 1M tokens $0.28/$0.42,是目前最具性价比的模型之一。

两者都可以通过 TokenLab 使用单一 API key 访问。注册即送 $1 免费额度。

如果您计划在本地运行 R1,下一篇值得阅读的是 Mac Studio 本地 AI 指南。如果您计划通过网关调用它,那么 统一 AI API 网关指南 是更好的选择。


基准测试数据截至 2026 年 2 月。DeepSeek R1 权重可在 huggingface.co/deepseek-ai 获取。

分享: