설정

언어

DeepSeek R1 가이드: 아키텍처, Benchmarks 및 2026년 실전 활용법

T
TokenLab
·2026년 2월 26일·1279 조회수
DeepSeek R1 가이드: 아키텍처, Benchmarks 및 2026년 실전 활용법

DeepSeek R1은 오픈 소스 모델이 폐쇄형 모델의 추론 능력에 필적할 수 있음을 증명했습니다. 2025년 1월 MIT 라이선스로 출시된 이 모델은 AIME 2024에서 79.8%, MATH-500에서 97.3%를 기록하며 OpenAI의 o1 시리즈와 대등한 수준에 올랐습니다.

1년이 지난 지금도 R1은 가장 비용 효율적인 추론 모델 중 하나로 남아 있습니다. 1M token당 $0.55/$2.19의 가격으로, 유사한 폐쇄형 대안 모델보다 5~10배 저렴합니다. 효과적인 사용을 위해 알아야 할 사항은 다음과 같습니다.

R1을 더 넓은 코딩 및 플래그십 모델들과 비교하고 싶다면, 이 페이지와 함께 코딩 모델 비교가격 비교를 참고하세요. R1은 모든 일을 혼자 처리하기보다 혼합 모델 스택(mixed-model stack)에 배치했을 때 가장 빛을 발합니다.


아키텍처: 671B 파라미터가 671B의 비용을 의미하지 않는 이유

DeepSeek R1은 Mixture of Experts (MoE) 아키텍처를 사용합니다.

  • 총 6,710억(671B) 파라미터
  • 순전파(forward pass)당 370억(37B) 파라미터 활성화
  • DeepSeek-V3-Base 기반
  • 128K token 컨텍스트 윈도우(context window)

MoE 설계 덕분에 R1은 671B 모델의 지식 용량을 갖추면서도 추론 비용은 약 37B 모델 수준으로 유지합니다. 각 입력 token은 "전문가(expert)" 네트워크의 일부만 활성화하여 연산 요구량을 관리 가능한 수준으로 유지합니다.

비교를 위해 설명하자면, 밀집형(dense) 671B 모델을 실행하려면 약 1.3TB의 메모리가 필요합니다. R1의 MoE 아키텍처는 Q4 양자화(quantization) 시 이를 약 336GB로 줄여주어, Mac Studio M3/M5 Ultra(512GB)와 같은 고사양 소비자용 하드웨어에서도 실행이 가능하게 합니다.


벤치마크 성능

수학

벤치마크 DeepSeek R1 OpenAI o1 Claude Opus 4.6
AIME 2024 79.8% 83.3% ~65%
MATH-500 97.3% 96.4% ~90%
Codeforces Elo 2,029 1,891 ~1,600

R1은 대부분의 수학 벤치마크에서 o1과 대등하거나 능가합니다. Codeforces 레이팅 2,029점은 "Candidate Master" 범위에 해당하며, 이는 숙련된 인간 프로그래머와 경쟁할 수 있는 수준입니다.

코딩

R1은 알고리즘 코딩(경진 프로그래밍, 수학적 증명)에는 강하지만, 소프트웨어 엔지니어링 작업(다중 파일 리팩토링, API 설계)에는 덜 최적화되어 있습니다. SWE-Bench Verified에서는 Claude Sonnet 4.6(72.7%)이 R1을 크게 앞섭니다.

알고리즘 구현과 수학적 코드에는 R1을 사용하세요. 일반적인 소프트웨어 엔지니어링에는 Claude나 GPT-5를 사용하는 것이 좋습니다.

추론

R1의 사고 사슬(chain-of-thought) 추론은 투명하고 검토 가능합니다. 추론이 숨겨진 "thinking" 단계에서 일어나는 폐쇄형 모델과 달리, R1의 추론 과정(traces)은 출력의 일부로 포함됩니다. 이는 다음과 같은 경우에 유용합니다:

  • 추론 오류 디버깅 (모델이 어디서 잘못되었는지 확인 가능)
  • 교육용 애플리케이션 (학생들이 추론 과정을 따라갈 수 있음)
  • 연구 (LLM이 문제에 접근하는 방식 분석)

학습 혁신: 인간의 라벨링 없는 순수 RL

R1의 학습 방식은 이 분야에서 가장 중요한 기여 중 하나였습니다.

전통적인 방식: 인간이 라벨링한 추론 예시를 수집한 다음, 모델이 이를 모방하도록 미세 조정(fine-tuning)합니다.

DeepSeek의 방식: 지도 학습 데이터 없이 대규모 강화 학습(RL)을 통해 학습합니다. 모델(DeepSeek-R1-Zero)은 RL만으로 자기 검증, 성찰, 긴 사고 사슬 추론 능력을 스스로 개발했습니다.

실질적인 시사점: R1은 값비싼 인간의 주석 없이도 RL 학습을 통해 추론 능력이 발현될 수 있음을 보여주었습니다. 이는 다른 연구소들이 추론 모델을 더 효율적으로 학습시킬 수 있는 길을 열어주었습니다.

최종 R1 모델은 2단계 파이프라인을 사용합니다:

  1. 추론 패턴 개발을 위한 RL 단계
  2. 출력 품질을 개선하고 반복 및 언어 혼용 문제를 줄이기 위한 SFT(지도 미세 조정) 단계

실전 활용법

R1을 사용해야 할 때

  • 수학적 증명 및 유도
  • 경진 프로그래밍 문제
  • 알고리즘 설계 및 최적화
  • 단계별 추론이 필요한 데이터 분석
  • 투명한 추론 과정이 중요한 연구 작업
  • 추론 능력이 필요하면서도 예산에 민감한 애플리케이션

R1을 사용하지 말아야 할 때

  • 일반 소프트웨어 엔지니어링 (Claude Sonnet 4.6 권장)
  • 창의적 글쓰기 (Claude 또는 GPT-5 권장)
  • 추론 오버헤드가 불필요한 빠른 Q&A (GPT-4.1-mini 권장)
  • UI/프론트엔드 코드 생성 (R1은 이 분야에 약함)
  • 최신 정보가 필요한 작업 (R1의 학습 데이터에는 컷오프가 있음)

R1 사용 최적화

R1의 추론 과정은 매우 길어질 수 있습니다. 간단한 수학 문제도 최종 답변이 나오기 전까지 500개 이상의 사고 사슬 token을 생성할 수 있습니다. 이를 관리하기 위한 팁은 다음과 같습니다:

  1. max_tokens를 적절히 설정하세요. 동일한 작업에 대해 R1의 출력은 비추론 모델보다 3~5배 더 길 수 있습니다.
  2. 최종 답변을 파싱하세요. R1은 일반적으로 추론 과정 후에 명확한 형식으로 결론을 맺습니다.
  3. 더 간단한 작업에는 증류(distilled) 버전을 사용하세요. DeepSeek은 1.5B, 7B, 8B, 14B, 32B, 70B 파라미터의 R1 증류 모델을 제공합니다. 32B 및 70B 버전은 훨씬 낮은 비용으로 대부분의 추론 능력을 유지합니다.

가격 비교

모델 입력 / 1M 출력 / 1M 추론 능력
DeepSeek R1 $0.55 $2.19 강력함 (79.8% AIME)
OpenAI o3 $2.00 $8.00 강력함 (~83% AIME)
Claude Opus 4.6 $5.00 $25.00 양호함 (~65% AIME)
OpenAI o4-mini $1.10 $4.40 양호함 (속도 최적화)

R1은 입력과 출력 모두 o3보다 4배 저렴합니다. 추론 품질이 비슷한 작업(수학, 알고리즘)에서 R1은 상당한 비용 절감을 제공합니다.


오픈 소스 생태계

R1은 MIT 라이선스입니다. 다음이 가능합니다:

  • 제한 없는 상업적 이용
  • 자체 데이터로 미세 조정
  • 더 작은 모델 학습을 위한 증류(distill)
  • 로컬 실행 (전체 모델 Q4 기준 약 336GB RAM 필요)
  • 자체 인프라에 배포

사용 가능한 증류 버전:

버전 파라미터 사용 사례
R1-Distill-Qwen-1.5B 1.5B 엣지 디바이스, 모바일
R1-Distill-Qwen-7B 7B 로컬 개발, 테스트
R1-Distill-Llama-8B 8B 로컬 개발
R1-Distill-Qwen-14B 14B 프로덕션 (가벼운 추론)
R1-Distill-Qwen-32B 32B 프로덕션 (강력한 추론)
R1-Distill-Llama-70B 70B 프로덕션 (풀 모델에 근접한 성능)

32B 증류 버전은 대부분의 프로덕션 배포에 가장 적합한 선택지(sweet spot)입니다. 전체 모델 비용의 일부만으로 강력한 추론 능력을 제공합니다.

또한 대부분의 팀이 가장 먼저 평가해야 할 버전이기도 합니다. 곧바로 671B 전체 모델로 가는 것은 실제보다 운영 비용이 더 많이 드는 것처럼 보이게 할 수 있습니다.

많은 팀에게 증류 모델을 선택하는 것이 실제적인 제품 결정이 될 것입니다. 전체 모델은 가능성을 증명하고, 증류 라인업은 실용성을 결정합니다.

이 차이는 놓치기 쉽지만, 무시하면 큰 비용이 발생할 수 있습니다.

2026년 스택에서 R1의 실제 위치

팀들이 저지르는 실수는 R1을 모든 폐쇄형 모델의 보편적인 대체재로 취급하는 것입니다.

R1이 가장 강력할 때:

  • 작업이 알고리즘, 수학 또는 사고 사슬 중심일 때
  • 비용이 매우 중요할 때
  • 더 긴 추론 과정을 감수할 수 있을 때
  • 숨겨진 "thinking" 대신 투명한 추론 과정을 원할 때

R1이 약할 때:

  • 작업이 고도의 정밀함이 필요한 프론트엔드 생성일 때
  • 워크플로우가 추론보다는 검토(review) 중심일 때
  • 최고 수준의 다중 파일 소프트웨어 엔지니어링 능력이 필요할 때

이것이 바로 많은 팀이 현재 DeepSeek R1을 스택의 유일한 모델이 아닌, 더 넓은 모델 풀 내의 추론 전문가(reasoning specialist)로 사용하는 이유입니다.


시작하기

API를 통한 사용

from openai import OpenAI

client = OpenAI(
    api_key="sk-lemon-xxx",
    base_url="https://api.tokenlab.sh/v1"
)

response = client.chat.completions.create(
    model="deepseek-r1",
    messages=[{
        "role": "user",
        "content": "처음 n개의 홀수의 합이 n²과 같음을 증명하세요."
    }],
    max_tokens=4096  # R1의 추론 과정은 길어질 수 있습니다
)

print(response.choices[0].message.content)

로컬에서 실행하기

# Ollama를 통한 실행 (전체 모델 기준 약 336GB RAM 필요)
ollama pull deepseek-r1:671b-q4

# 또는 32B 증류 버전 사용 (약 20GB RAM 필요)
ollama pull deepseek-r1:32b

향후 전망: DeepSeek V3와 그 너머

일반적인 능력이 향상된 비추론 후속 모델인 DeepSeek V3가 이미 출시되었습니다. DeepSeek 팀은 오픈 소스 모델이 달성할 수 있는 한계를 계속해서 넓히고 있습니다.

추론 작업의 경우 R1은 여전히 최고의 오픈 소스 옵션입니다. 일반적인 작업의 경우, 1M token당 $0.28/$0.42인 DeepSeek V3는 가장 비용 효율적인 모델 중 하나입니다.

두 모델 모두 단일 API key로 TokenLab를 통해 이용할 수 있습니다. 가입 시 $1의 무료 크레딧이 제공됩니다.

R1을 로컬에서 실행할 계획이라면 Mac Studio 로컬 AI 가이드를 읽어보세요. 게이트웨이를 통해 라우팅할 계획이라면 통합 AI 게이트웨이 가이드가 더 좋은 다음 단계가 될 것입니다.


벤치마크 수치는 2026년 2월 기준입니다. DeepSeek R1 가중치는 huggingface.co/deepseek-ai에서 확인할 수 있습니다.

공유: