DeepSeek R1 hat bewiesen, dass Open-Source-Modelle mit den Reasoning-Fähigkeiten von Closed-Source-Modellen mithalten können. Veröffentlicht im Januar 2025 unter der MIT-Lizenz, erreicht es 79,8 % bei AIME 2024 und 97,3 % bei MATH-500, womit es in derselben Liga wie die o1-Serie von OpenAI spielt.
Ein Jahr später ist R1 nach wie vor eines der kosteneffizientesten Reasoning-Modelle auf dem Markt. Mit 0,55 $ / 2,19 $ pro 1 Mio. Token ist es 5- bis 10-mal günstiger als vergleichbare Closed-Source-Alternativen. Hier erfahren Sie alles, was Sie wissen müssen, um es effektiv einzusetzen.
Wenn Sie R1 mit der breiteren Coding- und Flaggschiff-Landschaft vergleichen möchten, halten Sie den Coding-Modell-Vergleich und den Preisvergleich parallel zu dieser Seite offen. R1 glänzt am meisten, wenn man es in einen Mixed-Model-Stack integriert, anstatt es für alles einzusetzen.
Architektur: Warum 671B Parameter nicht 671B Kosten bedeuten
DeepSeek R1 nutzt eine Mixture of Experts (MoE) Architektur:
- 671 Milliarden Parameter insgesamt
- 37 Milliarden aktiviert pro Forward Pass
- Basierend auf dem DeepSeek-V3-Base Foundation-Modell
- 128K Token Context Window
Das MoE-Design bedeutet, dass R1 die Wissenskapazität eines 671B-Modells besitzt, aber die Inference-Kosten eines ~37B-Modells verursacht. Jeder Input-Token aktiviert nur eine Teilmenge der „Experten“-Netzwerke, wodurch die Rechenanforderungen beherrschbar bleiben.
Zum Vergleich: Der Betrieb eines dichten 671B-Modells würde ca. 1,3 TB Speicher erfordern. Die MoE-Architektur von R1 reduziert dies bei Q4-Quantisierung auf ca. 336 GB, wodurch es auf High-End-Consumer-Hardware (Mac Studio M3/M5 Ultra mit 512 GB) ausführbar ist.
Benchmark-Performance
Mathematik
| Benchmark | DeepSeek R1 | OpenAI o1 | Claude Opus 4.6 |
|---|---|---|---|
| AIME 2024 | 79,8 % | 83,3 % | ~65 % |
| MATH-500 | 97,3 % | 96,4 % | ~90 % |
| Codeforces Elo | 2.029 | 1.891 | ~1.600 |
R1 erreicht oder übertrifft o1 in den meisten mathematischen Benchmarks. Das Codeforces-Rating von 2.029 platziert es im Bereich „Candidate Master“, was mit starken menschlichen Programmierern konkurriert.
Coding
R1 ist stark im algorithmischen Coding (Competitive Programming, mathematische Beweise), aber weniger optimiert für Software-Engineering-Aufgaben (Multi-File-Refactoring, API-Design). Bei SWE-Bench Verified schneidet Claude Sonnet 4.6 (72,7 %) deutlich besser ab als R1.
Nutzen Sie R1 für die Implementierung von Algorithmen und mathematischen Code. Nutzen Sie Claude oder GPT-5 für allgemeines Software-Engineering.
Reasoning
Das Chain-of-Thought-Reasoning von R1 ist transparent und überprüfbar. Im Gegensatz zu Closed-Source-Modellen, bei denen das Reasoning in einer verborgenen „Thinking“-Phase stattfindet, sind die Reasoning-Traces von R1 Teil des Outputs. Dies macht es wertvoll für:
- Debugging von Reasoning-Fehlern (man sieht, wo das Modell falsch abgebogen ist)
- Bildungsanwendungen (Schüler können den Denkprozess nachvollziehen)
- Forschung (Analyse, wie LLMs Probleme angehen)
Trainings-Innovation: Reines RL ohne menschliche Labels
Der Trainingsansatz von R1 war sein bedeutendster Beitrag für die Branche.
Traditioneller Ansatz: Sammeln von durch Menschen gelabelten Reasoning-Beispielen, dann Fine-Tuning des Modells, um diese zu imitieren.
Der Ansatz von DeepSeek: Training über groß angelegtes Reinforcement Learning (RL) ohne jegliche überwachte Reasoning-Daten. Das Modell (DeepSeek-R1-Zero) entwickelte Selbstverifizierung, Reflexion und langes Chain-of-Thought-Reasoning allein durch RL.
Die praktische Auswirkung: R1 demonstrierte, dass Reasoning-Fähigkeiten aus RL-Training ohne teure menschliche Annotationen entstehen können. Dies öffnete die Tür für andere Labore, Reasoning-Modelle effizienter zu trainieren.
Das finale R1-Modell nutzt eine zweistufige Pipeline:
- RL-Stufen zur Entwicklung von Reasoning-Mustern
- SFT-Stufen (Supervised Fine-Tuning), um die Output-Qualität zu verbessern und Probleme wie Wiederholungen und Sprachmischung zu reduzieren
Praktische Anwendung
Wann man R1 einsetzen sollte
- Mathematische Beweise und Herleitungen
- Competitive Programming Probleme
- Algorithmus-Design und Optimierung
- Datenanalyse, die schrittweises Reasoning erfordert
- Forschungsaufgaben, bei denen transparentes Reasoning wichtig ist
- Budgetbewusste Anwendungen, die Reasoning-Fähigkeiten benötigen
Wann man R1 nicht einsetzen sollte
- Allgemeines Software-Engineering (nutzen Sie Claude Sonnet 4.6)
- Kreatives Schreiben (nutzen Sie Claude oder GPT-5)
- Schnelle Q&A, bei denen Reasoning-Overhead unnötig ist (nutzen Sie GPT-4.1-mini)
- UI/Frontend-Code-Generierung (hier ist R1 schwächer)
- Aufgaben, die topaktuelle Informationen erfordern (R1 hat ein Trainings-Cutoff-Datum)
Optimierung der R1-Nutzung
Die Reasoning-Traces von R1 können sehr ausführlich sein. Ein einfaches mathematisches Problem kann über 500 Token Chain-of-Thought vor der finalen Antwort generieren. Tipps zur Verwaltung:
- Setzen Sie
max_tokensangemessen. R1-Outputs können für dieselbe Aufgabe 3- bis 5-mal länger sein als bei Nicht-Reasoning-Modellen. - Parsen Sie die finale Antwort. R1 schließt seine Schlussfolgerung nach dem Reasoning-Trace typischerweise in einem klaren Format ab.
- Nutzen Sie distillierte Versionen für einfachere Aufgaben. DeepSeek bietet R1-Distill-Versionen mit 1,5B, 7B, 8B, 14B, 32B und 70B Parametern an. Die 32B- und 70B-Versionen behalten den Großteil der Reasoning-Fähigkeit bei deutlich geringeren Kosten.
Preisvergleich
| Modell | Input / 1M | Output / 1M | Reasoning-Fähigkeit |
|---|---|---|---|
| DeepSeek R1 | 0,55 $ | 2,19 $ | Stark (79,8 % AIME) |
| OpenAI o3 | 2,00 $ | 8,00 $ | Stark (~83 % AIME) |
| Claude Opus 4.6 | 5,00 $ | 25,00 $ | Gut (~65 % AIME) |
| OpenAI o4-mini | 1,10 $ | 4,40 $ | Gut (auf Geschwindigkeit optimiert) |
R1 ist beim Input 4-mal günstiger als o3 und beim Output ebenfalls 4-mal günstiger. Für Workloads, bei denen die Reasoning-Qualität vergleichbar ist (Mathe, Algorithmen), bietet R1 erhebliche Kosteneinsparungen.
Open-Source-Ökosystem
R1 ist MIT-lizenziert. Sie können:
- Es ohne Einschränkungen kommerziell nutzen
- Es auf Ihren eigenen Daten fine-tunen
- Es distillieren, um kleinere Modelle zu trainieren
- Es lokal ausführen (erfordert ca. 336 GB RAM bei Q4 für das volle Modell)
- Es auf Ihrer eigenen Infrastruktur deployen
Verfügbare distillierte Versionen:
| Version | Parameter | Anwendungsfall |
|---|---|---|
| R1-Distill-Qwen-1.5B | 1,5B | Edge-Geräte, Mobile |
| R1-Distill-Qwen-7B | 7B | Lokale Entwicklung, Tests |
| R1-Distill-Llama-8B | 8B | Lokale Entwicklung |
| R1-Distill-Qwen-14B | 14B | Produktion (leichtes Reasoning) |
| R1-Distill-Qwen-32B | 32B | Produktion (starkes Reasoning) |
| R1-Distill-Llama-70B | 70B | Produktion (nahezu volle Kapazität) |
Die 32B-distillierte Version ist der „Sweet Spot“ für die meisten Produktions-Deployments: starkes Reasoning zu einem Bruchteil der Kosten des vollen Modells.
Dies ist auch die Version, die die meisten Teams zuerst evaluieren sollten. Direkt auf die volle 671B-Variante zu setzen, lässt das Modell im Betrieb oft teurer erscheinen, als es in der Praxis notwendig ist.
Für viele Teams ist der Distill-Pfad die eigentliche Produktentscheidung. Das volle Modell beweist, was möglich ist. Die Distill-Linie entscheidet, was praktikabel ist.
Dieser Unterschied wird leicht übersehen und kann teuer werden.
Wo R1 im Jahr 2026 tatsächlich in einen Stack passt
Der Fehler, den Teams machen, ist, R1 als universellen Ersatz für jedes Closed-Source-Modell zu betrachten.
R1 ist am stärksten, wenn:
- die Aufgabe algorithmisch, mathematisch oder Chain-of-Thought-lastig ist
- Kosten eine große Rolle spielen
- längere Reasoning-Traces toleriert werden können
- Sie transparentes Reasoning anstelle von verborgenem „Thinking“ wünschen
R1 ist schwächer, wenn:
- die Aufgabe hochglanzpolierte Frontend-Generierung erfordert
- der Workflow eher Review-lastig als Reasoning-lastig ist
- Sie das beste Multi-File-Software-Engineering-Verhalten benötigen
Deshalb nutzen viele Teams DeepSeek R1 mittlerweile als Reasoning-Spezialisten innerhalb eines breiteren Modell-Pools und nicht als einziges Modell im Stack.
Erste Schritte
Via API
from openai import OpenAI
client = OpenAI(
api_key="sk-lemon-xxx",
base_url="https://api.tokenlab.sh/v1"
)
response = client.chat.completions.create(
model="deepseek-r1",
messages=[{
"role": "user",
"content": "Beweise, dass die Summe der ersten n ungeraden Zahlen gleich n² ist."
}],
max_tokens=4096 # R1 Reasoning-Traces können lang sein
)
print(response.choices[0].message.content)
Lokal ausführen
# Via Ollama (erfordert ~336GB RAM für das volle Modell)
ollama pull deepseek-r1:671b-q4
# Oder nutzen Sie die 32B distillierte Version (erfordert ~20GB RAM)
ollama pull deepseek-r1:32b
Wie es weitergeht: DeepSeek V3 und darüber hinaus
DeepSeek V3 (der Nicht-Reasoning-Nachfolger) wurde bereits mit verbesserten allgemeinen Fähigkeiten veröffentlicht. Das DeepSeek-Team verschiebt weiterhin die Grenzen dessen, was Open-Source-Modelle leisten können.
Für Reasoning-Aufgaben bleibt R1 die beste Open-Source-Option. Für allgemeine Aufgaben ist DeepSeek V3 mit 0,28 $ / 0,42 $ pro 1 Mio. Token eines der kosteneffizientesten Modelle auf dem Markt.
Beide sind über TokenLab mit einem einzigen API-Key zugänglich. 1 $ Gratis-Guthaben bei Registrierung.
Wenn Sie planen, R1 lokal auszuführen, ist der Mac Studio Local AI Guide die nächste Pflichtlektüre. Wenn Sie planen, es über ein Gateway anzusteuern, ist der Unified AI Gateway Guide der bessere nächste Schritt.
Benchmarks Stand Februar 2026. DeepSeek R1 Weights verfügbar auf huggingface.co/deepseek-ai.
