DeepSeek R1 demostró que los modelos de código abierto pueden igualar las capacidades de razonamiento de los modelos de código cerrado. Lanzado en enero de 2025 bajo la licencia MIT, obtuvo una puntuación del 79.8% en AIME 2024 y del 97.3% en MATH-500, situándose en el mismo nivel que la serie o1 de OpenAI.
Un año después, R1 sigue siendo uno de los modelos de razonamiento más rentables disponibles. Con un precio de $0.55/$2.19 por cada 1M de tokens, es entre 5 y 10 veces más barato que las alternativas comparables de código cerrado. Aquí tienes lo que necesitas saber para usarlo de manera efectiva.
Si estás comparando R1 con el panorama más amplio de programación y modelos insignia, mantén abiertas junto a esta página la comparativa de modelos de programación y la comparativa de precios. R1 brilla más cuando se integra en un stack de modelos mixtos en lugar de pedirle que lo haga todo.
Arquitectura: Por qué 671B de parámetros no significan un costo de 671B
DeepSeek R1 utiliza una arquitectura Mixture of Experts (MoE):
- 671 mil millones de parámetros totales
- 37 mil millones activados por cada paso hacia adelante (forward pass)
- Construido sobre la base de DeepSeek-V3-Base
- Ventana de contexto de 128K tokens
El diseño MoE significa que R1 tiene la capacidad de conocimiento de un modelo de 671B pero el costo de inferencia de un modelo de aproximadamente 37B. Cada token de entrada activa solo un subconjunto de redes "expertas", manteniendo los requisitos de cómputo manejables.
Para comparar: ejecutar un modelo denso de 671B requeriría aproximadamente 1.3TB de memoria. La arquitectura MoE de R1 reduce esto a unos 336GB con cuantización Q4, lo que permite ejecutarlo en hardware de consumo de gama alta (Mac Studio M3/M5 Ultra con 512GB).
Rendimiento en Benchmarks
Matemáticas
| Benchmark | DeepSeek R1 | OpenAI o1 | Claude Opus 4.6 |
|---|---|---|---|
| AIME 2024 | 79.8% | 83.3% | ~65% |
| MATH-500 | 97.3% | 96.4% | ~90% |
| Codeforces Elo | 2,029 | 1,891 | ~1,600 |
R1 iguala o supera a o1 en la mayoría de los benchmarks matemáticos. La calificación de Codeforces de 2,029 lo sitúa en el rango de "Candidate Master", compitiendo con programadores humanos experimentados.
Programación (Coding)
R1 es fuerte en programación algorítmica (programación competitiva, pruebas matemáticas) pero está menos optimizado para tareas de ingeniería de software (refactorización de múltiples archivos, diseño de API). En SWE-Bench Verified, Claude Sonnet 4.6 (72.7%) supera significativamente a R1.
Usa R1 para la implementación de algoritmos y código matemático. Usa Claude o GPT-5 para ingeniería de software general.
Razonamiento (Reasoning)
El razonamiento de cadena de pensamiento (chain-of-thought) de R1 es transparente e inspeccionable. A diferencia de los modelos de código cerrado donde el razonamiento ocurre en una fase de "pensamiento" oculta, las trazas de razonamiento de R1 son parte de la salida. Esto lo hace valioso para:
- Depurar errores de razonamiento (puedes ver dónde se equivocó el modelo)
- Aplicaciones educativas (los estudiantes pueden seguir el proceso de razonamiento)
- Investigación (analizar cómo los LLM abordan los problemas)
Innovación en el Entrenamiento: RL Puro sin Etiquetas Humanas
El enfoque de entrenamiento de R1 fue su contribución más significativa al campo.
Enfoque tradicional: recopilar ejemplos de razonamiento etiquetados por humanos y luego ajustar el modelo para que los imite.
Enfoque de DeepSeek: entrenamiento mediante aprendizaje por refuerzo (RL) a gran escala sin ningún dato de razonamiento supervisado. El modelo (DeepSeek-R1-Zero) desarrolló autoverificación, reflexión y un razonamiento de cadena de pensamiento extenso solo a través de RL.
La implicación práctica: R1 demostró que las capacidades de razonamiento pueden surgir del entrenamiento por RL sin una costosa anotación humana. Esto abrió la puerta para que otros laboratorios entrenen modelos de razonamiento de manera más eficiente.
El modelo R1 final utiliza un pipeline de dos etapas:
- Etapas de RL para desarrollar patrones de razonamiento
- Etapas de SFT (ajuste fino supervisado) para limpiar la calidad de la salida y reducir problemas como la repetición y la mezcla de idiomas
Uso Práctico
Cuándo usar R1
- Pruebas y derivaciones matemáticas
- Problemas de programación competitiva
- Diseño y optimización de algoritmos
- Análisis de datos que requiera razonamiento paso a paso
- Tareas de investigación donde el razonamiento transparente sea importante
- Aplicaciones con presupuesto limitado que necesiten capacidad de razonamiento
Cuándo no usar R1
- Ingeniería de software general (usa Claude Sonnet 4.6)
- Escritura creativa (usa Claude o GPT-5)
- Preguntas y respuestas rápidas donde el razonamiento adicional sea innecesario (usa GPT-4.1-mini)
- Generación de código de UI/frontend (R1 es más débil aquí)
- Tareas que requieran información actualizada al minuto (los datos de entrenamiento de R1 tienen una fecha de corte)
Optimizando el uso de R1
Las trazas de razonamiento de R1 pueden ser extensas. Un problema matemático simple podría generar más de 500 tokens de cadena de pensamiento antes de la respuesta final. Consejos para gestionar esto:
- Configura
max_tokensde manera adecuada. Las salidas de R1 pueden ser de 3 a 5 veces más largas que las de los modelos sin razonamiento para la misma tarea. - Analiza la respuesta final. R1 normalmente envuelve su conclusión en un formato claro después de la traza de razonamiento.
- Usa versiones destiladas (distilled) para tareas más simples. DeepSeek ofrece versiones de R1 destiladas de 1.5B, 7B, 8B, 14B, 32B y 70B parámetros. Las versiones de 32B y 70B conservan la mayor parte de la capacidad de razonamiento a un costo mucho menor.
Comparativa de Precios
| Modelo | Entrada / 1M | Salida / 1M | Capacidad de razonamiento |
|---|---|---|---|
| DeepSeek R1 | $0.55 | $2.19 | Fuerte (79.8% AIME) |
| OpenAI o3 | $2.00 | $8.00 | Fuerte (~83% AIME) |
| Claude Opus 4.6 | $5.00 | $25.00 | Buena (~65% AIME) |
| OpenAI o4-mini | $1.10 | $4.40 | Buena (optimizado para velocidad) |
R1 es 4 veces más barato que o3 en entrada y 4 veces más barato en salida. Para cargas de trabajo donde la calidad del razonamiento es comparable (matemáticas, algoritmos), R1 ofrece ahorros de costos significativos.
Ecosistema de Código Abierto
R1 tiene licencia MIT. Puedes:
- Usarlo comercialmente sin restricciones
- Ajustarlo (fine-tune) con tus propios datos
- Destilarlo para entrenar modelos más pequeños
- Ejecutarlo localmente (requiere ~336GB de RAM en Q4 para el modelo completo)
- Desplegarlo en tu propia infraestructura
Versiones destiladas disponibles:
| Versión | Parámetros | Caso de uso |
|---|---|---|
| R1-Distill-Qwen-1.5B | 1.5B | Dispositivos edge, móviles |
| R1-Distill-Qwen-7B | 7B | Desarrollo local, pruebas |
| R1-Distill-Llama-8B | 8B | Desarrollo local |
| R1-Distill-Qwen-14B | 14B | Producción (razonamiento ligero) |
| R1-Distill-Qwen-32B | 32B | Producción (razonamiento fuerte) |
| R1-Distill-Llama-70B | 70B | Producción (capacidad casi completa) |
La versión destilada de 32B es el punto ideal para la mayoría de los despliegues en producción: razonamiento fuerte a una fracción del costo del modelo completo.
Esa es también la versión que la mayoría de los equipos deberían evaluar primero. Ir directamente a la historia de los 671B hace que el modelo parezca más costoso operativamente de lo que suele ser en la práctica.
Para muchos equipos, el camino de la destilación es la verdadera decisión de producto. El modelo completo demuestra lo que es posible. La línea destilada decide qué es práctico.
Esa distinción es fácil de pasar por alto y costosa de ignorar.
Dónde encaja realmente R1 en un stack de 2026
El error que cometen los equipos es tratar a R1 como un reemplazo universal para todos los modelos cerrados.
R1 es más fuerte cuando:
- el trabajo es algorítmico, matemático o con mucha carga de cadena de pensamiento
- el costo importa mucho
- puedes tolerar trazas de razonamiento más largas
- quieres un razonamiento transparente en lugar de un "pensamiento" oculto
R1 es más débil cuando:
- la tarea es generación de frontend de alta calidad
- el flujo de trabajo se basa más en la revisión que en el razonamiento
- necesitas el mejor comportamiento en ingeniería de software de múltiples archivos
Es por eso que muchos equipos ahora usan DeepSeek R1 como el especialista en razonamiento dentro de un pool de modelos más amplio, no como el único modelo en el stack.
Cómo empezar
Vía API
from openai import OpenAI
client = OpenAI(
api_key="sk-lemon-xxx",
base_url="https://api.tokenlab.sh/v1"
)
response = client.chat.completions.create(
model="deepseek-r1",
messages=[{
"role": "user",
"content": "Demuestra que la suma de los primeros n números impares es igual a n²."
}],
max_tokens=4096 # Las trazas de razonamiento de R1 pueden ser largas
)
print(response.choices[0].message.content)
Ejecución Local
# Vía Ollama (requiere ~336GB de RAM para el modelo completo)
ollama pull deepseek-r1:671b-q4
# O usa la versión destilada de 32B (requiere ~20GB de RAM)
ollama pull deepseek-r1:32b
Qué sigue: DeepSeek V3 y más allá
DeepSeek V3 (el sucesor sin razonamiento) ya ha sido lanzado con capacidades generales mejoradas. El equipo de DeepSeek continúa superando los límites de lo que los modelos de código abierto pueden lograr.
Para tareas de razonamiento, R1 sigue siendo la mejor opción de código abierto. Para tareas generales, DeepSeek V3 a $0.28/$0.42 por cada 1M de tokens es uno de los modelos más rentables disponibles.
Ambos son accesibles a través de TokenLab con una sola API key. $1 de crédito gratis al registrarse.
Si planeas ejecutar R1 localmente, la guía de IA local en Mac Studio es la siguiente página que debes leer. Si planeas conectarte a él a través de un gateway, la guía del gateway de IA unificado es el mejor siguiente paso.
Benchmarks a febrero de 2026. Pesos de DeepSeek R1 disponibles en huggingface.co/deepseek-ai.
