DeepSeek R1 cambiará al mundo
Inteligencia artificial avanzada accesible para todos
No. No es otro “hype post” sobre R1.
O tal vez sí… 🤔
Controversial o no, hay un hecho irrefutable. DeepSeek ha creado un “antes y después” en cuanto a inteligencia artificial se refiere y veremos evidencias rápidamente.
Si llegaste tarde a las noticias te cuento de qué va DeepSeek-R1 🐋
En julio de 2023, Liang Wenfeng fundó DeepSeek. Su visión era clara: Desafiar todo lo que creíamos saber sobre inteligencia artificial.
La industria estaba obsesionada con una fórmula simple:
💰 Más dinero = mejores modelos
Los gigantes tecnológicos invirtiendo cantidades billonarias y quemando recursos en datacenters. Todos jugando el mismo juego costoso.
Obviamente no todos eran capaces de participar.
DeepSeek apostó por un enfoque basado en la eficiencia.
De hecho no es la primera vez que DeepSeek ha dado qué hablar. Sus modelos anteriores, especialmente DeepSeek V3, han llamado la atención por sus capacidades y facilidad de uso. Claro, estos modelos no eran tan poderosos como los competidores líderes actuales.
Eso se acabó.
DeepSeek ha sacado un nuevo modelo de IA, llamado R1. Un modelo que rivaliza con o1, uno de los modelos más poderoso de OpenAI hasta la fecha (solo por detrás de o3).
R1 ofrece resultados muy similares en su nivel de razonamiento pero a una fracción del costo.
No estamos hablando de pequeñas optimizaciones. Estamos hablando de que ya no se requieren recursos masivos.
¿Cuánto cuesta realmente construir un modelo de IA de clase mundial? 🤑
Hasta hoy, la respuesta siempre incluía cantidades absurdas de dinero... pero R1 ha cambiado eso.
Nuevo enfoque, nuevas reglas
DeepSeek R1 representa un salto enorme en el desarrollo de modelos de lenguaje, destacándose no solo por su rendimiento comparable a modelos de primera línea, sino también por su enfoque en eficiencia y accesibilidad.
Este enfoque permite al modelo mantener la capacidad de procesamiento de modelos más grandes mientras optimiza significativamente el uso de recursos computacionales.
Rendimiento y Benchmarks
Los resultados de las pruebas comparativas demuestran el impresionante rendimiento de R1 frente a modelos populares:
En tareas de razonamiento matemático y resolución de problemas complejos, R1 demuestra un rendimiento excepcional, igualando o superando a modelos fuertemente establecidos como los de OpenAI.
Sin embargo, no fue su capacidad de respuesta (aunque bastante avanzada) lo que impresionó al mundo.
Ya habíamos visto resultados sorprendentes con “razonamiento humano” por parte de OpenAI.
La verdadera revolución de R1 se encuentra en sus costos.
Modelo | Costo de entrada | Costo de salida |
DeepSeek-R1 | $0.55 | $2.19 |
OpenAI o1-1217 | $15.00 | $60.00 |
Estamos hablando de un ahorro de aproximadamente 96% en costos. ¡Es una locura total! 🤯
R1 iguala (y en ocasiones supera) a los modelos más potentes del mercado... a un costo 27 veces menor. ¡27 veces!
Si eso no fuera suficiente, han publicado el código como Open Source. Transparente. Listo para ser estudiado, modificado y mejorado por cualquiera (Incluyendo la competencia).
Suena raro.
Esto tiene implicaciones importantes
Demuestra que la IA de alto nivel no requiere inversiones billonarias
Establece un nuevo estándar de eficiencia en el entrenamiento de nuevos modelos
Modelos avanzados de IA serán realmente accesibles para todos
R1 es perfectamente replicable
Antes de intentar analizar el impacto que traerá para la industria y el mundo, veamos primero cómo funciona 🤓
Arquitectura
DeepSeek R1 combina eficiencia computacional con capacidades avanzadas de razonamiento.
El núcleo de R1 implementa una arquitectura MoE (Mixture-of-Experts). Lo interesante de este enfoque es que, durante cada operación, el modelo activa selectivamente solo los parámetros que necesita.
Esta activación selectiva funciona como un sistema de "especialistas", donde diferentes componentes del modelo se activan según la tarea específica. El modelo decide en tiempo real qué componentes necesita para cada tipo de procesamiento. Esto implica un ahorro significativo en costos operativos.
El entrenamiento de R1 se desarrolló principalmente aplicando técnicas comunes en la gran mayoría de grandes modelos de lenguaje. Pero una de ellas, muy interesante, se llama Chain-of-Thought, o cadena de pensamiento el cual también podemos encontrar en el modelo o1 de OpenAI.
Esta técnica divide la consulta en múltiples etapas en lugar de generar una respuesta directa. En cada etapa ejecuta las tareas de razonamiento o procesamiento con las que fue entrenado y su conclusión es tomada por el proceso de la siguiente etapa. Se retroalimenta automáticamente.
Es como “pensar paso a paso” 🧠
En términos simples, lo que sucede al interactuar con estos modelos es lo siguiente:
Analiza el problema utilizando cadena de pensamiento
Propone múltiples soluciones considerando complejidad temporal y espacial
Implementa la solución más eficiente
Verifica la solución
Esto le permite rivalizar con el ya no tan novedoso modelo de OpenAI.
Ok, ya sabemos que es un modelo poderoso. ¿Cómo lograron optimizarlo tanto?
No, no crearon métodos imposibles sacados de una serie de ciencia ficción 🎬
No, no son extraterrestres o ingenieros del año 3000 👽
No, la IA no nos quitará el trabajo 🙄
Usaron los fundamentos de ingeniería de software de toda la vida. Matemáticas, álgebra lineal, probabilidad y estadística.
Optimizaron los bits en memoria. Integraron un sistema especializado de caché. Utilizaron Assembler en lugar de CUDA, un lenguaje creado por Nvidia para programar chips. (Nvidia no se lo tomó bien)
Supieron sacarle al máximo potencial a los chips utilizados. chips muy baratos, por cierto. (H800)
Técnicas que no son nada del otro mundo. No es un invento “mágico”. Esa “simpleza” es lo que lo vuelve tan interesante.
La arquitectura de R1 demuestra que es posible alcanzar, e incluso superar, el rendimiento de modelos populares mediante optimizaciones inteligentes y un diseño cuidadoso.
Es un cambio en las reglas del juego. Simplemente es una nueva forma de pensar en lo que respecta a inteligencia artificial.
Su arquitectura, entrenamiento y otros aspectos técnicos con lujo de detalles están explicados en su Paper oficial.
Capacidades prácticas
DeepSeek R1 destaca especialmente en tareas matemáticas, generación y depuración de código, asimismo en tareas de razonamiento.
Por ejemplo, al intentar resolver un problema matemático:
R1 comienza a resolver el problema de manera sistemática:
Inicia elevando al cuadrado ambos lados
Realiza manipulaciones algebraicas
Llega a un punto de “reflexión”
Lo curioso aquí es que en medio del proceso, R1 tiene lo que denomina un "momento aha" (una reflexión o cuestionamiento). Interrumpe su propio proceso y decide reevaluar su enfoque desde el principio.
Este comportamiento es particularmente interesante porque muestra:
Capacidad de autocorrección
Transparencia en el proceso de pensamiento
Similitud con el comportamiento humano cuando nos damos cuenta de que podríamos estar tomando un camino demasiado complicado para resolver un problema
El modelo “se dio cuenta” que estaba complicando innecesariamente la solución y decidió retroceder para buscar un enfoque más elegante o eficiente.
Esto es gracias a que “simula el razonamiento humano” a través de la cadena de pensamiento. El problema es desglosado paso a paso y pueden identificar si la solución no va por buen camino para regresar a un paso anterior del proceso.
Por supuesto, expresiones naturales como un “aha”, es gracias a los miles de ejemplos con la que fue entrenada.
Intentemos ahora con un problema clásico de código. La secuencia de Fibonacci.
He utilizado el siguiente prompt: “Escribe una función en Javascript que calcule el n-ésimo número de la secuencia de Fibonacci. La secuencia comienza con 0 y 1, y cada número siguiente es la suma de los dos anteriores.”
Le pregunté primero a ChatGPT, específicamente en su modelo GPT4-o, y su respuesta fue esta:
function fibonacci(n, memo = {}) {
if (n in memo) return memo[n];
if (n <= 1) return n;
memo[n] = fibonacci(n - 1, memo) + fibonacci(n - 2, memo);
return memo[n];
}
// Ejemplo de uso
console.log(fibonacci(10)); // 55
ChatGPT ha cumplido con éxito la tarea. Sin embargo, ha utilizado un enfoque recursivo, el cual tiende a tener serios problemas de rendimiento. Esto hace que la solución provista sea ineficiente ❌
Ahora, si hacemos exactamente la misma pregunta a DeepSeek R1 podemos ver algo totalmente diferente.
Lo primero que podemos notar, es la cadena de pensamiento. Donde desglosa la tarea que le hemos asignado ☁️
Poco después, podemos observar que ha llegado a la conclusión de que usar la recursividad no es una opción viable ✅
Después de unos segundos, nos otorga finalmente el resultado.
function fibonacci(n) {
if (n === 0) return 0;
if (n === 1) return 1;
let a = 0, b = 1;
for (let i = 2; i <= n; i++) {
const next = a + b;
a = b;
b = next;
}
return b;
}
Si bien el código puede no ser perfecto, lo interesante de todo esto, es que podemos observar de forma transparente los pasos que llevaron a esta solución.
Esto nos puede ofrecer mucho contexto cuando intentamos llevar a cabo tareas de la cual podríamos no tener buen entendimiento del tema o simplemente queremos entender que aspectos tomó en cuenta para llegar a ese resultado.
No he podido realizar la misma prueba con el modelo o1 de OpenAI. Lo más probable es que hubiera llegado a la misma conclusión.
Podemos experimentar directamente con R1 desde su sitio oficial, interactuar con su API (que además utiliza la misma librería que OpenAI, por lo tanto si ya tenías una aplicación desarrollada la migración resulta muy sencillo).
O mejor aún. Instala R1 en tu propia computadora. Sin depender de servidores externos.
DeepSeek R1 está disponible para instalación local desde Ollama y compatible con Open WebUI.
(Se requiere conocimiento técnico previo)
El impacto disruptivo de R1
El lanzamiento de DeepSeek R1 ha provocado un impacto significativo en la industria, cuestionando prácticas ya establecidas sobre el desarrollo y despliegue de modelos de IA avanzados. Este impacto se ha manifestado de manera particularmente dramática en la bolsa de valores.
Este 27 de enero de 2025, NVIDIA experimentó una de las mayores caídas en la historia del mercado tecnológico. Sus acciones cayeron más del 18% en un solo día, resultando en una pérdida de casi 600 mil millones de dólares 🔻
Nvidia se había dedicado al desarrollo de chips cada vez más poderosos para lograr avances impresionantes en temas de inteligencia artificial, recibiendo inversiones masivas.
La preocupación por parte de los inversores al descubrir que realmente no eran necesarios chips tan avanzados y costosos para obtener los mismos resultados, o por lo menos similares, ha sido clara.
Chips más baratos se traducen en menor retorno de inversión 💸
¿Qué podemos esperar? 🤔
La caída de NVIDIA es solo el principio... estamos ante un punto de inflexión en la industria de IA.
¿Por qué? Porque R1 no solo democratiza el acceso - reescribe las reglas del juego:
Startups pueden competir con gigantes tecnológicos
Desarrolladores pueden experimentar en sus propias máquinas
Empresas pequeñas pueden ofrecer servicios de IA sin arruinarse
Esto significa que startups y organizaciones pequeñas, antes limitadas por los costos operativos, ahora pueden acceder a IA avanzada.
¿El resultado? Una oleada de innovación.
Veremos aplicaciones que antes eran económicamente inviables. Nuevos casos de uso que nadie había imaginado, o tal vez sí, pero no habían podido crear. Soluciones que cambiarán industrias enteras 🚀
No olvidemos que R1 al ser Open Source es replicable.
OpenAI usará modelos basados en R1. Anthropic también. Google, Meta. Todos.
Habrá un nuevo hype de aplicaciones impulsadas por IA. Mucho mayor a lo que hemos visto hasta ahora.
La pregunta ya no es "¿quién puede permitirse desarrollar IA?" Ahora es "¿qué harás TÚ con ella?"
Modelos avanzados de inteligencia artificial ya no serán un privilegio...
OpenAI con ChatGPT y otros gigantes no van a desaparecer. Sería ingenuo pensar que lo harán.
El mercado estará raro un tiempo. Sí.
Seguirán habiendo nuevos avances. R1 no será tendencia por siempre, ni la única alternativa que tendremos.
Pero eso es exactamente lo que sucede cuando una tecnología pasa de ser exclusiva a ser accesible.
¿No me creen? En el tiempo que tardé en escribir este artículo Amazon anunció que DeepSeek-R1 ya está disponible en AWS
¿Se acuerdan cuando salió Linux? ¿Android? ¿La web que conocemos hoy?
El futuro es prometedor.