DeepSeek: La IA que cambió las reglas del juego
Cómo una empresa china desafió las reglas establecidas y abrió nuevas posibilidades para todos
Para entrenar un modelo de inteligencia artificial necesitas chips. Miles de chips. Piensa en ellos como el cerebro de la IA: mientras más chips tengas y más potentes sean, más rápido “aprenderá” tu modelo.
Hasta hace poco, los gigantes de la tecnología competían por ver quién podía usar más procesadores. Por ejemplo Meta, la empresa dueña de Facebook, anunció que construiría un centro de datos con 350,000 chips para entrenar sus modelos. Microsoft y Google no se quedan atrás, gastando miles de millones en chips de Nvidia, la empresa que fabrica los mejores “cerebros” para IA.
Y entonces apareció DeepSeek…
Conoce a DeepSeek
Esta empresa china acaba de presentar su nuevo modelo de IA, DeepSeek-V3, que puede hacer todo lo que hacen los mejores del mundo. ¿Lo sorprendente? Lo hicieron usando solo 2,000 chips. Es como si alguien hubiera encontrado la forma de hacer una película de Hollywood con el presupuesto de un comercial de televisión... y terminara ganando el Oscar.
¿Cómo lo hicieron? Pues no fue usando chips más potentes (de hecho, por las restricciones de Estados Unidos, ni siquiera podían usar los mejores procesadores de Nvidia). Lo que hicieron fue muy inteligente: encontraron formas de hacer que cada chip trabajara de manera más eficiente.
Imagina que estás resolviendo un problema de matemáticas. Hay partes donde necesitas ser super preciso con los decimales, y otras donde redondear no afecta el resultado final. DeepSeek aplicó este mismo principio: usaron cálculos precisos solo cuando era realmente necesario, ahorrando poder de procesamiento en el resto de las operaciones.
Pero eso no es todo. También mejoraron la forma en que los chips se comunican entre ellos. Es como pasar de tener una conversación donde todos hablan al mismo tiempo, a tener una conversación ordenada donde cada chip sabe exactamente cuándo debe hablar y qué debe decir.
El resultado? Un modelo de IA que cuesta aproximadamente $6 millones para entrenar, comparado con los cientos de millones que gastan otras empresas.
Los modelos que piensan
Y eso no es todo, DeepSeek también ha lanzado su modelo de razonamiento, DeepThink (R1). A diferencia de los modelos tradicionales que dan respuestas directas, R1 “piensa” paso a paso, mostrando su proceso de razonamiento, y eso eso algo que me parece genial.
Aquí vemos cómo funciona: Cuando le pregunto “Cuéntame de ti”, el modelo primero analiza:
Que la pregunta está en español y que necesita responder en el mismo idioma
Cómo estructurar su respuesta, decidiendo empezar con un saludo
Considera qué información es relevante compartir sobre sí mismo
Evalúa el tono apropiado para la respuesta, optando por uno amigable y accesible
Se asegura que la respuesta esté en español y la revisa por si hay errores
Mira todo lo que analiza antes de responderte. Es una ventana al proceso de pensamiento de la IA, algo que hasta ahora era una “caja negra” para los usuarios.
He estado jugando con el modelo estos días y, aunque necesito probarlo más, me encanta poder ver exactamente cómo piensa antes de responderme.
El impacto en el mercado
Esta noticia fue como un terremoto en el mundo de la tecnología. ¿Te acuerdas de Nvidia, la empresa que mencioné al principio? Sus acciones perdieron $600 mil millones en un solo día (para que te hagas una idea, eso es más que el valor de Netflix y Adobe juntos).
¿Por qué tanto drama? Porque DeepSeek acaba de hacer con 2,000 chips lo que otros hacen con cientos de miles. Es como descubrir que puedes hacer un platillo de chef con ingredientes básicos y la técnica correcta - de repente, todo el mundo empieza a cuestionarse por qué gastaban tanto en equipos carísimos.
Y el efecto dominó no se hizo esperar. Piénsalo así: si necesitas menos chips para entrenar modelos, también necesitas menos energía y menos equipos para mantenerlos funcionando. Las empresas que fabrican todo ese equipamiento lo sintieron. Siemens Energy, que hace los equipos para los centros de datos, vio caer sus acciones. Hasta Cameco, que produce el uranio para las plantas nucleares que alimentan estos centros, sintió el impacto.
¿Y sabes qué es lo más interesante? Que algunas empresas como Apple, que recibían críticas por no gastar tanto en IA como sus competidores, parecen haber tomado buenas decisiones. Es como si mientras todos competían por tener el equipo más caro, ellos hubieran estado enfocados en usar mejor lo que tenían.
Durante dos años, los gigantes de la tecnología han estado compitiendo por ver quién puede gastar más en chips y centros de datos. Lo que DeepSeek sugiere es que quizás hay una manera más inteligente de hacer las cosas.
Eso sí, hay algo importante que mencionar: aunque se necesiten menos chips para entrenar los modelos, estos mismos chips son necesarios para ejecutarlos. Y como cada vez más personas y empresas están usando IA, es probable que la demanda de chips siga creciendo. La diferencia es que ahora sabemos que se pueden usar de forma más eficiente.
Pero el impacto de esta eficiencia va mucho más allá del mercado de chips…
La IA al alcance de todos
¿Y por qué esto es importante para nosotros? Porque cuando algo se vuelve más barato de producir, más personas pueden usarlo. Piensa en esto: cuando la IA de DeepSeek procesa texto (lo que llamamos “tokens” en la jerga técnica), cobra $1 por millón de tokens. Anthropic, la empresa detrás de Claude, cobra $15 por lo mismo. Es como descubrir que puedes viajar en clase ejecutiva pagando tarifa económica.
Esto lo cambia todo. Hasta ahora, crear y usar IA avanzada era cosa de grandes empresas con presupuestos millonarios. Ahora se abren nuevas posibilidades: desde pequeñas empresas creando sus propios asistentes especializados, hasta países en desarrollo implementando soluciones de IA en educación o salud.
Y esto es solo el principio. Si DeepSeek encontró esta forma de hacer las cosas más eficiente, otras empresas seguirán el mismo camino. Pronto podríamos ver una competencia donde gane quien use mejor los recursos, no quien tenga más dinero.
Pero la verdadera revolución va más allá de Wall Street y Silicon Valley. Cuando una tecnología se vuelve más eficiente y barata, surgen usos que nadie había imaginado.
Pero espera, aún hay más! (disculpa si suena a infomercial - no pude resistirme): DeepSeek decidió compartir su modelo con todo el mundo. No solo puedes descargarlo y usarlo libremente, sino que también explican detalladamente cómo funciona. Todo lo contrario a empresas como OpenAI, que mantienen sus modelos como secretos de estado. Esta transparencia podría hacer que la IA avance aún más rápido, permitiendo que investigadores y desarrolladores de todas partes construyan sobre estos avances.
¿Qué viene ahora?
El impacto de esto va mucho más allá de lo que podemos imaginar hoy. Los investigadores universitarios podrán experimentar con IA sin preocuparse por el presupuesto. Las startups podrán crear aplicaciones especializadas sin necesidad de inversiones millonarias. Hasta los gobiernos podrán implementar soluciones de IA en servicios públicos sin tener que elegir entre tecnología y otros gastos esenciales.
Claro, hay quienes critican a DeepSeek. Dicen que copiaron elementos de los modelos americanos (algo que OpenAI dice que va contra sus términos de servicio). Pero a estas alturas eso ya no importa tanto: ya sabemos que existe otra forma de hacer IA.
Y esto es importante porque durante años, los grandes laboratorios de IA en Estados Unidos han estado en una carrera por ver quién puede hacer pequeñas mejoras a sus modelos, gastando cada vez más en el proceso. DeepSeek sugiere que existe otro camino.
La IA está dejando de ser un lujo de empresas con enormes centros de datos. Se está convirtiendo en algo tan básico como la electricidad o el internet. Y como pasa siempre que una tecnología se vuelve accesible, lo más emocionante no es lo que podemos imaginar hoy, sino lo que la gente creará cuando la tenga en sus manos.
G
Una publicación muy interesante, Germán.
Y muy en la línea de lo que comentaba yo también unos días atrás.
Se abre un panorama interesante en cuanto a la postura que adoptarán OpenAI, META y demás empresas a partir del lanzamiento de R1.