Publicidad

Con solo 294.000 dólares, DeepSeek afirma haber entrenado su modelo de IA R1

DeepSeek asegura en Nature que su modelo R1 se entrenó con 512 chips Nvidia H800 y un costo de 294.000 dólares, muy por debajo de rivales de EE. UU.

Logotipo de DeepSeek en fondo negro
Imagen ilustrativa. Créditos: Iceebook

La compañía china DeepSeek ha sorprendido al sector tecnológico al revelar que el entrenamiento de su modelo de inteligencia artificial R1 tuvo un costo total de 294.000 dólares. La cifra, publicada en un artículo revisado por pares en la revista Nature, es significativamente menor a los cientos de millones que se asocian a los desarrollos de gigantes como OpenAI o Google DeepMind.

El documento indica que se emplearon 512 chips Nvidia H800, diseñados específicamente para el mercado chino tras las restricciones de exportación impuestas por Estados Unidos en 2022. Según los investigadores, el proceso de entrenamiento se completó en apenas 80 horas de cómputo intensivo.

El fundador de la empresa, Liang Wenfeng, figura entre los coautores del artículo. El directivo había mantenido un perfil bajo desde enero, cuando la compañía irrumpió en escena anunciando sistemas de IA de bajo costo que sacudieron a los mercados globales y generaron dudas sobre la sostenibilidad del liderazgo estadounidense.

En contraste, Sam Altman, director ejecutivo de OpenAI, declaró en 2023 que el entrenamiento de un modelo fundamental había costado “mucho más de 100 millones de dólares”. Aunque no ofreció cifras exactas, la comparación resalta la magnitud del anuncio chino.

Publicidad

El informe también reconoce que DeepSeek utilizó previamente chips Nvidia A100 en etapas preparatorias. Sin embargo, la fase definitiva del entrenamiento se realizó íntegramente en el clúster de H800, lo que reforzaría el cumplimiento de las regulaciones estadounidenses, según la compañía.

Funcionarios de Estados Unidos, no obstante, han expresado dudas sobre la veracidad de algunos aspectos técnicos reportados por la empresa. Reuters informó en junio que DeepSeek tendría acceso a grandes volúmenes de chips H100, prohibidos para exportación a China, aunque la compañía lo niega.

La publicación en Nature representa la primera vez que DeepSeek hace públicas cifras concretas sobre los costos de su modelo R1. Este enfoque en el bajo presupuesto reaviva el debate sobre la eficiencia, la soberanía tecnológica y el papel de China en la carrera global de la inteligencia artificial.

De confirmarse los datos, la irrupción de DeepSeek marcaría un punto de inflexión en la industria: demostrar que entrenar modelos avanzados de IA no requiere necesariamente de inversiones multimillonarias podría redefinir el equilibrio competitivo entre Pekín y Silicon Valley.

Publicidad

❓ Preguntas frecuentes

Según la empresa china, el modelo R1 se entrenó por 294.000 dólares, una cifra muy inferior a la de rivales en Estados Unidos.

El modelo se entrenó en 80 horas con un clúster de 512 chips Nvidia H800, diseñados para el mercado chino tras las sanciones.

Porque contrasta con los altos costos reportados por OpenAI y Google, lo que reaviva dudas sobre la transparencia de DeepSeek.

De confirmarse, probaría que China puede entrenar modelos potentes con menos inversión, desafiando la ventaja de Silicon Valley.

Continúa informándote

Diagrama esquemático del prototipo inicial de batería de iones de hidruro
Energía

Investigadores chinos crean la primera batería de iones de hidruro recargable

Un equipo del Instituto de Física Química de Dalian desarrolla un prototipo de batería de iones de hidruro de estado sólido que logra alimentar un dispositivo y abre una vía hacia el almacenamiento limpio

Mano robótica señala un gráfico ascendente con un globo digital y la sigla IA iluminada
Tecnología

La IA revolucionará el comercio global y transformará los empleos, advierte la OMC

Un informe de la Organización Mundial del Comercio proyecta que la inteligencia artificial podría aumentar el comercio mundial hasta un 40% en 2040, pero alerta sobre riesgos de desigualdad

Carretera dañada y agrietada tras un terremoto, con conos de seguridad delimitando la zona afectada
Ciencia

Un estudio revela que el 80 % de la energía de un terremoto se convierte en calor

Geólogos del MIT demostraron en “terremotos de laboratorio” que la mayor parte de la energía se transforma en calor y no en vibraciones sísmicas ni fracturas de roca

Ilustración de una bomba industrial con flujo de amoníaco representado en color azul brillante y moléculas de NH₃ en movimiento
Ciencia

Amoníaco más verde: científicos reducen el tiempo de producción de amoníaco de dos días a minutos

Un método basado en plasma permite fabricar amoníaco con menor energía y en minutos, lo que abre la puerta a un proceso más limpio y descentralizado que el de Haber-Bosch

Ilustración artística de los vientos de plasma generados en GX13+1 a partir de su disco de acreción
Espacio

Un hallazgo de XRISM desafía la teoría de los vientos cósmicos y podría cambiar la comprensión de las galaxias

El telescopio XRISM detecta vientos cósmicos sorprendentemente lentos en la estrella de neutrones GX13+1, un hallazgo que contradice lo observado en agujeros negros supermasivos y reabre el debate sobre cómo evoluciona el universo