DeepSeek presenta un método para escalar IA sin perder estabilidad
La firma china presentó un enfoque para mejorar la comunicación interna de los modelos de IA sin volver inestable el entrenamiento, un paso clave para ampliar su tamaño y rendimiento.
Autor - Aldo Venuta Rodríguez
4 min lectura
La firma china DeepSeek inició 2026 con la publicación de un nuevo método de entrenamiento de inteligencia artificial que busca facilitar el escalado de los modelos sin que el proceso se vuelva inestable. Analistas consultados por Business Insider describieron el enfoque como un avance relevante para la evolución de los llamados modelos fundamentales, es decir, grandes modelos base sobre los que luego se construyen aplicaciones y sistemas.
El anuncio llega mientras se informa que DeepSeek trabaja en el lanzamiento de R2, su próximo modelo insignia, aunque el artículo técnico no menciona ese producto de forma directa.
El documento, coescrito por el fundador Liang Wenfeng, introduce lo que la compañía denomina “Hiperconexiones con Restricciones Múltiples” (mHC). La propuesta parte de un problema habitual en el desarrollo de grandes modelos de lenguaje: para mejorar el rendimiento, los investigadores suelen intentar que distintas partes del modelo compartan más información entre sí, pero ese aumento de comunicación interna puede hacer que el entrenamiento se vuelva inestable.
DeepSeek plantea permitir una comunicación interna “más rica”, pero bajo restricciones que preserven la estabilidad del entrenamiento y mantengan la eficiencia computacional incluso cuando los modelos crecen en tamaño. En términos prácticos, el método pretende evitar que el sistema “se rompa” a medida que se escala.
Para Wei Sun, analista principal de IA en Counterpoint Research, el enfoque representa “un avance sorprendente”. Sun señaló que DeepSeek combinó varias técnicas para reducir el costo adicional de entrenar un modelo y que, incluso con un aumento moderado del costo, el método podría ofrecer un rendimiento superior.
La analista también interpretó el artículo como una señal de las capacidades internas de la compañía. En su lectura, DeepSeek muestra que puede rediseñar su “pila” de entrenamiento de extremo a extremo y mezclar experimentación rápida con ideas poco convencionales. En ese contexto, Sun afirmó que la empresa puede “evitar los cuellos de botella computacionales y desbloquear saltos en inteligencia”, y vinculó esa idea con el “momento Sputnik” que la compañía habría vivido en enero de 2025 con su modelo de razonamiento R1.
El reporte recuerda que la presentación de R1 impactó a la industria tecnológica y al mercado bursátil de Estados Unidos, al mostrar que el modelo podía igualar a competidores destacados —como o1 de ChatGPT— a una fracción del costo. Esa referencia funciona como telón de fondo para interpretar el potencial alcance del nuevo método de entrenamiento.
Otro analista, Lian Jye Su, analista jefe de Omdia, sostuvo que la investigación podría provocar un efecto dominó y empujar a laboratorios rivales a desarrollar versiones propias del enfoque. Su destacó además el componente de apertura: “La disposición a compartir hallazgos importantes con la industria… demuestra una renovada confianza en la industria china de la IA”, y añadió que esa apertura puede verse como “una ventaja estratégica y un diferenciador clave”.
Sobre el posible vínculo con el próximo modelo, el texto recoge versiones que apuntan a que DeepSeek trabaja en R2 tras un aplazamiento. Un informe de junio de The Information citado en la nota indica que el modelo, previsto para mediados de 2025, se retrasó después de que Liang expresara insatisfacción con su rendimiento, y que la escasez de chips avanzados de IA complicó el panorama, influyendo en cómo los laboratorios chinos entrenan y despliegan modelos de vanguardia.
Aunque el artículo técnico no confirma planes de producto, Su afirmó que el historial de DeepSeek sugiere que la nueva arquitectura “definitivamente se implementará” en su siguiente modelo. Sun, en cambio, se mostró más cautelosa y planteó que podría no existir una versión R2 independiente, dado que DeepSeek ya integró actualizaciones anteriores de R1 en su modelo V3, y que esta técnica podría convertirse en la base de un eventual V4.
El movimiento vuelve a colocar a DeepSeek en el foco de la carrera por escalar modelos con menos fricción técnica y computacional. Con el método mHC sobre la mesa y con expectativas alrededor de su próxima generación de modelos, el impacto final dependerá de cómo la compañía lo traduzca en productos y de si otros laboratorios adoptan enfoques similares en sus propios sistemas.
Continúa informándote
SHASAI busca blindar la IA ante riesgos de ciberseguridad
La Unión Europea impulsa SHASAI, un proyecto que busca reforzar la ciberseguridad de los sistemas de inteligencia artificial desde su diseño hasta su uso real
Plaud presenta NotePin S y una app de notas con IA
Plaud lanza NotePin S, un dispositivo portátil con IA para grabar y transcribir, junto con una app de escritorio pensada para tomar notas de reuniones digitales
Cómo los algoritmos deciden qué ves en redes sociales
Los algoritmos de redes sociales ordenan contenidos según cómo reaccionas y cuánto tiempo te quedas, priorizando retener tu atención más que informarte mejor
California activa un sistema único para solicitar la eliminación de datos personales
California lanza un sistema centralizado que permite pedir a cientos de corredores de datos la eliminación de información personal con una sola solicitud
China gana peso en la IA mientras el internet se llena de contenido sintético
China gana protagonismo en la inteligencia artificial mientras el internet se llena de contenido generado por máquinas, una combinación que cambia el equilibrio tecnológico y degrada la red
La Agencia Espacial Europea confirma un acceso no autorizado a servidores externos de apoyo científico
La Agencia Espacial Europea investiga una intrusión detectada en servidores externos de apoyo científico, un incidente que abre dudas sobre seguridad y control en entornos colaborativos