Logotipo de Iceebook Iceebook - Noticias de Ciencia, Tecnología, Economía y más

Microsoft une centros de datos de Wisconsin y Atlanta para entrenar su IA como un único superordenador distribuido

Microsoft está uniendo centros de datos en distintos estados con redes de alta velocidad para entrenar modelos de inteligencia artificial como si funcionaran en un único superordenador distribuido.

Autor - Aldo Venuta Rodríguez

4 min lectura

Centro de datos Fairwater de Microsoft
Centro de datos de IA de Fairwater. Créditos: Microsoft.

Microsoft está cambiando la forma en que se construyen los centros de datos para inteligencia artificial. En lugar de operar instalaciones aisladas, la compañía ha empezado a conectar físicamente varios complejos entre sí para que funcionen como un único sistema de cómputo masivo. El objetivo es simple: entrenar modelos de IA mucho más grandes y en menos tiempo, algo que ya no cabe dentro de un solo edificio.

El nuevo centro de datos de Atlanta, operativo desde octubre, es el segundo nodo de este diseño. Comparte arquitectura con otro complejo levantado en Wisconsin y ambos están enlazados mediante fibra óptica dedicada. No se trata solo de ampliar capacidad, sino de permitir que decenas de miles de procesadores trabajen coordinados como si estuvieran en la misma sala, aunque estén a cientos de kilómetros de distancia.

Microsoft describe esta red como una “superfábrica de IA”, pero en términos prácticos es un superordenador distribuido. Cada ubicación aporta racks llenos de GPU, almacenamiento y CPU, y la red se encarga de que los datos fluyan casi sin latencia entre los sitios. Así, el entrenamiento de un modelo puede repartirse entre estados distintos sin penalizar el rendimiento.

La escala es poco habitual incluso para la industria tecnológica. La empresa habla de cientos de miles de GPU NVIDIA Blackwell, exabytes de almacenamiento y millones de núcleos de CPU dedicados a tareas auxiliares. Ese volumen de hardware permite ejecutar cargas que antes habrían tardado meses en completarse y reducirlas a semanas.

Este tipo de infraestructura responde a un problema concreto: los modelos de IA actuales han crecido tanto en tamaño que ya no basta con añadir más tarjetas gráficas en un solo centro. El número de parámetros y datos de entrenamiento exige dividir el trabajo entre múltiples clústeres y sincronizarlos constantemente. Si la red es lenta, todo el sistema se bloquea. Por eso la conexión entre sedes se vuelve tan crítica como los propios chips.

Para evitar esos cuellos de rendimiento, Microsoft ha desplegado decenas de miles de kilómetros de fibra dedicada y ha ajustado sus protocolos de red para que el tráfico viaje por rutas directas y sin congestión. La idea es que las GPU nunca esperen datos. En el entrenamiento de IA, cada segundo ocioso multiplica el coste energético y económico.

El diseño físico también cambia. Los centros Fairwater utilizan racks de alta densidad y refrigeración líquida para disipar el calor de miles de GPU funcionando al máximo. La compañía afirma que el sistema usa un circuito cerrado que apenas consume agua nueva, una respuesta a las críticas habituales sobre el impacto ambiental de estas instalaciones.

Detrás hay también una razón estratégica. Empresas como OpenAI, que dependen de Azure para entrenar sus modelos, necesitan cada vez más potencia de cálculo. Construir estas “superfábricas” permite a Microsoft reducir su dependencia de terceros y competir con otras tecnológicas que desarrollan sus propios complejos masivos, como Google o Amazon.

En la práctica, la carrera por la IA ya no se decide solo con algoritmos. Se decide con infraestructura. Quién tenga más capacidad de cómputo, mejor red y centros mejor conectados podrá entrenar modelos más grandes y más rápido. Eso explica por qué las inversiones se están moviendo hacia instalaciones que se parecen más a plantas industriales que a simples salas de servidores.

Si el experimento funciona, Microsoft no operará centros de datos aislados, sino una red de fábricas de cálculo repartidas por el país. Y esa red será la base invisible sobre la que se ejecuten servicios como Copilot, modelos de lenguaje avanzados y futuras aplicaciones de IA que aún están por llegar.

Fuente: Microsoft

Continúa informándote

Microsoft anuncia Maia 200, su nuevo chip para impulsar aplicaciones de inteligencia artificial
Tecnología

Microsoft anuncia Maia 200, su nuevo chip para impulsar aplicaciones de inteligencia artificial

Microsoft lanza su chip de inferencia Maia 200 diseñado para ejecutar modelos de IA a gran escala con eficiencia energética mejorada y reducir su dependencia de Nvidia en hardware de IA

Los cables submarinos transportan más del 95% del tráfico mundial de internet
Tecnología

Los cables submarinos transportan más del 95% del tráfico mundial de internet

Más del 95% del tráfico mundial de internet viaja por cables submarinos de fibra óptica una infraestructura física crítica vulnerable a cortes accidentes y tensiones geopolíticas

La inteligencia artificial promete más empleo, pero crecen las dudas sobre su impacto real
Tecnología

La inteligencia artificial promete más empleo, pero crecen las dudas sobre su impacto real

La inteligencia artificial impulsa un discurso optimista sobre el empleo, pero crecen las dudas sobre su impacto real en el mercado laboral, la automatización y la desigualdad entre trabajadores

Meta retira los personajes de IA para menores y prepara una versión específica
Tecnología

Meta retira los personajes de IA para menores y prepara una versión específica

Meta suspende el acceso de los adolescentes a sus personajes de IA y trabaja en una versión diseñada específicamente para menores, con controles parentales integrados.

TikTok crea una empresa conjunta en EE. UU. para evitar la prohibición
Tecnología

TikTok crea una empresa conjunta en EE. UU. para evitar la prohibición

TikTok ha cerrado un acuerdo para crear una empresa conjunta mayoritariamente estadounidense que gestionará los datos y el algoritmo en EE. UU., evitando así una posible prohibición

Un nuevo método enseña a los robots a agarrar como humanos
Tecnología

Un nuevo método enseña a los robots a agarrar como humanos

Un nuevo enfoque inspirado en el tacto humano permite a los robots aprender agarres adaptativos, mejorar su interacción con objetos complejos y avanzar hacia tareas reales del mundo físico