Microsoft está cambiando la forma en que se construyen los centros de datos para inteligencia artificial. En lugar de operar instalaciones aisladas, la compañía ha empezado a conectar físicamente varios complejos entre sí para que funcionen como un único sistema de cómputo masivo. El objetivo es simple: entrenar modelos de IA mucho más grandes y en menos tiempo, algo que ya no cabe dentro de un solo edificio.
El nuevo centro de datos de Atlanta, operativo desde octubre, es el segundo nodo de este diseño. Comparte arquitectura con otro complejo levantado en Wisconsin y ambos están enlazados mediante fibra óptica dedicada. No se trata solo de ampliar capacidad, sino de permitir que decenas de miles de procesadores trabajen coordinados como si estuvieran en la misma sala, aunque estén a cientos de kilómetros de distancia.
Microsoft describe esta red como una “superfábrica de IA”, pero en términos prácticos es un superordenador distribuido. Cada ubicación aporta racks llenos de GPU, almacenamiento y CPU, y la red se encarga de que los datos fluyan casi sin latencia entre los sitios. Así, el entrenamiento de un modelo puede repartirse entre estados distintos sin penalizar el rendimiento.
La escala es poco habitual incluso para la industria tecnológica. La empresa habla de cientos de miles de GPU NVIDIA Blackwell, exabytes de almacenamiento y millones de núcleos de CPU dedicados a tareas auxiliares. Ese volumen de hardware permite ejecutar cargas que antes habrían tardado meses en completarse y reducirlas a semanas.
Este tipo de infraestructura responde a un problema concreto: los modelos de IA actuales han crecido tanto en tamaño que ya no basta con añadir más tarjetas gráficas en un solo centro. El número de parámetros y datos de entrenamiento exige dividir el trabajo entre múltiples clústeres y sincronizarlos constantemente. Si la red es lenta, todo el sistema se bloquea. Por eso la conexión entre sedes se vuelve tan crítica como los propios chips.
Para evitar esos cuellos de rendimiento, Microsoft ha desplegado decenas de miles de kilómetros de fibra dedicada y ha ajustado sus protocolos de red para que el tráfico viaje por rutas directas y sin congestión. La idea es que las GPU nunca esperen datos. En el entrenamiento de IA, cada segundo ocioso multiplica el coste energético y económico.
El diseño físico también cambia. Los centros Fairwater utilizan racks de alta densidad y refrigeración líquida para disipar el calor de miles de GPU funcionando al máximo. La compañía afirma que el sistema usa un circuito cerrado que apenas consume agua nueva, una respuesta a las críticas habituales sobre el impacto ambiental de estas instalaciones.
Detrás hay también una razón estratégica. Empresas como OpenAI, que dependen de Azure para entrenar sus modelos, necesitan cada vez más potencia de cálculo. Construir estas “superfábricas” permite a Microsoft reducir su dependencia de terceros y competir con otras tecnológicas que desarrollan sus propios complejos masivos, como Google o Amazon.
En la práctica, la carrera por la IA ya no se decide solo con algoritmos. Se decide con infraestructura. Quién tenga más capacidad de cómputo, mejor red y centros mejor conectados podrá entrenar modelos más grandes y más rápido. Eso explica por qué las inversiones se están moviendo hacia instalaciones que se parecen más a plantas industriales que a simples salas de servidores.
Si el experimento funciona, Microsoft no operará centros de datos aislados, sino una red de fábricas de cálculo repartidas por el país. Y esa red será la base invisible sobre la que se ejecuten servicios como Copilot, modelos de lenguaje avanzados y futuras aplicaciones de IA que aún están por llegar.
Fuente: Microsoft