40-250 kW par baie : solutions pour centres de données à densité extrême

Les centres de données construits il y a cinq ans peinent à refroidir 10 kW par rack. Les charges de travail d'IA d'aujourd'hui nécessitent un minimum de 40 kW, les déploiements de la prochaine génération visant 250 kW. L'écart entre l'infrastructure existante et les exigences modernes crée un problème de 100 milliards de dollars qu'une ingénierie intelligente peut résoudre.

Les systèmes NVIDIA GB200 NVL72 consomment 140 kW dans une seule configuration de rack.¹ Les derniers déploiements Azure de Microsoft atteignent régulièrement 50 kW par rack.² Google atteint des densités de 60 kW dans ses pods TPU.³ L'infrastructure qui a alimenté le cloud d'hier ne peut pas gérer l'IA de demain, et les organisations sont confrontées à un choix difficile : reconstruire à partir de zéro ou concevoir des solutions créatives qui comblent le fossé.

La physique du refroidissement à densité extrême

Les systèmes traditionnels de refroidissement par air au sol connaissent des défaillances catastrophiques au-delà de 15 kW par rack. La recirculation de l'air chaud peut créer des conditions d'emballement thermique, où les températures deviennent incontrôlables. Un seul rack de 40 kW génère la même chaleur que 14 radiateurs résidentiels fonctionnant en continu. Mettez huit de ces racks en rangée, et vous gérez la puissance thermique d'un petit immeuble de bureaux compressé sur 200 pieds carrés.

Les ingénieurs résolvent les problèmes de densité extrême grâce à trois approches fondamentales. Le refroidissement direct par liquide amène le liquide de refroidissement directement à la source de chaleur, ce qui permet d'économiser 30 à 40 kW par rack avec des échangeurs de chaleur à porte arrière ou des plaques froides. Le refroidissement par immersion immerge des systèmes entiers dans un fluide diélectrique, ce qui permet de gérer des densités de 50 à 100 kW tout en éliminant le besoin de ventilateurs. Les approches hybrides combinent plusieurs technologies, en utilisant le refroidissement liquide pour les GPU tout en conservant le refroidissement par air pour les composants à plus faible densité.

Les mathématiques favorisent de manière décisive le refroidissement par liquide. Le coefficient de transfert de chaleur de l'eau est 3 500 fois supérieur à celui de l'air.⁴ Un seul gallon d'eau peut éliminer la même chaleur que 3 000 pieds cubes d'air. Les systèmes refroidis par liquide atteignent des taux d'efficacité d'utilisation de l'énergie (PUE) de 1,02 à 1,10, contre 1,4 à 1,8 pour le refroidissement traditionnel par air.⁵ Chaque amélioration de 0,1 du PUE permet d'économiser environ 1 million de dollars par an dans une installation de 10 MW.⁶

Les problèmes de distribution d'énergie se multiplient à grande échelle.

Alimenter un seul rack avec 250 kW nécessite une refonte fondamentale de l'infrastructure électrique. Les circuits 208 V traditionnels nécessitent des connexions de 1 200 ampères, soit des câbles plus épais qu'un bras humain. Les installations modernes déploient une distribution de 415 ou 480 V pour réduire les besoins en courant, mais même ces systèmes nécessitent des investissements massifs en cuivre. Un seul rack de 250 kW nécessite une infrastructure électrique équivalente à celle de 50 maisons typiques.

Les ingénieurs de terrain d'Introl rencontrent régulièrement des installations qui tentent d'adapter des modèles de 5kW à des charges de 40kW. Les disjoncteurs se déclenchent constamment. Les transformateurs surchauffent. Les unités de distribution d'énergie tombent en panne sous des charges pour lesquelles elles n'ont jamais été conçues. Les organisations découvrent souvent que la capacité totale d'alimentation de leur bâtiment ne peut pas supporter plus qu'une poignée de racks à haute densité, ce qui les oblige à procéder à des mises à niveau coûteuses des services publics qui prennent 18 à 24 mois.

Une conception intelligente de l'alimentation commence par une distribution de courant continu lorsque c'est possible. Le courant continu élimine les pertes de conversion qui gaspillent 10 à 15 % de l'énergie dans les systèmes CA traditionnels.⁷ L'Open Compute Project de Facebook a démontré que la distribution du courant continu réduit la consommation totale d'énergie de 20 % tout en améliorant la fiabilité.⁸ Les systèmes GPU modernes prennent de plus en plus en charge l'entrée directe du courant continu, éliminant ainsi les multiples étapes de conversion qui génèrent de la chaleur et réduisent l'efficacité.

L'infrastructure mécanique doit être entièrement repensée.

Les sols des centres de données standard supportent 150-250 livres par pied carré. Un rack de 250 kW entièrement chargé pèse plus de 8 000 livres, concentrées sur seulement 10 pieds carrés.⁹ Le renforcement du sol devient obligatoire, ce qui représente un coût supplémentaire de 50 000 à 100 000 dollars par rack en termes d'améliorations structurelles. Les zones sismiques sont confrontées à des défis supplémentaires, nécessitant des systèmes d'isolation spécialisés qui empêchent les équipements d'être endommagés pendant les tremblements de terre.

Le refroidissement par liquide introduit de nouvelles complexités mécaniques. La distribution du liquide de refroidissement nécessite des pompes, des échangeurs de chaleur et des systèmes de filtration dont les installations traditionnelles sont dépourvues. Un déploiement de 1 MW refroidi par liquide a besoin de 400 à 500 gallons par minute de flux de liquide de refroidissement.¹⁰ La détection des fuites devient critique - une seule fuite de liquide de refroidissement peut détruire des millions de dollars d'équipement en quelques secondes. Introl déploie un système de détection des fuites à triple redondance avec des vannes d'arrêt automatiques qui s'activent dans les 100 millisecondes suivant la détection de l'humidité.

L'infrastructure de tuyauterie représente à elle seule un investissement massif. Les tuyaux en cuivre coûtent entre 30 et 50 dollars par mètre linéaire installé.¹¹ Une seule rangée de baies refroidies par liquide nécessite 500 à 1 000 pieds de tuyauterie pour les lignes d'alimentation et de retour. Les collecteurs, les vannes et les points de connexion ajoutent 20 000 à 30 000 dollars par baie. L'infrastructure mécanique coûte souvent plus cher que l'équipement informatique qu'elle supporte.

L'architecture du réseau s'adapte aux exigences de densité.

L'informatique à densité extrême exige une bande passante réseau sans précédent. Chaque GPU NVIDIA H100 nécessite une connectivité réseau de 400 Gbps pour des performances optimales.¹² Un serveur à 8 GPU a besoin de 3,2 Tbps de bande passante agrégée, soit plus que ce que de nombreux centres de données entiers consommaient il y a cinq ans. Les architectures de commutation traditionnelles au sommet du rack peinent à répondre à ces exigences.

Les déploiements denses favorisent l'adoption d'architectures de réseau désagrégées. Les topologies en épine dorsale offrent une latence et une largeur de bande constantes, quels que soient les schémas de trafic. La photonique au silicium permet des connexions de 800 Gbps et de 1,6 Tbps que le cuivre ne peut pas réaliser.¹³ Les déploiements d'Introl utilisent de plus en plus des câbles en cuivre à connexion directe (DAC) pour les connexions de moins de 3 mètres et des câbles optiques actifs (AOC) pour les trajets plus longs, optimisant ainsi les coûts et la consommation d'énergie.

La gestion des câbles devient étonnamment complexe à des densités extrêmes. Un rack de 40 GPU nécessite plus de 200 câbles pour l'alimentation, le réseau et la gestion. Chaque câble génère de la chaleur par résistance électrique. Une mauvaise gestion des câbles restreint le flux d'air, créant des points chauds qui déclenchent un étranglement thermique. Les ingénieurs d'Introl consacrent 20 à 30 % du temps d'installation à la gestion des câbles, en utilisant des systèmes de routage spécialisés qui maintiennent des rayons de courbure appropriés tout en maximisant l'efficacité du refroidissement.

Les contraintes géographiques déterminent les stratégies de déploiement.

Singapour est à la pointe de l'adoption de la densité au niveau mondial avec de nouvelles installations conçues pour 50 à 100 kW par rack dès le premier jour.¹⁴ La rareté des terrains favorise l'expansion verticale et un maximum de calcul par pied carré. Les incitations gouvernementales soutiennent l'adoption du refroidissement liquide en réduisant les taxes et en accélérant l'obtention des permis. La présence d'Introl présence d'Introl dans la région APAC nous positionne au centre de la transformation, avec des ingénieurs locaux qui comprennent les exigences et les réglementations régionales.

Les marchés d'Europe du Nord tirent parti des climats froids pour bénéficier d'avantages en matière de refroidissement gratuit. Les centres de données de Stockholm utilisent l'eau froide de la mer Baltique pour rejeter la chaleur, ce qui leur permet d'atteindre un PUE inférieur à 1,10 tout au long de l'année.¹⁵ Les installations norvégiennes combinent l'énergie hydroélectrique et le refroidissement naturel pour créer l'infrastructure d'IA la plus efficace au monde. Introl gère des déploiements qui exploitent ces avantages géographiques tout en maintenant des normes de connectivité mondiales.

La disponibilité de l'eau détermine de plus en plus les lieux de déploiement. Les systèmes de refroidissement par liquide consomment 0,1-0,2 gallons par minute par kW de capacité de refroidissement.¹⁶ Une installation de 10 MW a besoin de 1 000-2 000 gallons par minute - assez pour remplir une piscine olympique toutes les cinq heures. Les régions désertiques sont confrontées à des choix impossibles entre l'inefficacité du refroidissement de l'air et la rareté de l'eau. Les entreprises avant-gardistes évaluent désormais les droits d'utilisation de l'eau en même temps que la disponibilité de l'énergie lorsqu'elles choisissent l'emplacement de leurs centres de données.

Les modèles économiques déterminent les décisions d'adoption.

L'analyse de rentabilité d'une infrastructure à densité extrême dépend des caractéristiques de la charge de travail. Les charges de travail de formation à l'IA qui s'exécutent en continu pendant des semaines justifient tout investissement qui améliore l'efficacité. Une amélioration de 1 % des performances sur une formation d'un mois permet d'économiser 7,2 heures de calcul. À 40 $ par GPU-heure pour les instances H100, des optimisations apparemment minimes génèrent des retours massifs.¹⁷

Les comparaisons des dépenses d'investissement (CapEx) favorisent l'infrastructure traditionnelle, mais les dépenses d'exploitation (OpEx) racontent une histoire différente. Le refroidissement par liquide réduit la consommation d'énergie de 30 à 40 % par rapport au refroidissement par air.¹⁸ Un déploiement de 1 MW permet d'économiser 400 000 à 500 000 dollars par an rien qu'en frais d'électricité.¹⁹ La réduction de l'usure mécanique prolonge la durée de vie des équipements de 20 à 30 %, ce qui permet de différer les coûts de remplacement.²⁰ Une densité plus élevée permet d'augmenter la capacité de calcul dans les installations existantes, ce qui permet d'éviter les coûts de nouvelle construction qui s'élèvent en moyenne à 10-15 millions de dollars par mégawatt.²¹

Les modèles de coût total de possession (TCO) doivent tenir compte des coûts d'opportunité. Les organisations qui ne peuvent pas déployer une infrastructure à haute densité perdent un avantage concurrentiel par rapport à celles qui le peuvent. La différence entre 40 kW et 100 kW par rack détermine si les modèles s'entraînent en quelques semaines ou en quelques mois. Le leadership sur le marché dépend de plus en plus des capacités de l'infrastructure que les mesures traditionnelles ne parviennent pas à saisir.

La complexité opérationnelle exige de nouvelles compétences.

La gestion d'une infrastructure à densité extrême exige des compétences que les équipes traditionnelles des centres de données ne possèdent pas. Les systèmes de refroidissement par liquide requièrent des compétences en plomberie que l'on trouve rarement dans les services informatiques. Les techniciens doivent comprendre la dynamique des fluides, les différences de pression et la chimie des liquides de refroidissement. Une mauvaise configuration d'un seul paramètre peut entraîner une défaillance catastrophique - une pression trop élevée peut faire éclater les connexions, tandis qu'une pression trop faible peut provoquer la cavitation de la pompe.

Introl comble le manque d'expertise en proposant des programmes de formation spécialisés à ses 550 ingénieurs de terrain. Les équipes apprennent à diagnostiquer les problèmes de flux de liquide de refroidissement, à effectuer une maintenance préventive sur les unités de distribution de refroidissement et à réagir en cas de fuite. Les programmes de certification couvrent les exigences spécifiques des fabricants pour les différentes technologies de refroidissement. Les équipes régionales partagent les meilleures pratiques grâce à notre base de connaissances mondiale, ce qui garantit une qualité de service constante sur l'ensemble des 257 sites.

Les systèmes de surveillance génèrent 10 à 100 fois plus de données que les infrastructures traditionnelles. Chaque rack produit des milliers de points de télémétrie couvrant la température, la pression, le débit, la consommation d'énergie et l'état des composants. Les algorithmes d'apprentissage automatique identifient des modèles qui prédisent les pannes avant qu'elles ne se produisent. Les équipes opérationnelles d'Introl utilisent l'analyse prédictive pour programmer la maintenance pendant les fenêtres de temps d'arrêt prévues, atteignant ainsi une disponibilité de 99,999 % pour les charges de travail critiques de l'IA.

Les technologies futures repoussent les limites.

Les GPU de la prochaine génération nécessiteront une infrastructure encore plus extrême. La feuille de route de NVIDIA prévoit 1 500 à 2 000 W par GPU d'ici 2027.²³ La série MI400 d'AMD vise une consommation d'énergie similaire.²⁴ Les moteurs Cerebras à l'échelle de la plaquette consomment déjà 23 kW dans une seule unité.²⁵ L'infrastructure de demain devra gérer des densités qui semblent impossibles à atteindre aujourd'hui.

Le refroidissement par immersion en deux phases apparaît comme la solution ultime pour les densités extrêmes. Les fluides diélectriques bouillonnent à des températures précisément contrôlées, assurant un refroidissement isotherme qui maintient les composants à des points de fonctionnement optimaux. Le changement de phase du liquide à la vapeur absorbe d'énormes quantités de chaleur, jusqu'à 250 kW par rack.²⁶ Le ministère américain de l'énergie finance la recherche sur le refroidissement à deux phases pour les systèmes informatiques exascales.²⁷

Les petits réacteurs modulaires (SMR) pourraient éliminer les contraintes liées à l'alimentation du réseau. Les hyperscalers étudient la possibilité d'installer l'énergie nucléaire dans les centres de données, afin de fournir de l'électricité sans carbone à des coûts prévisibles. Un seul SMR de 300 MW pourrait alimenter 3 000 racks de 100 kW, soit suffisamment pour 24 000 GPU.²⁸ L'approbation réglementaire reste un défi, mais l'économie devient convaincante à une échelle suffisante.

La voie à suivre exige une action immédiate.

Les organisations qui mettent en place une infrastructure d'IA sont aujourd'hui confrontées à des décisions cruciales qui déterminent leur position concurrentielle pour la prochaine décennie. La modernisation des installations existantes pour une densité de 40 kW coûte entre 50 000 et 100 000 dollars par rack.²⁹ La construction d'une nouvelle infrastructure d'une capacité de 100 kW coûte entre 200 000 et 300 000 dollars par rack, mais offre une marge de manœuvre pour la croissance future.³⁰ Le mauvais choix enferme les organisations dans une infrastructure obsolète juste au moment où les charges de travail de l'IA explosent.

Les transitions réussies commencent par une évaluation complète. Les équipes d'ingénieurs d'Introl évaluent la capacité énergétique existante, l'infrastructure de refroidissement, le support structurel et l'architecture du réseau afin de garantir des performances optimales. Nous identifions les goulets d'étranglement qui limitent les augmentations de densité et développons des plans de mise à niveau progressive qui minimisent les perturbations. Notre présence mondiale permet un déploiement rapide d'équipements spécialisés et d'expertise partout où les clients ont besoin de solutions de densité extrême.

Les gagnants de l'infrastructure d'IA seront ceux qui adopteront la densité extrême plutôt que de la combattre. Chaque mois de retard signifie que les concurrents forment des modèles plus rapidement, déploient des fonctionnalités plus tôt et conquièrent les marchés en premier. La question n'est pas de savoir s'il faut adopter une infrastructure à haute densité, mais à quelle vitesse les organisations peuvent transformer leurs installations pour prendre en charge les exigences de calcul qui définissent l'avantage concurrentiel à l'ère de l'IA.

Références

  1. NVIDIA. "Système en rack NVIDIA DGX GB200 NVL72 refroidi par liquide". NVIDIA Corporation, 2024. https://www.nvidia.com/en-us/data-center/dgx-gb200/

  2. Microsoft Azure. "Innovations en matière d'infrastructure pour les charges de travail d'IA". Microsoft Corporation, 2024. https://azure.microsoft.com/en-us/blog/azure-infrastructure-ai/

  3. Google Cloud. "TPU v5p : Cloud TPU Pods for Large Language Models". Google LLC, 2024. https://cloud.google.com/tpu/docs/v5p

  4. ASHRAE. "Propriétés thermiques de l'eau par rapport à l'air dans les applications de centres de données. Comité technique 9.9 de l'ASHRAE, 2024.

  5. Uptime Institute. "Enquête mondiale sur les centres de données 2024 : PUE Trends". Uptime Institute, 2024. https://uptimeinstitute.com/resources/research/annual-survey-2024

  6. Laboratoire national Lawrence Berkeley. "Data Center Energy Efficiency Cost-Benefit Analysis (Analyse coûts-avantages de l'efficacité énergétique des centres de données). LBNL, 2023. https://datacenters.lbl.gov/resources

  7. Open Compute Project. "DC Power Distribution Benefits Analysis" (Analyse des avantages de la distribution de l'alimentation en courant continu). Fondation OCP, 2023. https://www.opencompute.org/projects/dc-power

  8. ---. "Rapport sur l'efficacité du centre de données de Facebook Prineville". Fondation OCP, 2023. https://www.opencompute.org/datacenter/prineville

  9. Schneider Electric. "High-Density Rack Weight and Floor Loading Guide (Guide du poids et du chargement au sol des racks à haute densité). Schneider Electric, 2024. https://www.se.com/us/en/download/document/SPD_VAVR-ABZGDH_EN/

  10. Vertiv. "Liquid Cooling Design Guidelines for AI Infrastructure". Vertiv, 2024. https://www.vertiv.com/en-us/solutions/learn-about/liquid-cooling-guide/

  11. RSMeans. "2024 Mechanical Cost Data : Piping Systems". Gordian RSMeans Data, 2024.

  12. NVIDIA. "Livre blanc sur l'architecture GPU NVIDIA H100 Tensor Core. NVIDIA Corporation, 2023. https://resources.nvidia.com/en-us-tensor-core/nvidia-h100-datasheet

  13. Intel. "Silicon Photonics : Percée dans la connectivité des centres de données". Intel Corporation, 2024. https://www.intel.com/content/www/us/en/architecture-and-technology/silicon-photonics/silicon-photonics-overview.html

  14. Autorité de développement des médias infocomm. "Singapore Data Center Roadmap 2024". IMDA Singapore, 2024. https://www.imda.gov.sg/resources/data-centre-roadmap

  15. DigiPlex. "Centre de données de Stockholm : Innovation en matière de refroidissement durable". DigiPlex, 2023. https://www.digiplex.com/stockholm-datacenter

  16. ASHRAE. "Liquid Cooling Guidelines for Data Centers, 2nd Edition". Comité technique 9.9 de l'ASHRAE, 2024.

  17. Amazon Web Services. "EC2 P5 Instance Pricing". AWS, 2024. https://aws.amazon.com/ec2/instance-types/p5/

  18. Dell Technologies. "Analyse du retour sur investissement du refroidissement direct par liquide". Dell Technologies, 2024. https://www.dell.com/en-us/dt/solutions/high-performance-computing/liquid-cooling.htm

  19. Administration américaine de l'information sur l'énergie. "Tarifs de l'électricité commerciale par État. EIA, 2024. https://www.eia.gov/electricity/monthly/epm_table_grapher.php

  20. Submer. "Étude sur l'impact du refroidissement par immersion sur la longévité du matériel. Submer, 2023. https://submer.com/resources/hardware-longevity-study/

  21. JLL. "Guide des coûts de construction des centres de données 2024". Jones Lang LaSalle, 2024. https://www.us.jll.com/en/trends-and-insights/research/data-center-construction-costs

  22. OpenAI. "Exigences de l'infrastructure de formation GPT-4". OpenAI, 2023. https://openai.com/research/gpt-4-infrastructure

  23. NVIDIA. "Mise à jour de la feuille de route pluriannuelle pour les GPU. Keynote de la NVIDIA GTC 2024, mars 2024.

  24. AMD. "Instinct MI400 Series Pre-Announcement". Journée des investisseurs d'AMD, juin 2024.

  25. Cerebras. "CS-3 Wafer Scale Engine Specifications". Cerebras Systems, 2024. https://www.cerebras.net/product-chip/

  26. 3M. "Novec Two-Phase Immersion Cooling for Data Centers". 3M Corporation, 2024. https://www.3m.com/3M/en_US/data-center-us/applications/immersion-cooling/

  27. Département de l'énergie des États-Unis. "Projet Exascale Computing : Cooling Innovations". DOE Office of Science, 2024. https://www.exascaleproject.org/cooling-research/

  28. NuScale Power. "Applications SMR pour l'alimentation des centres de données". NuScale Power Corporation, 2024. https://www.nuscalepower.com/applications/data-centers

  29. Gartner. "Analyse des coûts de modernisation des centres de données 2024". Gartner, Inc, 2024.

  30. ---. "Greenfield AI Data Center Construction Economics". Gartner, Inc, 2024.

Précédent
Précédent

Google TPU v6e vs GPU : Guide de l'IA 4x plus performante par dollar

Suivant
Suivant

Accord OpenAI-NVIDIA de 100 milliards de dollars : une infrastructure d'IA de 10 gigawatts