Comment Isambard-AI a déployé 5 448 GPU en 4 mois : Le nouveau schéma directeur pour l'infrastructure de l'IA
Entrez dans un entrepôt reconverti du National Composites Centre de Bristol et vous découvrirez 150 tonnes de matériel informatique de pointe ronronnant derrière des armoires refroidies par liquide : Isambard-AI, le superordinateur d'intelligence artificielle le plus puissant du Royaume-Uni. Bien sûr, les gros titres célèbrent ses 21 exaflops de performances en matière d'intelligence artificielle, mais voici ce qu'ils omettent : les défis extraordinaires en matière d'infrastructure que l'équipe a surmontés pour mettre en ligne ce projet de 225 millions de livres sterling en seulement 24 mois. Il y a cinq ans ? Un délai impossible à tenir.
Le déploiement des 5 448 superpuces NVIDIA Grace Hopper d'Isambard-AI révèle une évolution importante. Le succès de l'informatique d'IA ne dépend plus seulement de l'achat de GPU. Vous devez maîtriser l'écosystème complexe de l'alimentation, du refroidissement, de la mise en réseau et de la logistique qu'exige l'infrastructure moderne de l'IA. Les entreprises qui prévoient des déploiements de GPU à grande échelle doivent mieux comprendre ces défis et l'expertise spécialisée nécessaire pour les relever.
Quand 5 mégawatts rencontrent 150 tonnes de silicium
L'échelle d'Isambard-AI rompt avec la pensée traditionnelle des centres de données. Chacune de ses 12 armoires HPE Cray EX4000 abrite 440 GPU, générant des densités de chaleur qui feraient fondre les systèmes conventionnels. Le refroidissement par air traditionnel peine à dépasser les 20 kW par baie. Isambard-AI ? Plus de 400 kW par armoire. La solution était le refroidissement liquide direct à 100 %, mais sa mise en œuvre nécessitait des compétences entièrement nouvelles.
"Ce que nous constatons avec des déploiements comme Isambard-AI est un changement fondamental dans ce qui constitue l'expertise du centre de données", révèle le paysage du déploiement de l'infrastructure. Les entreprises qui se concentraient auparavant sur les opérations traditionnelles de rack et d'empilage ont désormais besoin d'ingénieurs qui comprennent la dynamique du refroidissement par liquide, la gestion du câblage à haute densité et la manière de mettre en service des milliers de GPU simultanément. L'équipe de l'université de Bristol a travaillé avec des partenaires spécialisés dans le déploiement pour installer plus de 40 000 connexions en fibre optique. Cela représente suffisamment de câbles pour faire le tour d'une petite ville. Et ils ont dû maintenir la précision requise pour les interconnexions NVLink de 5e génération du système fonctionnant à 1,8 To/s.
Voici le clou du spectacle : le projet est passé de la signature du contrat à l'état opérationnel en moins de quatre mois. Comment cela se fait-il ? Les entreprises spécialisées dans le déploiement d'infrastructures GPU peuvent désormais mobiliser des centaines de techniciens qualifiés en 72 heures. Il ne s'agit pas de sous-traitants informatiques traditionnels. Il s'agit d'équipes spécialisées qui connaissent les spécifications de couple pour les connexions de refroidissement liquide et la séquence optimale pour mettre en ligne des milliers de GPU sans surcharger les systèmes d'alimentation.
La complexité cachée de l'infrastructure axée sur l'IA
Les superordinateurs traditionnels sont adaptés aux charges de travail de l'intelligence artificielle. Isambard-AI a été conçu dès le départ pour des applications d'intelligence artificielle. Leur approche de l'IA a influencé chaque décision d'infrastructure. L'équipe a choisi la conception modulaire du centre de données de HPE et l'a assemblé sur place en 48 heures seulement. Elle a choisi une alimentation électrique sans carbone qui s'aligne sur la 4e place mondiale du système en matière d'efficacité énergétique.
L'infrastructure de réseau représente à elle seule une prouesse de coordination technique. Le réseau HPE Slingshot 11 du système fournit 25,6 Tb/s de bande passante bidirectionnelle sur 64 ports, chaque nœud recevant 800 Gbps de bande passante d'injection réseau. L'installation et la validation de ce réseau complexe de connexions ont nécessité une expertise spécialisée dans les réseaux à haute performance qui va bien au-delà des déploiements d'entreprise typiques. Les spécialistes de l'infrastructure GPU moderne doivent comprendre la couche physique ET la manière dont les différentes topologies d'interconnexion affectent les performances des charges de travail d'IA.
La fourniture d'énergie a créé des défis uniques. Bien que la puissance totale de 5 MW de l'installation Isambard-AI puisse sembler modeste par rapport aux centres de données de grande envergure, la densité et la criticité de cette alimentation ont créé des exigences uniques. Chaque Grace Hopper Superchip exige une alimentation électrique précise. Avec 5 448 d'entre elles fonctionnant de concert, même des fluctuations mineures peuvent entraîner une instabilité du système. L'équipe de déploiement a mis en place des systèmes sophistiqués de gestion de l'alimentation dotés de capacités de surveillance en temps réel, capables de détecter les anomalies et d'y répondre en quelques millisecondes.
Tirer les leçons de la course à l'infrastructure d'IA en Europe
Le déploiement d'Isambard-AI a eu lieu alors que les pays européens se livraient une concurrence acharnée pour la suprématie de l'IA. Le système finlandais LUMI offre une puissance de calcul traditionnelle de 380 pétaflops. Le futur supercalculateur allemand Jupiter promet d'être le premier système exascale d'Europe. Pourtant, Isambard-AI a atteint son statut opérationnel plus rapidement que n'importe lequel de ses homologues européens. Il est passé de la proposition initiale à l'exploitation complète en moins de deux ans. À titre de comparaison, les systèmes comparables ont généralement un délai de 4 à 5 ans.
Cet avantage en termes de rapidité provient en partie des processus d'approvisionnement rationalisés du Royaume-Uni après le Brexit. Mais surtout, il découle de l'évolution des méthodologies de déploiement des GPU. Les installations traditionnelles de superordinateurs suivaient des phases séquentielles : infrastructure, matériel, réseau, logiciel. Les déploiements modernes de GPU s'appuient sur des flux de travail parallèles. Des équipes spécialisées travaillent simultanément sur l'installation du refroidissement liquide, la mise en service du GPU et la configuration du réseau, ce qui réduit considérablement les délais.
Le contraste avec d'autres déploiements européens est riche d'enseignements. Le système espagnol MareNostrum 5, malgré ses spécifications impressionnantes, a nécessité un réaménagement important des installations existantes. Le système italien Leonardo a connu des retards dans l'intégration de ses capacités d'accélération de l'IA. Le succès d'Isambard-AI démontre qu'une infrastructure d'IA conçue à cet effet, déployée par des équipes disposant d'une expertise spécifique en matière de GPU, peut permettre d'obtenir des délais plus courts que les systèmes HPC modernisés.
Le déficit d'expertise menace les ambitions de l'IA
Les entreprises du monde entier se lancent dans une course au déploiement d'une infrastructure d'IA, mais un manque de compétences critique est apparu. Les techniciens traditionnels des centres de données, même s'ils sont expérimentés, n'ont souvent pas les connaissances spécialisées requises pour les déploiements de GPU modernes. Les systèmes de refroidissement par liquide nécessitent une compréhension de la dynamique des fluides et de la gestion thermique. Les configurations GPU à haute densité exigent une expertise en matière d'alimentation électrique et d'optimisation des flux d'air qui va au-delà des déploiements de serveurs conventionnels.
Ce déficit d'expertise est particulièrement marqué dans plusieurs domaines. La gestion des câbles pour les grappes de GPU est devenue une discipline spécialisée. Les milliers de connexions à haut débit d'Isambard-AI ont nécessité un routage précis pour maintenir l'intégrité du signal tout en permettant l'accès à la maintenance. Les techniciens en charge de l'alimentation et du refroidissement doivent comprendre non seulement les exigences en régime permanent, mais aussi le comportement dynamique des charges de travail de l'IA, qui peuvent passer de l'inactivité à la pleine puissance en quelques millisecondes.
Des entreprises comme introl.com ont émergé pour combler cette lacune, en développant des équipes spécialisées qui combinent les compétences traditionnelles des centres de données avec l'expertise spécifique des GPU. Leurs déploiements de systèmes dépassant les 1 000 nœuds GPU démontrent l'échelle à laquelle cette nouvelle race de spécialistes de l'infrastructure opère. La capacité de mobiliser 40 techniciens en l'espace d'une semaine, comme on l'a vu dans les récents déploiements de grands fournisseurs de nuages de GPU, représente une nouvelle capacité opérationnelle qui n'existait pas dans l'industrie traditionnelle des centres de données.
Au-delà du déploiement : maintenir l'excellence de l'infrastructure de l'IA
Les défis ne s'arrêtent pas au moment où le dernier GPU s'allume. La maintenance d'un système comme Isambard-AI nécessite une optimisation continue et une gestion proactive. L'équipe de l'université de Bristol a mis en place des systèmes de surveillance sophistiqués qui suivent tout, des schémas d'utilisation des GPU aux débits du liquide de refroidissement. Avec les 850 Go d'espace d'adressage de la mémoire unifiée du système par nœud, même des inefficacités mineures peuvent avoir un impact significatif sur la productivité de la recherche.
L'infrastructure GPU moderne exige une approche DevOps des systèmes physiques. Les mises à jour des microprogrammes doivent être soigneusement orchestrées par les équipes d'ingénieurs sur des milliers d'appareils. Les systèmes de refroidissement nécessitent une maintenance prédictive basée sur les schémas d'utilisation et les conditions environnementales. Les configurations de réseau doivent être ajustées en permanence afin d'optimiser les modèles de charge de travail en constante évolution. Cette complexité opérationnelle conduit au développement de modèles de services spécialisés dans lesquels les partenaires d'infrastructure fournissent une optimisation continue plutôt qu'un déploiement ponctuel.
Les implications économiques sont importantes. Chaque Grace Hopper Superchip représente un investissement important. Le temps d'inactivité a un impact direct sur le retour sur investissement. Les organisations qui déploient de grands clusters de GPU s'appuient de plus en plus sur des partenaires qui peuvent fournir non seulement l'installation, mais aussi des services d'optimisation continus. La capacité à maintenir des taux d'utilisation de plus de 95 %, comme le prévoient les principaux déploiements d'infrastructures d'IA, exige une attention constante à la planification de la charge de travail, à l'allocation des ressources et à la santé du système.
Tracer l'avenir de l'infrastructure de l'IA
Le déploiement réussi d'Isambard-AI offre des leçons cruciales pour les organisations qui planifient leurs propres initiatives en matière d'infrastructure d'IA. Tout d'abord, l'époque où l'on traitait les GPU comme de simples composants de serveur est révolue. Les systèmes d'IA modernes nécessitent une réflexion globale sur l'alimentation, le refroidissement, la mise en réseau et les opérations dès les premières étapes de la planification. Deuxièmement, les délais réduits obtenus par Isambard-AI (de la conception à l'exploitation en moins de deux ans) deviennent la nouvelle norme, mais uniquement pour les organisations qui s'associent à des équipes de déploiement spécialisées.
À l'avenir, les défis en matière d'infrastructure ne feront que s'intensifier. L'architecture Blackwell de NVIDIA promet des densités de puissance encore plus élevées, avec certaines configurations dépassant les 1 000 W par GPU. Le refroidissement liquide passera du statut d'option avancée à celui de nécessité absolue. Les besoins en bande passante du réseau continueront de croître de manière exponentielle à mesure que la taille des modèles atteindra 10 billions de paramètres. Les entreprises qui n'ont pas accès à une expertise spécialisée en matière d'infrastructure GPU seront de moins en moins en mesure d'être compétitives dans la révolution de l'IA.
L'investissement du Royaume-Uni dans Isambard-AI représente plus qu'une simple réalisation technique. Il s'agit d'un modèle qui montre comment les nations et les organisations peuvent déployer rapidement une infrastructure d'IA de classe mondiale. En combinant des installations spécialement conçues, des processus d'approvisionnement rationalisés et des partenariats avec des équipes de déploiement spécialisées, le projet démontre que les défis en matière d'infrastructure de l'ère de l'IA, bien que redoutables, sont loin d'être insurmontables. Pour ceux qui sont prêts à investir dans l'expertise et les partenariats adéquats, le chemin qui mène de l'ambition au supercalculateur d'IA opérationnel n'a jamais été aussi simple.
Les universités, les entreprises et les gouvernements du monde entier envisagent d'investir dans leur propre infrastructure d'IA. Isambard-AI est la preuve qu'avec la bonne approche et les bons partenaires, même les déploiements GPU les plus ambitieux peuvent passer de la proposition à la production à la vitesse de l'innovation. La question n'est plus de savoir s'il faut construire une infrastructure d'IA, mais si l'on a accès à l'expertise spécialisée nécessaire pour bien faire les choses.
Références
Alliance Chemical. "Révolution du refroidissement des GPU AI : Deionized Water, Ethylene Glycol & Propylene". Alliance Chemical. Consulté le 1er août 2025. https://alliancechemical.com/blogs/articles/ai-gpu-cooling-revolution-deionized-water-ethylene-glycol-propylene-glycol-the-ultimate-liquid-cooling-guide.
Computer Weekly. "Bristol met en service un superordinateur d'IA britannique". Computer Weekly, 2025. https://www.computerweekly.com/news/366584173/Bristol-goes-live-with-UK-AI-supercomputer.
Computer Weekly. "Le gouvernement britannique promet 225 millions de livres sterling pour financer la construction d'un superordinateur d'IA par l'université de Bristol avec HPE". Computer Weekly, novembre 2023. https://www.computerweekly.com/news/366558036/UK-government-pledges-225m-to-fund-University-of-Bristol-AI-supercomputer-build-with-HPE.
Data Center Knowledge. "Refroidissement liquide direct à la puce : Optimiser l'efficacité des centres de données". Data Center Knowledge. Consulté le 1er août 2025. https://www.datacenterknowledge.com/cooling/direct-to-chip-liquid-cooling-optimizing-data-center-efficiency.
Entreprise commune EuroHPC. "Inauguration de MareNostrum 5 : l'Europe accueille un nouveau supercalculateur de classe mondiale". 21 décembre 2023. https://www.eurohpc-ju.europa.eu/inauguration-marenostrum-5-europe-welcomes-new-world-class-supercomputer-2023-12-21_en.
Entreprise commune EuroHPC. "MareNostrum5 : un nouveau supercalculateur EuroHPC de classe mondiale en Espagne". 16 juin 2022. https://eurohpc-ju.europa.eu/marenostrum5-new-eurohpc-world-class-supercomputer-spain-2022-06-16_en.
Forschungszentrum Jülich. "JUPITER Technical Overview. Consulté le 1er août 2025. https://www.fz-juelich.de/en/ias/jsc/jupiter/tech.
GOV.UK. "Opportunité de lancement de l'AIRR de l'IA souveraine : appel aux chercheurs". Consulté le 1er août 2025. https://www.gov.uk/government/publications/sovereign-ai-airr-launch-opportunity-call-for-researchers/sovereign-ai-airr-launch-opportunity-call-for-researchers.
Hewlett-Packard Enterprise. "Le gouvernement britannique investit 225 millions de livres sterling pour créer le supercalculateur d'IA le plus puissant du Royaume-Uni avec l'université de Bristol et Hewlett Packard Enterprise. Communiqué de presse, novembre 2023. https://www.hpe.com/us/en/newsroom/press-release/2023/11/uk-government-invests-225m-to-create-uks-most-powerful-ai-supercomputer-with-university-of-bristol-and-hewlett-packard-enterprise.html.
HPCwire. "L'université de Bristol accueillera le supercalculateur Isambard-AI, marquant une nouvelle ère dans l'IA et le HPC". HPCwire. Consulté le 1er août 2025. https://www.hpcwire.com/off-the-wire/university-of-bristol-to-host-isambard-ai-supercomputer-marking-a-new-era-in-ai-and-hpc/.
Hyperstack. "Tout sur les GPU NVIDIA Blackwell : Architecture, Features, Chip Specs". Consulté le 1er août 2025. https://www.hyperstack.cloud/blog/thought-leadership/everything-you-need-to-know-about-the-nvidia-blackwell-gpus.
IBM. "Introl Solutions, LLC". IBM PartnerPlus Directory. Consulté le 1er août 2025. https://www.ibm.com/partnerplus/directory/company/9695.
Introl. "Déploiement de l'infrastructure GPU - Optimisez vos déploiements GPU". Consulté le 1er août 2025. https://introl.com/gpu-infrastructure-deployments.
Introl. "Introl - Experts en infrastructure GPU et en déploiement de centres de données. Consulté le 1er août 2025. https://introl.com.
Introl. "Introl - Infrastructure GPU, solutions pour centres de données et déploiement HPC. Consulté le 1er août 2025. https://introl.com/blog.
IT Pro. "Inside Isambard-AI : The UK's most powerful supercomputer (L'intérieur d'Isambard-AI : le superordinateur le plus puissant du Royaume-Uni). IT Pro. Consulté le 1er août 2025. https://www.itpro.com/infrastructure/inside-isambard-ai-the-uks-most-powerful-supercomputer.
IT4Innovations. "LUMI. Consulté le 1er août 2025. https://www.it4i.cz/en/infrastructure/lumi.
Jetcool. "Qu'est-ce que le refroidissement liquide direct pour les centres de données d'IA ? Consulté le 1er août 2025. https://jetcool.com/post/what-is-direct-liquid-cooling-for-ai-data-centers/.
NVIDIA. "NVLink & NVSwitch pour une communication multi-GPU avancée". Consulté le 1er août 2025. https://www.nvidia.com/en-us/data-center/nvlink/.
NVIDIA. "The Engine Behind AI Factories | NVIDIA Blackwell Architecture". Consulté le 1er août 2025. https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/.
Blog de NVIDIA. "La plate-forme NVIDIA Blackwell multiplie par plus de 300 l'efficacité de l'eau. Consulté le 1er août 2025. https://blogs.nvidia.com/blog/blackwell-platform-water-efficiency-liquid-cooling-data-centers-ai-factories/.
ResearchGate. "Isambard-AI : un supercalculateur de classe supérieure optimisé spécifiquement pour l'intelligence artificielle". Octobre 2024. https://www.researchgate.net/publication/384938455_Isambard-AI_a_leadership_class_supercomputer_optimised_specifically_for_Artificial_Intelligence.
SDxCentral. "Le supercalculateur britannique Isambard-AI, d'une valeur de 300 millions de dollars, est officiellement lancé". SDxCentral. Consulté le 1er août 2025. https://www.sdxcentral.com/news/uks-300m-isambard-ai-supercomputer-officially-launches/.
TechTarget. "Le moment du refroidissement liquide est offert par l'IA". TechTarget. Consulté le 1er août 2025. https://www.techtarget.com/searchdatacenter/feature/Liquid-coolings-moment-comes-courtesy-of-AI.
The Engineer. "Le superordinateur Isambard AI est lancé à Bristol". The Engineer. Consulté le 1er août 2025. https://www.theengineer.co.uk/content/news/isambard-ai-supercomputer-launches-in-bristol/.
Recherche et innovation au Royaume-Uni. "300 millions de livres sterling pour lancer la première phase de la nouvelle ressource de recherche sur l'IA". Consulté le 1er août 2025. https://www.ukri.org/news/300-million-to-launch-first-phase-of-new-ai-research-resource/.
Université de Bristol. "2023 : Isambard AI Bristol". Institut Cabot pour l'environnement. Consulté le 1er août 2025. https://www.bristol.ac.uk/cabot/news/2023/isambard-ai-bristol.html.
Université de Bristol. "Juillet : Le superordinateur le plus puissant du Royaume-Uni est lancé à Bristol". Actualités, juillet 2025. https://www.bristol.ac.uk/news/2025/july/isambard-launch.html.
Université de Bristol. "Novembre : Investissement sans précédent de 225 millions de livres sterling pour créer le superordinateur le plus puissant du Royaume-Uni". Actualités, novembre 2023. https://www.bristol.ac.uk/news/2023/november/supercomputer-announcement.html.
Wikipédia. "Blackwell (microarchitecture)". Consulté le 1er août 2025. https://en.wikipedia.org/wiki/Blackwell_(microarchitecture).
Wikipédia. "LUMI. Consulté le 1er août 2025. https://en.wikipedia.org/wiki/LUMI.
"Isambard-AI : a leadership class supercomputer optimised specifically for Artificial Intelligence", arXiv preprint arXiv:2410.11199 (2024). http://arxiv.org/pdf/2410.11199.